《通用规范汉字表》与汉字国际化的相互促进

首页 > 教育新闻 > 教育杂谈/2013-09-02 / 加入收藏 / 阅读 [打印]

    ■张轴材

    在当今世界,汉字已经成为国际文字,这已是不争的事实。汉字国际化、标准化的重要标志是ISO/IEC 10646的重要组成部分——中日韩汉字统一编码(CJK Unified Ideographs)。由于中国两岸四地专家与美国、日本、韩国、越南、新加坡等国专家长期以来的通力合作,CJK已成为国际上最先进、最富权威性的编码字符集标准。CJK在计算机与通迅领域的实现与应用已成为多文种文明发展的基础和象征。

    在真实世界存在的每一个汉字都应在计算机世界有其对应的“代表”,或代码。在ISO属下的汉字组(IRG)领导下,国际标准已编码汉字业已逼近8万,相当充分地反映了中文汉字的需求,并且正在向甲骨文、金文等古文字方面拓展。毫无疑问,这项巨大的文字整理工程有着深远的经济、文化和技术意义。中国各主管部门也一直在支持这项工作。

    但由于语言的复杂性和ISO工作的优先级问题,CJK有两方面较重要的工作始终悬而未决:

    第一,面对巨大的超级字符集,亟需基于海量分类加权语料库的现代字频统计、权威性地指明一个通用的子集。

    第二,CJK完成了各个国家与地区的汉字形态上的认同,但是没有指明未认同的汉字之间的字意上的关联(简繁、正异、新旧字形等等)。

    现在,由于《通用规范汉字表》的颁布,可以说上述“通用子集”和“关联字”两大问题都在很大程度得到了完满解决。

    当今,国际互联网正在迈入一个新的阶段,IPv4地址枯竭而IPv6正在启用,以开辟更大的地址空间,不仅国家与地区的顶级域名(ccTLD)、通用顶级域名(gTLD)等一系列新域名都在迅速国际化(IDN)。国际域名分配机构ICANN正在紧锣密鼓地研究顶级域名国际化的异体字问题,以中国CNNIC为组长的专家工作组正在与各国家地区的专家一起重点探讨中文异体字的问题。从文字角度,这实质上是包括简繁、正异、新旧字形在内的广义的异体字问题。

    作为专家工作组的成员,对于《通用规范字表》可以说是“翘首以盼”。首先,8000字规模的通用子集,具有法律上的权威性,大大缩小待处理的异体字的范围,使之更适应现代生活;其次,字表附表1—《规范字与繁体字、异体字对照表》收录了3120个规范字,并分别列出了相应的繁体字、异体字。这对于互联网国际化域名异体字的处理,也不啻是场“及时雨”,对于中文域名问题的解决,构筑实用的中文域名异体字表,有重要指导意义。

    (作者系北京书同文数字化公司总裁)

  • 最新内容
  • 相关内容
  • 网友推荐
  • 图文推荐