快捷、权威、形象——准确查找一个难检字的相关信息再不用跑遍古籍阅览室,翻便“大部头”,只需轻点鼠标——登录汉字全息资源应用系统,点击现代通用字集,搜索要查找的字,不仅能够显示其现代字形、字音、字义信息,还可以查到该字从甲骨文、金文到篆书、楷书的历史字形演变过程,从《说文》《尔雅》《方言》《释名》一直到《康熙字典》等历代辞书对该字的释义,及其在一些常用古籍文献中被使用的情况。
日前,国家语委重大基础资源建设项目“通用汉字全息数据库建设”的标志性成果“汉字全息资源应用系统”正式启动上线。该项目旨在运用现代中文信息处理技术,构建一个具有多维关联关系、科学系统、高效实用的汉字全息数据库。
“无论是初学汉字的小学生,还是研究汉字的学者,系统都可以提供相应的帮助。”项目主持人、北京师范大学教授王立军介绍,系统采用的多层级字集设计模式,包括常用字集、现代通用字集、古籍印刷通用字集、全字符集等。常用字集可以满足中小学基础教育领域的一般需要;现代通用字集可以满足社会文化领域一般汉字使用者的需要;古籍印刷通用字集面向具备一定古汉语知识、阅读一般古籍文献的用户;全字符集则可以满足汉字研究的专业人士需求,为专业研究提供支撑。
借助资源库,给汉字家族绘家谱
作为一名古文字爱好者和研究者,张华的书桌上摆满了各种字典、工具书——查找一个字在不同时期形、音、义的演变经常要翻阅多部“大部头”才能找到相对准确、权威的答案,而线上的一些汉字数据库很多又存在收录不全、权威性差等诸多问题。如今,“汉字全息资源应用系统”的正式上线可能让他再不用犯难——借助资源库,“古今汉字任你查”已不再是梦想。
本期上线的系统涵盖字符集4种,其中常用字集3500字,通用规范字8105字,古籍印刷字16490字,全字符集81722字;还有辞书20种,古籍文献60种,历代字形图415675个。其中包括大量的图形信息资源和文本信息资源,分别来自古文字拓片、文字编、规范字表、编码字符集、历代辞书、经典文献、中小学语文教材等,涵盖了古今各个时期文字的形、音、义、用、码五大方面的重要信息。
这一数据库,可以说是“海量”。如此庞大的信息量,是如何做到相互对应、关联的呢?
如果说建立数据库是给汉字家族绘制一张家谱,那么建立关联则是搞清谱系、辈分等关系。“首先是汉字属性的分解。构建一个具有多角度关系的汉字实用数据库,必须以汉字的属性作为基本的依托。”北京师范大学教授王宁指出,团队从20世纪90年代开始总结汉字的属性,除形、音、义之外,还增加码、用两个部分。码是汉字在计算机中的编码,用是汉字的使用,而且做了大量的属性细化研究,这样就有条件将笼统的汉字个体的资源库,改造为汉字的属性库,解决关联的多角度问题。
王宁解释:“其次是层次的确立,根据‘汉字效用递减率’,我们将汉字分为常用-通用-适用-罕用-无用5个层。第一、二层次涵盖36000字,以外的字只存记忆,不做深度开发,这样一方面可以在应用中扩大有用信息的使用度,另一方面将垃圾信息、无用信息退出关联,不干扰有效信息的集合和调用。”
“再次就是中介的寻求,我们继承传统语言学的研究成果,以《说文解字》的9353个小篆及其重文为中介来关联。古文字的确切识读,绝大部分是从《说文》开始的,这样就保证了不同形制、不同字体、不同时代汉字的最大限度关联。”王宁补充道,正是依靠《说文》小篆这些“核心家族成员”作联系,汉字家族内部不同族群的谱系才得以绘制在一起。



×