甲骨文数字化平台建设

李雪山 刘永革
(安阳师范学院甲骨学与殷商文化研究中心)

  1.研究背景

  甲骨文是世界上最早的文字,发现迄今已历百年,她是我国悠久与灿烂文化的象征,是安阳市和河南省的宝贵文化遗产,甲骨文的数字化研究将推动甲骨文研究的进程,并为建设我们河南省成为文化大省做出贡献。

  若干年来,甲骨文的研究蓬勃发展,但是其研究手段和工具很落后,有的研究者戏称为“半体力劳动”,随着不断出土的甲骨新材料和日益增多甲骨文研究文献,甲骨文研究者陷入了文献资料的海洋,甲骨文研究的信息化数字化变得日益重要和迫切,而甲骨文研究信息化的基础是甲骨文材料的数字化处理,这也正是本软件开发的背景。

  安阳师范学院地处甲骨文的故乡,早在20年前就举办殷商文化研究班,成立了殷商文化研究所和董作宾甲骨学研究中心,拥有殷商文化和甲骨文专业期刊《殷都学刊》,2000年我们安阳师范学院成立了甲骨文信息化课题组,经过5年的努力,在计算机处理甲骨文方面作了一些工作,基本完成甲骨文字库和甲骨文输入法的设计和实现,为甲骨文真正进入计算机打下了坚实的基础。

  针对上述的情况,制定了开发甲骨文数字化平台这个课题。历时三年的开发、实验、改革,最终形成一个具有一定的科技含量、内容丰富的甲骨文数字化研究软件。只要是从事甲骨文研究领域的专家、学者,就可以利用本软件查询与甲骨文相关的知识。

  2.研究意义

  目前,甲骨文的研究蓬勃发展,但是其研究手段和工具很落后。尤其随着不断出土的甲骨新材料和日益增多甲骨文研究文献,甲骨文研究者陷入了文献资料的海洋。造成许多专家、学者看到和研究的仅是全部资料当中的一部分,还有很多的资料由于各种原因无法涉及,造成研究成果的局限性和片面性。由于这些原因也就造成了甲骨学领域中争议不断。

  现在,计算机技术不断发展,计算机能够存储海量的资料和信息,能够输出精细的图像和图形,并且计算机能够帮助专家和学者进行一些检索、筛选的工作,大大减轻专家、学者的研究工作量。本项目在研究数字化技术的基础上开发《殷墟花园庄东地甲骨》,此工作将为学术界提供一个集字、图、文三位一体的《殷墟花园庄东地甲骨》数字化研究平台,并为下一步其他甲骨文材料的数字化工作打下基础。总之,本项目是计算机在具体领域的应用,具有积极地意义,为在其他领域进行计算机辅助提供一条道路,具有一定的理论和现实意义。

  3.研究内容

  本项目的研究内容和开发内容是在我们以前的基础上的进一步加深。比如甲骨文字库的建设,甲骨文字库一直是甲骨文研究领域需要解决的一个重要问题,它也是甲骨文信息化数字化的基础。北京师范大学、华东师范大学、香港中文大学都作了甲骨文字库,我们以前作的甲骨文字库和他们的一样,是临摹甲骨文字形,甲骨学界对此意见不一,即对于字形的选取上一直存在争议,在本项目中我们准备利用计算机图形技术,从甲骨片上取字,然后利用曲线拟合和插值技术,还原甲骨文字形,做到客观真实地再现甲骨文的字形。

  1991年,中国社会科学院考古研究所安阳工作队在殷墟花园庄东地发掘了一个甲骨坑,编号91花东p,坑内出土甲骨1538片,其中有刻辞的689片,以大块的完整的卜甲居多,这是继1936年小屯北地YH127坑,1973年小屯南地甲骨发现以来殷墟甲骨文的第三次大发现,受到学术界瞩目,被评为1991年全国考古十大发现(《花园庄东地甲骨》,云南人民出版社,2003年12月)。2003年12月,《花园庄东地甲骨》(简称《花东》)一书,在编著者的辛勤努力下,终于与读者见面。,该书共六本,价格不菲,非一般学者能得到,即使得到这套书,使用它也是半体力劳动,为加快对这批甲骨研究的进程,本项目在研究数字化技术的基础上开发《殷墟花园庄东地甲骨》,此工作将为学术界提供一个集字、图、文三位一体的《殷墟花园庄东地甲骨》数字化研究平台,并为下一步其他甲骨文材料的数字化工作打下基础。

  4.平台实现技术

  VC++是Windows平台上的C++编程环境,学习VC++要了解很多Windows平台的特性并且还要掌握MFC、ATL、COM等的知识。VC++作为一个主流的开发平台一直深受编程爱好者的喜爱。

  VC++基于C,C++语言,主要由是MFC组成,是与系统联系非常紧密的编程工具,它兼有高级,和低级语言的双重性,功能强大,灵活,执行效率高,几乎可说VC++在Windows平台无所不能。VC++可以开发优秀的基于通信的程序,可以开发高效灵活的文件操作程序,可以开发灵活高效的数据库操作程序。

  (1)编码输入技术

  本软件在设计甲骨文字体时,采用的是自己定义的字体编码,利用汉字编码中不常使用的一部分编码,来作为甲骨字的编码。

  (2)古文字造字的曲线拟合技术

  曲线拟合是根据给定数据元素(样本点)建立起合适的数学模型,通过计算机求得一系列逼近的插值点信息,再用一系列微小的直成段把这些插直信息连接成曲线。插直点信息选择的适当,拟合出来的曲线就光滑。因此曲成拟合时最关键的就是如何正确地采取一系列的插值信息。在三次B2spline曲线设计中,遇到使曲线与特征多边形相切,出现尖点、拐点、切入一段直线等多种情形,可运用角点重叠和角点共线的技巧,调用Bresenham直线算法来加以解决。角点在存储中如果出现了冗余问题,用角点位置字节中的一或两位来表示角点的特征,当取出该角点进行曲线拟合时,根据角点特征信息先进行判断,然后再进行曲线相应的处理。

  (3)古文字的存储技术

  本软件采用ACCESS数据库,字、图、文分别存储在数据库当中。字包括各种甲骨文字和甲骨文字的异形体,以及甲骨文字的简体汉字、繁体汉字及隶定字等。图包括甲骨文拓片及甲骨文拓片的摹本。文包括甲骨片的原文和释文。

  (5)古文字的检索技术

  本软件提供了多种检索方式。其中包括根据汉字查找甲骨文字,根据编号查找甲骨片,根据甲骨文字查找甲骨片和组合查询等。根据汉字查找甲骨文字,输入某个汉字,查找出与之对应的甲骨文字及其异形体。根据编号查找甲骨片,输入某个甲骨片编号,就会打开甲骨片信息窗口,可以查看此甲骨片的原文和释文,及拓片和摹本等。根据甲骨文字查找甲骨片,输入某个甲骨文字,就会打开甲骨片信息窗口,可以查看包含有此甲骨文字的所有甲骨片,选择不同甲骨片可以查看此甲骨片的原文和释文,及拓片和摹本等。组合查询,允许输入多个甲骨文字,打开甲骨片信息窗口,可以查看同时包括这多个甲骨文字的甲骨片,以及此甲骨片的原文和释文,及拓片和摹本等。

  5.软件设计

  本软件分为“部首”、“字表”、“异形体窗口”三级窗口。包括有甲骨片信息窗口、甲骨文输入法、甲骨文字库(字)、甲骨文拓片图像库(图)、甲骨文拓片释文库(文)等内容。

  (1)部首

  右边窗口中包括有甲骨文中常用部首,选择部首,字框颜色加深,此字体为选择部首,左边框里会显示出此甲骨文和其对应的汉字、隶定字(如果有的话)。用键盘上的四个方向键也可改变选择部首。

  (2)字表

  用鼠标双击部首,在右边窗口中就出现该部首对应的全部甲骨文字,单击某个字,字框颜色加深,此字体为选择字体,左边框里会显示出此甲骨文和其对应的汉字、隶定字(如果有的话)。用键盘上的四个方向键也可改变所选字。

  (3)异形体窗口

  选择所选字,就可以进入异形体窗口,异形体窗口中包括次甲骨文字的常见的不同的书写方式。

  (4)甲骨片信息窗口

  左下方的查找框提供输入汉字查甲骨文的功能,可以输入简体中文或繁体中文查到的对应甲骨文,查找结果会显示到甲骨片信息窗口。窗口中包括甲骨片编号,此甲骨片的原文和释文,以及原甲骨片的真实拓片和摹本。

  (5)甲骨文输入法。

  本软件考虑到甲骨文的特殊性,如形、音、义的不确定性以及使用的频率,我们采用了可视化的输入法。通过此输入法可以完成甲骨文的输入。

  (6)甲骨文字库(字)。

  本软件考虑到甲骨文字形的权威性,采用“图中取字”技术建立字形库,重新设计其内码,以便适用于各种中文平台。

  (7)甲骨文拓片图像库(图)。

  本软件通过扫描《殷墟花园庄东地甲骨》,然后进行裁剪等后期图像处理,建立甲骨文图像库。

  (8)甲骨文拓片释文库(文)。

  由甲骨文专家参与,通过查阅不同的文献,确定甲骨片的原文和释文资料库采集。通过此资料库可以实现绝大多数甲骨拓片的原文释文对照。

  此软件结构图如下图:

  

  

发布日期:2009-08-18