古籍用汉字库的要求

李先耕

一、字库与字符数目

  现在在汉字文化圈中所使用的计算机汉字字库有如下几种:

  中国大陆GB2312—80:3755+3008=6763个汉字

  GB12345—90:3755+3008+103=6864个繁体字

  CJK—GBK:ISO IEC 10646—1.2标准。全国信标委曾制定和发布《汉字扩展规范GBK1.0》,并在MSWindows9x/Me/NT/2000、IBMOS/2的系统中广泛应用。大约有20902个汉字。1993年国际标准化组织发布了ISO/IEC10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩三国所使用的汉字,是编码体系未来发展方向。GB18030是国家标准,在技术上是GBK的超集,并与其兼容,它包含GBK字符集、CJKExt-A全部6582个汉字,共计27533个汉字。因此,GBK将结束其历史使命。

  国际标准化组织在ISO10646-2000的基本平面(BMP或者Unicode 3.0,下简称Unicode)编入了27564汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),即是2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为扩展A。同时国际标准化组织还在ISO10646-2000的第二平面扩展了42711汉字(又称为扩展B)。该42711汉字的编码表已基本确定,尽管不排除未来微小变动的可能性。由于这42711汉字编排在ISO10646-2000的第二平面,所以编码需要4个字节。为了能够存取处理这些4字节字符,在Unicode中引入了Surrogate机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制,在Unicode中用两个16位编码就可以对ISO10646-2000第二平面中的汉字进行存取。这实际上就是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准。目前OfficeXP以上所整合的“宋体-方正超大规模字符集”就是这一标准的字库。它的CJK统一汉字就包括了前述扩展A,而其CJK统一汉字扩展B,就是本标准的扩展B。目前国家语委正在制定新的扩展C,将收录更多的汉字以及相关字符(如电子版《四库全书》FZKai—Z03字库所收录的六十四卦符号等等)

  中国台湾(TCA)CNS11643(BIG-5字符集,中文大五码):5401+7650=13051+6148罕用字=19199个汉字

  中国香港GCCSG字符集(政府通用字库)共收3049个Big5码欠缺的外字。HKSCS字符集,(香港增补字符集),是《政府通用字库》的更新版,包括4702个字符,其中2943个字符为。《政府通用字库》原有字符,新增的字符共有1759个。HKSCS-2001字符集(香港增补字符集-2001),共包含4818个字符,其中2943个字符为政府通用字库原有字符,新增的字符共有1759个。《政府通用字库》原有字符,增纳的字符共有1875个。HKSCS-2004字符集(香港增补字符集-2004),包括4941个字符,其中4818个字符,汉字字符4500个,是《香港增补字符集-2001》内原有的字符,增收的字符共有123个。

  日本JISX0205—1983:2965+3388=6353个汉字

  韩国KSC5601—1987:4888个汉字

  我们以为在ISO10646-2000汉字字符集最新的扩展C之后,一般古籍用字大概可以得到解决,但仍然存在一些问题。

  1.避讳字

  这里说的不是改换避讳字为其他字,如改“玄”为“元”之类;也不是空字的方法,这里说的是对避讳字笔画进行删改而形成的缺笔字。如电子版《四库全书》的FZKai—Z03字库所收录的一些缺笔避讳字。不过这里所录的只是清代乾隆以前的缺笔避讳字,清代其他皇帝以及其他朝代的缺笔避讳字还是阙如。我们知道,宋代的避讳很发达,无论是皇族的“圣讳”还是个人的“家讳”都有。一些工具书列出了历代常用的避讳字可供我们制定字库时参考。

  2.古文字

  这里说的是甲骨文、金文、战国文字、小篆等古文字。虽然一般的古籍用不上这些文字,但是一些字书、艺术书或某些书籍还是会用到的。不用说古文字字书如《说文解字》、《汗简》等,就是《康熙字典》也有小篆;其他比如清人陈启源注释《诗经》的《毛诗稽古编》也使用了小篆。我们以为,这些古籍在数字化的时候是应该保存古文字字体的。

二、字体字形

  这里主要说的是对印刷本古籍数字化时所使用的汉字的字体与字形。在唐代雕版印刷书籍之前都是手抄本,在雕版印刷之后也有大量手抄本,这类古籍的字体字形本文暂不讨论。

  现在的印刷体字形源于雕版印刷书籍的字形。所谓宋体字其实形成于明代,所以日本等地称之为“明体”,清代之后又形成诸如仿宋、长宋、扁宋等变体。但是由于从1956年开始中国文字改革委员会组成了标准字形研究组,试图统一印刷体字形并缩小与手写体的差距。文化部于1959年召开了革新铅字字形座谈会,委托文改会、教育部、语言所联合组成汉字字形整理组。最终1965年1月文化部和文改会发出《关于统一汉字铅字字形的联合通知》,把《印刷通用汉字字形表》印刷成样本,随文下发,逐步推行。该表收字6196个,目前大多数汉语字典、词典都附有“新旧字形对照表”就是对这个表所规定的新旧字形不一致的偏旁、部首以及汉字的归纳。目前大陆所制定的汉字字库,其字形就依照这一标准,因而有的古籍的字形就不在此字库之内。所以为古籍数字化建设考虑,我们的字库应保有这些所谓的“旧字形”。

  有人说,《康熙字典》的字形就是旧字形的代表,这种说法至少不太全面。自宋代雕版印刷兴盛以来,其字体可以说是百花齐放,经过多种变化。早期宋版书所用的字体,大多是唐代著名书法家的楷书体。大致说来,蜀本宗颜,闽刻学柳,两浙崇欧。而后期除了写刻本之外,大体可分为硬、软两大类。软即是楷体,硬则是当时所形成的一种横平竖直,纵向略长,与行格线极其和谐的刻书专用字体。此后就刻书用字来说,元版多用赵孟頫体,明代前期则沿袭元而多用赵体;中期则是仿宋,即仿照前述宋代刻书的硬体,横轻竖重,笔画硬直,结构方整的匠体字;晚期则字形变长。清代康熙、乾隆多写刻本,而硬体则前期基本沿袭明代,后期则字形略为圆滑、小气。目前我们所见到的《康熙字典》的字头,即是软体的楷书字。它跟电子版《四库全书》描画的台阁体楷书字十分相似。

  我们以为,古籍数字化所用字库的字体,除了硬体的宋体、仿宋及其变体外,还应有软体楷书的仿颜、欧、柳、赵以至台阁体等字体[1]。这样就可以基本上反映古籍的字形面貌。当然,如有必要,我们还可以把一些向来为人们所称道的刷印精美的善本书字体收入,比如上一世纪六十年代印刷《毛主席诗词》时,就是集宋本楼鈅《攻媿集》的字印成的,因为宋本楼鈅《攻媿集》的字体素称精美。当然,这些书籍使用的字数有限,我们可以分析其基本部件以及组字规律来形成完整的字库[2]

注释

[1]笔者在《关于计算机生成汉字系统》一文中说:“近年有的学者在有关字体的学习字帖中,采用了笔画、偏旁分析教学法。有的是依照‘永字八法'来规定笔画的,有的则比较灵活。而且大多按照该字体的特点对每一种笔画、偏旁详细分类;书法还对许多相同的部件在不同的位置应该具有不同的形状做了研究,比如‘多'的上下两个‘夕'字,‘林'的左右两个‘木'字的大小走势的不同等等,这些对我们生成某一特定字体的字库是有意义的。”

[2]笔者在《关于计算机生成汉字系统》中说:在研究出汉字部件库之后,可以“对利用部件生成汉字的模式图及二维语法进行完善,自动对进入汉字特定部位的部件纵、横、大小进行调整,使得能够生成结构合理、美观的汉字。”

 

作者单位】黑龙江大学古籍所