理想的汉字形码

王春杰

  汉字形码可能与汉字检索相结合,做到“规则简单,易学易用”。

  由于国家颁布了汉字笔顺规范,为“以笔顺排序”提供了可能性。

  手机普及率高,数字码有利于推广。

  国学离不开繁体字,理想的汉字形码将为繁体字的检索、录入、阅读提供方便。

  探讨“理想的汉字形码”能够为我们指明研究的方向,少走弯路。正确的决心来源于正确的判断。人们希望它能解决什么问题?它应该有什么特点?这些应该成为正确判断的组成部分。

  一个好的形码应该具有以下特点:

  1.王永民的五笔字型从专业角度解决了汉字形码,但从普及和启蒙角度来看,难度太大,门槛太高。要求“化难为易”。

  2.见到一个读不响的方块字,想要知道它的读音和它的意思,只有去查字典,或者叫“检索”。通过字形查字典是个难点,新华字典的部首检字表有75页,其中的规则并不容易,一般要到三年级才能较快地查到一个生僻字。就是说,汉字检索的规则太复杂。在对外汉语教学和民族汉语教学中这也是一个难点,同样希望“化难为易”。

  3.在当今的信息时代,书面字典的检索应该与汉字编码结合起来。理想的汉字形码同时又是理想的汉字检索方法。“规则简单,易学易用”就是理想的标准。同时,查字与汉字输入结合,提高使用频度,熟能生巧,能够提高查字效率,提高孩子学习查字的兴趣。

  4.码元有拉丁字母和阿拉伯数字两种选择,由于手机普及率远高于电脑,故码元应以数字为宜。缺点是平均码长会有所加长,但与T9拼音数码令人厌烦的多次翻页相比,这个缺点就是并无大碍了。

  5.形码取码的对象有两种选择:笔划、部件(如偏旁部首)。采用部首时要记住200个左右的部件,这是个妨碍普及的障碍,以笔划为主则可以避开。然而,用“12345”对应“横竖撇点折”,“67890”就闲置浪费了。为了充分利用码元,经过整理用10个数码表示5个笔划和28个最常用部件,使得码元平均所代表的部件数不超过5个。符合人类记忆的特点,有利于记忆效率的提高。利用笔划,一种办法是四角号码,规则有难度。一种是按笔顺,符合大众习惯。采用笔顺有一个有利的前提条件,就是政府已公布了国家汉字笔顺规范GF3003-1999(2000.1.1实施)。如果人们都在随意使用无序的倒插笔,笔顺这个资源就不能够被利用。所以一个权威的国家规范,是绝对必要的技术基础。利用笔顺的汉字输入法有利于汉字书写的规范化。

  6.简体汉字与繁体汉字使用同一个规则,有利于繁体字的健康回归。推行简化字是文字改革的重大步骤,据称能大幅提高识字效率,降低文盲率。可惜,半个世纪的实践证明,简体字的我国,新文盲源源不断,繁体字的香港和台湾却消除了文盲,所以把繁体字指责为文盲现象的罪魁祸首是不符事实的。而把繁体字边缘化却为群众学习了解国学人为地设置了障碍。为汉字文化圈内文化交流增加了不必要的的困难,对我国的改革开放造成了消极影响。怎样消除这些文改后遗症?应该为繁体字的检索、电脑录入、以及阅读创造物质条件。本项目就是努力之一。

项目的阶段成果

  1.6763一二级汉字中,共有重码872组,其中二字重码635组,三字重码160组,四字重码50组,五字至九字重码共26组,13字重码1组。键选率不高,键选时基本不翻页,为词输入简码提供了条件。

  2.GBK的21000字编码已完成,现正向7万字方向扩展。

 

作者单位】汉字文化教育研究中心