数字化古籍由录入改扫描势在必行

薛天纬
(新疆师范大学文学院)

  赖瑞和《唐代基层文官》(中华书局·2008)《自序》中有这样一段话:“市面上和网上的《全唐诗》电子文库很多,但多为简体字版,且校对欠佳,又无卷数页数,都不合学术用途。最合乎学界需要,校对精细,且以繁体字制作的,据我所知就只有陈教授这一套了。”此处陈教授,是指台湾东吴大学中文研究所陈郁夫先生。众所周知,《全唐诗》是最基本的文学古籍之一,对于我们这些以唐诗及唐代文学研究为专业的人来说,其重要性更是居于任何他书之上。这些年来,我们都习惯于使用《国学宝典》版的《全唐诗》,平心而论,这个版本的《全唐诗》也确实给了我们许多帮助,为我们的研究工作提供了前所未有的方便条件。赖瑞和先生不知是否使用过或见识过《国学宝典》版《全唐诗》,但按照他的标准,一是要用繁体字,二是要校对精细,三是要有卷数页数,《国学宝典》版《全唐诗》除了有卷数这一点外,其余方面都不符合或不太符合他的要求,即用的是简体字,校对不甚精细,未标明原书页数。那么,我们可以想见,赖瑞和先生即使接触过并了解《国学宝典》版《全唐诗》,肯定也不会认为它是“合学术用途”“合乎学界需要”的版本。赖先生提出的几个条件,在很大程度上可视为数字化古籍的一般标准。因此,我们在肯定和感激《国学宝典》版《全唐诗》的同时,也真诚地希望它能与时俱进,真正做到如赖瑞和先生所说的“合学术用途”“合乎学界需要”。而要做到这一点,最根本的改进,就是要将录入改为扫描,即不再对古籍重新进行二次性的人工录入,而是改为选定善本(学术意义上的善本,而非收藏意义上的善本)进行扫描。之所以需要进行这样的改进,我所考虑到的理由有以下几条:

  1.避免错误,即避免录入别字。

  由于录入人员并非专业研究者,其录入过程一般来说并不伴随对文义的理解和阅读,而只是依据字形“照录”,而且不能不追求一定的工作速度,所以,出现错误就成为不可避免的事情。尤其是形近字、同音字,常常因辨识错误或一念之差而录入别字。如杜甫的名篇《观公孙大娘弟子舞剑器行》,就有三处录入错误:“一舞剑器动四方”句,“器”误为同音字“气”;“晚有弟子传芬芳”句,“晚”误为形近字“况”;“风尘澒动昏王室”句,“澒”误为形近字“倾”。同样以公孙大娘为题材的诗作,还有司空图《剑器》:“楼下公孙昔擅场,空教女子爱军装。潼关一败胡儿喜,簇马骊山看御汤。”第三句中“胡”被错录为“吴”,应是读音相近致误。

  又如《宋史·苏轼传》有这样一段话:“微宗立,移廉州,改舒州团练副使,徒永州。”其中“微”字应为“徽”字,“徒”字应为“徙”字,两处都是形近致误。

  类似于上面举出的录入错误,对于专业研究者来说,基本属于常识性问题,因而不难识别,并可自行纠正,但我们实不敢保证自己的眼睛和水平能够发现所有错误。所以,保证文字正确,仍是数字化古籍必须解决的首要问题。如果采用善本古籍扫描,则可从根本上解决这一关键问题,从而保证数字化古籍的质量。

  2.解决稀见字录入的困难。

  古籍中往往出现时下各种字库中很难找到的稀见字,这就成为录入时无法逾越的障碍。尤其是韩愈、卢仝等常常有意使用冷僻字的作家,录入他们的某些作品确实是件很困难的事。为了对付这个难题,目前采用了一些变通的办法,如把一个字左右分开成两个字、在括号中录入两个字表示一个字、用字母代替等,如韩愈《陆浑山火和皇甫湜用其韵》中,有“月番”“酉爵”“石覃”“目爰”,还有[谷含],这都是一个字的形态。还有一个字,字形是“上亡下皿”(应读huang),《全唐诗》中录成了“fI”,实在不知是什么意思。卢仝《月蚀诗》中,则有〈齿取〉〈齿禺〉这样的字,还有g6、gpoA这样的“字母字”。遇到这种情况,阅读实际上无法进行下去。这一问题的解决,也必须倚赖善本古籍的直接扫描。

  3.增强文献的使用价值,为读者提供可资引用的版本。

  目下的数字化古籍,并不是一种真正的版本,不具有原始性质,所以无法作为正式的文献资料来使用,尤其是无法加以引用。从根本上说,它只有一定的查阅价值,而不具有如同纸本出版物一样的使用价值。再加上它在录入时的错误率又远远高于纸本出版物,其可信度要大打折扣,这就更影响了它的使用价值。换句话说,我虽然有了《国学宝典》版《全唐诗》,但并不等于我拥有了真正的《全唐诗》,我在一种研究成果的“参考文献”中,只能列入中华书局版或上海古籍出版社版的《全唐诗》,而不能列入《国学宝典》版《全唐诗》。其他书亦然。如果将善本古籍原封不动扫描过来,每一种书籍都有版权页,都有与原书一样的页码,我们就可将这种数字化古籍当成纸本一样来使用了。

  4.改善阅读的视觉感受。

  目下的数字化古籍,密密麻麻一片,不分页,不能进行版式设计,没有天地空白,没有字形变化,视觉感受与纸本古籍有很大差别。因此,人们在一般情况下还是愿意使用纸本书,而不是首先打开电脑使用电子书。如果使用扫描法,出现在读者面前的是一页页与纸本一样的书,相信这种情况会有所改善。

  5.大面积并且从根本上解决资料“全”的问题。

  以《国学宝典》为例,目下收入的文献已经很不少,容量已经相当可观,但仍遗漏了许多应该收入的内容。比如,“宋初四大书”,其它三种都收了,惟独文学价值最高的《文苑英华》未收。诗话类著作收了一些,但很重要的《沧浪诗话》未收。尤其是别集类文献,目前《国学宝典》收的很少,我在上届会议的论文中就提出过这个问题。对于研究者来说,事实上别集往往比总集更重要、更有用,总集通常用以检索,别集则是阅读和研究的依据。我们要读某位唐代诗人的作品,只要他有编就的别集,尤其是经过科学整理的别集,那么,首选应是其别集,而不是《全唐诗》。大量收入别集,靠目前的录入法是很难实现的。可行的办法,是挑选别集善本、尤其是经今人精校精注的别集,通过扫描加以“复制”,又快又好地解决这个问题。当然,将今人著作制成数字化文本,可能存在著作权问题,对此应依据相关法律条文妥善处理,必要的成本应当计入。

  总起来说,根据我个人的经验,觉得数字化古籍的优越性是便捷、易携带,特别是可检索。但数字化古籍并不能代替传统纸本古籍。纸本的好处是阅读时便于前后翻动,可以在空白处批注,这是数字化书做不到的。而且,读纸本书时总是伴随着对问题的思考,思维活动比较活跃,读数字化书似乎主要是眼睛的活动,而思维活动有所减弱。今后数字化古籍的发展,应该最大限度地克服其局限性,同时最大限度地发挥其优势,尤其是可检索的优势。随着技术的进步和经验的积累,数字化古籍一定会日臻完美,日益提高学术质量,同时日益拥有更多的读者和更大的市场。

发布日期:2009-08-18