对现阶段古籍数字化中的思考——兼论古籍数字化中国家行为的重要性
(武汉大学图书馆 430072)
内容摘要:古籍数字化,是信息时代对传统纸质历史文献传递与利用的最便捷的方式。在古籍数字化过程中,应逐步将企业行为逐步转变为国家行为,作为国家文化主管部门、国家图书馆或者是国家古籍保护中心,应该尽快研究和出台相关古籍数字化标准和格式,成立相应的专业数字化公司,结合国家古籍名录的颁布,统一组织和分期分批实施古籍数字化,这不仅是科学研究事业的需要,更是开展国家古籍保护工作的需要。
关键词:古籍数字化;古籍利用;古籍保护
作者简介:李玉安,男,1957年生。武汉大学图书馆古籍部主任,研究馆员。发表论文40余篇,著述7部。
古籍数字化,有两个方面使得人们期望值不断提高并产生了误区:第一是对古籍的保护的期望值,认为只要古籍数字化了,就可以在电脑显示器上浏览,珍善本古籍就可以安然入库了。第二是人们对数字化古籍检索和阅读功能的期望值不断地在提高,只要数字化了,就可以有海量的储存、便捷的检索、传输的快速、跨时空的链接、高度的开放等,这些优点,当然是传统的古籍检索和阅览中望尘莫及。然而,我们也不能盲目地过于乐观,应该认识到,古籍数字化是一个过程,而且是一个较为漫长的过程,不可能一蹴而就的。在今后一个时期内,古籍数字化的建设应该以国家行为为主,期望国家有关主管部门做出更多的分析和研究,统一来组织和实施全国古籍数字化工程,如同实施全国古籍普查与保护工程一样,成立专门的班子,纳入国家文化主管部门的规划和计划中,有计划、有步骤地开展中国古籍数字化工程。
一、中国古籍数字化的建设模式最好是国家行为,而非企业行为
古籍数字化,说到底,它牵涉到三个方面的问题,一是组织,二是投入,三是营销和利用。就我国的实际情况来讲,目前开发的数字化产品来讲,大部分是企业公司的文化营销行为,不是某个公司或者是某几个图书馆联合后,都有能力来组织和经营古籍数字化成果的。现在的问题是,各馆都在把本馆的特色馆藏数字化,是不是就算进行了古籍数字化呢?显然不是,或者说只是其中的一部分。这样盲目进行的数字化工程,在没有行业和部门的规划和计划指导下的盲动,它带来的负面影响除了重复劳动和资源浪费外,再就是低水平的单机(馆)利用,谈不上是社会效益和国家利益。
我们认为,建设国家(省市)级的古籍数字化中心是最具权威和最为理想的建设模式。文化部应在评估的基础上立项,在国家图书馆成立国家古籍数字化中心,包括现在已经成立的国家古籍保护中心(或在其中心下面成立国家古籍数字化中心),负责开展全国各系统各类型图书馆的古籍数字化工作,包括古籍数字化经费的落实,古籍数字化标准与格式,古籍数字化的版本遴选,数字化后的文字与内容的校勘,古籍数字化后的文献保护,古籍数字化成果的使用与营销等,都应该在国家图书馆古籍馆的领导下,逐步走出一个中国特色的且与世界通用的中国古籍数字化的建设模式来。
国家图书馆在文化部的直接领导下,于2007~2009年开展的国家古籍珍贵名录申报工作,已经有了一个很好的开端。国家图书馆应该首先对第一批2392部珍贵古籍和第二批4478部珍贵古籍加以数字化。仅第二批名录中,先秦两汉的文献达9部,魏晋隋唐的146部,宋辽金元的645部,明清善本3411部,民族文字文献266部。这两批珍贵名录中的文物文献,不仅仅是全国各省市和大学、科学图书馆的镇馆之宝,也是中华民族传统文献的珍品和瑰宝,具有极高的文物价值和文献价值。保护和利用好这些文化精品,是我们的义务和责任。率先将这些国家珍贵名录数字化,不仅仅是文献保护的需要,也是让更多的珍善之本能提供给更多的读者研究和利用。
在这种建设模式下,首先有利条件是经费的保证,国家应该吸取相关的教训,尽快将古籍数字化的企业行为转变为国家行为,建议拨出相应的经费来保证古籍数字化的软件研发和推广,并在薄利的前提下,推广到社会,造福于科学研究。国家文化部、财政部、教育部等发起由国家图书馆在2001年组织实施完成的《中华再造善本》工程,就是一例很好的国家项目行为,不仅仅是保护了中华珍贵文献,更是造福了千万学子,提供了利用这些珍贵文物文献的机会。
其次是数字化技术的保证,过去,我们在数字资源的语言与格式、存储与读写、编码技术等方面,还是一瓶颈。现在都有了比较成熟的技术,可以说,古籍数字化技术已经不再是难关了,而现在的难关恰恰是在规划与组织、规模与项目的问题了。而这个问题,更需要的是国家行为。
其三是古籍数字化专业人员的保证。有了这三宝,建设国家级和省部级的古籍数字化中心,应该是一条便捷之路。
国外古籍数字化和数字图书馆发展的道路和历程值得我们借鉴。以美国为例,它率先在俄亥俄州的OCLC和OhioLINK的模式上,它并不是首先建立数字化图书馆,而是首先建立图书馆网络,从建网初期的18个图书馆发展到全州的74个图书馆,实现了全州的统编联采、网上互借、网上资源的共建共享等,到目前有四万多个各类型的图书馆连接,这种的社会效益是被广大读者认可的。
中国古籍数字化建设的模式,应该是在国家文化部的统一规划下,依托于我国传统图书馆“三大系统”的龙头单位,如国家图书馆、中科院科学图书馆、清华、北大图书馆等牵头,由国家图书馆组织相关的单位和专家,统一制定相关标准和格式,由全国各省、市的分中心等实施,它工作的核心应该是古籍数字化版本信息的收集、文字的整理与加工、数据组织、链接和保存传递,统一在国家标准之内。应该走统一、联合共建、防止重复建设的道路。至于全国古籍数字化如何确定精选优选的标准,我们应该相信专家的判断,更应该相信图书馆等收藏单位的利用率和稀有情况,来挑选急需数字化的文献;分期分批地逐年完成珍贵古籍的数字化。
二、中国古籍数字化的相关标准的制定,只有国家行为才具权威
诚如李国新先生断言,中国古籍数字化,必须保证具有四大功能:一是必须实现文本字符的数字化,第二是具有基于超链接的浏览阅读环境,第三是具有强大的检索功能,第四是具有研究支持功能。而要求实现文本字符的数字化,是求得检索的自动化、便捷化。而要完全无误地实现文本字符的数字化,文本字符的识别问题是一个令人头疼的问题。恰恰在中国古籍数字化实践中,有一个很不乐观的事实是,有将近四分之一的古籍是难以用扫描或照相来完成文字识别的,这表现在稿本、手抄本、写本等载体上,这些文字的识别有相当的难度,是必须用人工干预方能完成。尽管在过去20多年中,古籍数字化的字符技术与存储技术已经逐步走向成熟,然而在处理异体字方面,目前还是要靠人工造字(符号)来实现,而人工造字虽然目前都可以实现,但是人工编码字体的增多,也影响了软件的通用性,字符问题不具备通用性,就难以完全实现古籍数字化。
古籍中的异体字,是比比皆是的,一般有以下几种:第一是避讳字,第二是异体字,第三是少数民族文字,第四是手抄本中的草体字。以上这几种文献,都在一定程度上限制了中国古籍数字化的转换和检索,退而求其次,只能用照相或扫描的图像文件,而这些图像文件则不具备链接功能和检索功能,又制约着古籍数字化数据库的使用功能。
要具备通用性字符的完备性,就必须对各种各样的古籍中会出现的问题做一个完备的字库,这个字库的字数肯定超过10万~15万个左右。而且必须考虑到各种字体的转换问题,例如:
1、简繁体转换:简/簡 義/义 連體/连体;
2、正体与异体:修/俢 兔/兎 刃/刄
3、正字与讹(伪)字:久/乆 派/泒 叐/犮
4、通假与被通假:詳/佯
5、古今字体:镸/長/长
6、新舊字形兼容:青/靑 説/說 媪/媼
7、形近異义字:义/叉 刺/剌 諫/諌
8、避諱字体:弘/ 玄/ 燁/ 胤/ 禛/ 構/構
9、异体字:“夘央”/鸳鸯;
10、生造字:囯/国/國 曌/照
以上10大类型,还不包括俗字与俚语,作为一般文献来讲,遇到各种的异体字,我们只要在Unicode中造一个模块,或许就能解决,但是整个建设模式是凌乱的无序的,Unicode编码系统已经定义了七万多汉字,如果再扩展数万个汉字,汉字字符不足问题就会得到解决。但是,古籍数字化的内容并不只是字符的转换问题,各地各馆各公司随意开发,就使得这种古籍数字化化后的通用性大为下降,降低了读者利用数字文献的欲望,而宁可去利用纸本文献,这与我们古籍数字化的初衷是大相径庭的。
我们从《四库全书》(电子版)、《中华基本古籍库》、《国学宝典》三大古籍数字化产品的效果来看,各有利弊各有所长。但是有一个共同之处就是对写本、抄本文献的收录,几乎是很少的,原因就是在字体的限制上,仅仅靠扫描和照相的文字识别率非常之低,还不如靠人工文字录入。我们从相关的数字化产品中检索到很多错别字问题,如“闯贼”写成“闯赋”,显然是文字识别以后没有校勘的问题,以至于研究者不敢相信电子文献和数字化产品的权威性和真实性,至少要核对原文,这是目前我们利用电子文献中所普遍感到的困惑。
正如陈力先生所指出的那样:“由于古籍传抄、刊刻的情况千差万别,因此在古籍中不仅有正字与异体字、正字与俗字的问题,还有由于各人审美观念不同或者因抄写刊刻的习惯而随意改变汉字笔划的位置、形状造成的异形字。……在进行古籍数字转换时,操作人员限于水平,不能识别古籍中的异形字,不得不“依样画葫芦”,生造出一些新字。由于每一个汉字都有一个对应的编码,如果将异形字都当作不同的汉字,其结果就是大量生造Unicode表外字,不仅增加了录入的工作量,更重要的是将对检索和资源共享等产生重大的影响,因为使用者在检索时并不清楚某部书中某字的具体写法(甚至一部书中同样的字也有许多种变体),因此实际上无法进行检索或者出现大量漏检。”
所以说,在古籍数字化的过程中,必须要有古籍专业人员的参与,否则,将会对数字化质量大打折扣。而专业人员的参与,只有在国家行为下,才会有可能组织更多更专业的古籍整理人员参与到不同的文献体系中,也才能保证这些专业人员有较高的积极性和质量保证,这是个体化公司所不能比拟的。
三、中国古籍数字化只有国家行为才能保证原文献受到保护和数字化文献的质量
以《中国基本古籍库》和《国学宝典》的数据格式为例,《中国基本古籍库》为ABT数据格式,不可以直接对原文进行如打印、复制、粘贴等,而需要另行圈点复制区位方可。《国学宝典》数据格式主要有:TXT文本文件、DBF(数据库,含文字和相关标示)、ATM(网页格式,含文字和图片、声音等),用户可直接打印、复制、粘贴到自己的文档中。这二者比较起来,前者的文献数量较为满意,而后者的文献编辑功能更比前者灵活优秀。
还有更多的古籍文献数字化的数据库,格式是各种各样的,图书馆在购买这些数字化成果时,也不得不安装多种的浏览器,这就给读者利用数字化文献带来了不必要的麻烦:不同单位开发出来的古籍数字化产品具有不同的文件格式。除常见的txt、doc、html格式外,还有exe、pdf、wdl、pdg、ebk、edb、oeb、sep、ifr、xeb等。除了一些通用格式如txt、doc、html、pdf等,大部分数字化古籍因为文件格式不同,通用功能性差,极大地影响了读者利用数字化古籍。这也说明文化部暨国家图书馆等主管部门尽快研究和出台数字化产品的标准和规范的必要性和紧迫性,并尽可能地组织和成立自己的专业化的数字化公司。
现今的一些数字化公司和单位,为了追求利润的最大化,对古籍数字化过程后的文献校勘工序,往往淡化或者没有这个环节,这势必导致古籍数字化过程后的错误连连。过去我们单方面地追求培养“具有计算机及古文献两方面知识的人才”,其实这是个误区,计算机研发和古籍文献的电子校勘并不是非要复合型的,当然有更多的这种复合型人才更好,问题是现实中这种人才可真是属于凤毛麟角,只要重视古籍数字化以后的文字、内容的校勘和审定,就必须组织一批古籍整理的专家把关。
只有国家行为中,制定相关严格的古籍保护政策,建立国家古籍保护体系。然而我们在过去的数字化实践中惊异地发现,凡是委托外单位的IT扫描公司数字化的,大部分对原古籍都有严重的损毁,且程度还比较严重,因为它们对古籍没有一种保护的情感。所以,2007年国务院办公厅发布《关于进一步加强古籍保护工作的意见》(国办发[2007]6号),其中的第五条提出了古籍数字化的具体要求,对于承包的IT公司数字化的,一定要加大监管和处罚的力度。为此,最为合适的办法是:在国家行为的统一标准和格式下,由各古籍持有单位进行数字化文献处理,按照国家标准提交已经数字化的文献数据,并由国家给予一定的劳务经济补偿,以此来保证数据的准确性和数字化单位的积极性。
国家对古籍整理的政策和任务,也应该更多地为古籍数字化方向给予适度地倾斜和保护,这样,有助于中国古籍保护政策的进一步落实,有助于古籍数字化的文化保护工程落到实处。
参考文献:
1、陈力:中文古籍数字化的再思考[J].国家图书馆学刊,2006(2):42-49.
2、陈力:古籍数字化中的汉字处理问题[J].《古籍整理情况出版简报》2005(10)
3、李国新:中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1):21-26,
4、刘春金等:中文古籍数字化现状分析[J].江西图书馆学刊2008(2)112~113