三十年来中国古籍数字化研究综述1979-2009【1】
(辽宁大学历史学院)
摘要:作为学术史的古籍数字化研究,30年的研究历程可以分为三个阶段:第一阶段是从1979年到1994年,这是起步、探索、介绍的时期;第二阶段是从1995年到2001年,这是提高、建设、初步发展的时期,以文渊阁四库全书电子版为代表的一批全文数字化成果至今仍然在广泛使用,对学术研究发挥着巨大的影响力;第三阶段是从2002年开始,这是基本完善、商业应用、网络化阶段的阶段,理论表述逐步成型,各类数据库建设基本完善,文史学者或多或少拥有了电子数据。
关键词:三十年古籍数字化综述
分类号:K207 G203
学术的新发展和新进步,端赖新材料和新方法。学人常常引用的陈寅恪先生的名言“一时代之学术,必有其新材料与新问题”【2】来说明材料和问题的重要性,不过新材料和新问题又绝离不开新手段的应用,“取用此材料,以研求问题”的过程就是新方法、新手段的应用过程。可以说,没有新手段的应用,新材料和新问题就得不得恰当的梳理和总结、分析。随着计算机软硬件的水准提升和互联网的高速发展,学术研究呈现了新的面貌——人文社会科学也不例外——计算机和互联网同样在大显身手。而人文学科的一个极小分支——古籍整理与研究也随之全面进入了数字化阶段。应该说,古籍数字化正在逐步迈向独立的学科建置。回顾古籍数字化30年所走过的历程,更有助于我们认识古籍数字化的真正价值,内中学术意义不言自明。
据笔者的初步统计,古籍数字化方面论文大约有800余篇,按年图示如下。如果以10%-20%的遗漏率计算,则内地发表的相关文章将近1000篇,再约略估计海外、日本、欧美等国有关论文数与之相同,则全部论著数量或可超过2000篇之数,已是蔚为大观。下面笔者综合所见论著(多数为内地用中文发表),并参考其他学者的分析,简单回顾和讨论古籍数字化30年来所走过的学术发展之路,以整理材料,俟之高明。
一、起步、探索、介绍阶段(1979-1994)
古籍数字化在早期亦多称电子化或者计算机化,与计算机及信息技术发展密不可分。1979年,力一向国内学术界介绍了苏联学者把计算机技术应用于人文科学,其中特别提到已经取得了成果的领域就包括历史学:“对史料、考古学资料及民族志资料的信息加工”【3】,这应该说是在国内最早关于可以在古籍方面使用计算机的介绍。1980年,江小平介绍了法国在人文社会科学方面使用电子计算机的情况。【4】也许是在这2篇文章的启发下,到1981年,就有学者使用计算机软件来处理史料中记载陨石陨落周期,【5】张叔媛和于志钧可能是内地使用计算机来统计史料的第一人。另外,该文预言:“今后利用电子计算机开发我国古史料的科研工作必将蓬勃发展”,将近30年后,我们很高兴的看到预言成真。
1983年召开的全国语言学学科规划会议上,邀请了中文信息电子化的专家与会,专门介绍了电子计算机在语言学上的应用,同时确立在《论衡》、《朱子语类》、《儿女英雄传》三部汉语史专书中用计算机编制引得。【6】彭昆仑先生尝试用电子计算机来分析统计《红楼梦》中的时间进程和人物年龄问题。1984年,栾贵明、李秦尝试从理论上阐释古文献数字化:“随着微型机数量的增加、功能发展以及分布的扩大,其信息的贮存量会愈来愈多,并在一定范围,从一个地区到全国以及世界各地组成网络,形成一个巨大的资料库,所有信息资源便可共享。实现了这个目标,我国几千年来汗牛充栋而又星罗棋布的古文典籍,可尽行收入方寸之地,召之即来。使用微型机对这些古籍进行版本研究、文句校勘、文字订正、字义诠释、篇章会注、作品编年、古语今译,乃至标点、分段等等都将成为现实。”【7】
1987年,深圳大学组织人力,在输入《红楼梦》全文并建成多功能检索系统之后,【8】把全唐诗输入了电脑。这是古籍数字化工作是比较早的。【9】大约与此同时,中国社会科学院在栾贵明先生的带领下,也从《全唐诗》入手,陆续建成汉字库、全唐诗歌数据库、诸子集成数据库等。【10】到1988年,更有条理和系统化的分析由曹书杰先生做出,他首先提出了“机整”的概念,并从整理研究对象的确定;各项功能指标和古籍文献研究、标识工作方案的形成;程序设计和文献标识;文献信息库和必要辅助知识库的建立;综合运行等五个方面讨论了“机整”工作的方法与步骤。【11】武汉大学在陈光祚教授带领下,也开始从事地方志全文检索系统的研究工作,并取得了一定成果。【12】1987年6月,哈尔滨师范大学李波等建成《史记全文检索系统》,北京师范大学建成了中国年历日历谱微机检索数据库。【13】而李岩的目光不仅仅局限于古籍的电子化,他提出了计算机在古籍整理工作各个方面的应用前景。【14】
这一时期的古籍数字化工作特色主要是建立了若干文本的索引,很多初涉此道的专家学者都谈了这方面的体会,感受到了计算机索引的巨大威力。于曼玲等认为,计算机索引简便、快速、可靠。【15】而这也是诸多人文学研究者的共同感受。张普在1989年指出“一个计算机与古籍整理相结合的新局面正在形成,更大规模的更加完善的古籍资料库和数据库正在筹划”,因而“从总体上规划建立计算机存储介质上的汉语古典文献库,建立各种检索系统,筹划资源共享、联机检索等问题已经应该提上国家有关机构的议事日程了”。【16】1993年召开了“海峡两岸中国古籍整理研究现代化技术研讨会”,台湾学者演示了二十四史语料库,十三经语料库,红楼梦多媒体系统,大陆学者演示了大汉字中文平台等。诸多学者认为,计算机整理古籍的理论和技术尚未完善。【17】
这一时期还起步了古籍书目的数字化工作,有学者指出:中国古籍著录可以采用国际文献著录标准和方法,并应该在其基础上编制机读目录;为编辑联合目录并合条目所需的条件,不能仅是提供行格字数,应该建立一套每种书的版式描述、版本特征记载、序跋的标题、撰人和撰写年代、确定版本的具体依据等的版本档案,构成《版本志》;计算机有宽广的检索与组合功能,贮入的资料可随时调整、修正,陆续积累。【18】1993年柯单介绍了中美两国联合编制中文古籍善本书机读目录的进展情况。【19】何小清在列举90年代中期以前完成的《史记索引》等工作后,认为:“机编索引将逐渐主导索引编纂领域,“家庭手工业”模式将一去不复返了”【20】。
从上文的介绍可以看出,1979-1994年间,古籍数字化工作的各个领域工作均已展开,也取得了一定的成绩。当然更要看到,这个期间,每年的文章数目均为个位数,13年间累计发文30多篇,内地发表20多篇。公允的说,古籍数字化研究工作仍然是处于介绍、起步和探索阶段。
二、提高、建设、初步发展阶段(1995-2001)
1995年以后,古籍数字化工作开始高速发展起来。当年7月召开的“中国古籍整理研究出版现代化国际会议”起到了极大的号角作用。本次会议由中国中文信息学会、国家古籍整理出版规划小组办公室等联合主办,一百多位学者出席,共发文35篇。内容涉及大汉字集平台、古汉语语料库、古典文学CAI教学、古籍自动照排、多媒体和估计出版、古籍OCR技术、全文检索、辅助校勘等诸多方面,【21】这是古籍数字化工作的一次重大集中讨论。
姚松指出,当前前亟待解决的问题是需要一个古籍整理计算机通用平台,以便解决字符集、字型、输入、输出问题;同时还要解决输入方法问题,建设大字符集的扫描识别,辅之文本校对系统;还要做好通用软件,也就是随机工具的研究和制作工作。【22】这也受限于当时的计算机发展水平,随着计算机和网络技术水准的提高。这些问题也逐步得到了解决。姚俊元认为,缺乏支持古籍整理研究的中文平台,特别是字库问题,是当前的突出问题。因此他建议尽快确定大汉字库标准。同时建设语料库和汉字属性字典。【23】与此同时,随着windows操作系统的开始流行,王涵撰文指出windows和mac系统能较好地解决古籍整理研究工作中的多元混合作业问题。特别以mac机所附带的HyerCard多媒体软件为例说明,这种软件可以把多种文字信息、图像信息贴合起来,微机可以利用多种媒体进行古籍研究整理的多方面工作。作者特意指出即将来临的windows时代会淘汰很多已经有的工作,所以建议要有超前意识,尽可能利用最先进的技术手段。【24】
1996年,一项庞大的电子典籍工程提上了日程,就是大藏经电子文库的制作。当年4月在国家宗教局的主持下,发起了新修《大藏经》的工作。与会的电脑技术专家和文献研究专家认为,大藏经的电脑化可以提供一个文献整理的全新的视野,在录入、校对、断句、出版等工作中提供一个广泛参与的机会和最现代化、最有效的手段与方法。可以大大提高典籍文献的查询检索速度,提高资料使用效率,简化资料收藏保管工作。【25】这是一项非常庞大的计划,同时拟定了《关于制作大藏经电子文库的工程技术方案》和《关于制作大藏经电子文库的技术经济背景概述》等详细说明文件。【26】
这一阶段,古籍书目的数据库建设得到了较快发展,这方面主要是图书情报界的学者和图书馆实务界的专家在进行研究。刘刚认为,古籍书目数据应该纳入到统一综合书目数据库中,在机读格式上则应使用北京图书馆提出的CNMARC格式,在著录标准上应采用GB3792.7《古籍著录规则》,数据库应该使用繁体。【27】周秦指出,古籍书目数据库建设八年来一直未见有影响的数据库的问世。作者认为,古籍书目数据库应该与普通图书合库处理,同时更要做好建设与利用、维护工作。数据的规范控制,主要是主题规范,特别是主题词表仍有待于开发。【28】朱岩从信息处理角度对《中国古籍善本书目》的数据作出了分析,以便于检索的角度对数据进行切分,使之单元化,使之能成为信息系统数据结构设计的依据。【29】秦淑贞认为,规范化的古籍书目数据库,是指在各种编目软件支持下做出的在格式、内容、标引依据以及字体等方面都按国家标准作出的一致的古籍书目数据库。应该在机读目录格式、著录规则、分类法、主题标引依据,字库、普通图书库等方面完全统一。【30】李荣慧也认为,古籍书目数据库建设仍存在没有统一完善的古籍分类法,著录标准欠妥善、未普及,主题词标引难实施,从业人员知识结构不合理,没有权威组织协调机构等问题。【31】陈美亚在自建古籍书目数据库还是以后套录古籍书目数据库、本馆所建书目数据库是否能达到规范化要求、古籍丛书子目怎么建库等方面进行了思考。【32】
关于古籍数字化的一些基础数据工作也得到了关注。胡海帆等根据拓片元数据的著录对象、著录单位、关系等要素特点,把元数据从结构上分为描述性、管理性、地理信息等类。【33】郭小武讨论了简体和繁体的电子文本转换工作。【34】
在这一时期,古籍全文数据库建设也取得了突飞猛进的进展。上海图书馆启动古籍善本全文光盘工程,1996年底初步建成“中国古籍善本查阅系统”,主要提供全文影像,少部分提供全文检索。【35】辽宁省图书馆利用IBM的TDI数字相机对古籍进行数字化加工,形成了古籍精选、历史存照等内容。【36】1998年启动的国家图书馆“中国数字图书馆工程”其中数字方志资源库、石刻拓片资源库、甲骨文献资源库、馆藏各类文献书目数据库、永乐大典资源库等六个子项目均是古籍项目。【37】其他的古籍全文类项目估计约有20余项,其中较为知名的有商务印书馆的百衲本《二十四史》电子版光盘、中国地方志宋代人物资料管理系统、续资治通鉴长编全文检索系统、全唐诗电子检索系统等。而其中最有代表性的古籍全文软件当属迪志公司开发的《文渊阁四库全书》和两种《古今图书集成》,尤其是前者,在文史研究学者,国学爱好者当中的影响和作用极为广大,特别是由于广泛传播所造成的“普及”直接使广大普通人得以享用饕餮盛宴,当然这对迪志公司相当不公平。
《文渊阁四库全书》电子版也标志着中文信息处理技术实用化有了重大的突破。使用了unicode编码下的大文字平台,通过超大数量和种类繁多的特定人手写文字光学识别,联机无纸快速准确的校队软件技术,形成了跨平台和跨语境全球版产品制作技术、全文检索技术、词典工具书挂接等高新技术。作为该项目的技术负责人的张轴材在《电子出版》连续4期发表文章,分析了项目的开发技术。【38】刘博认为,“《文渊阁<四库全书>电子版》综合地运用着古籍数字化技术的前沿成果,同时在一定程度上又推动了新的技术的开发,取得了宝贵的经验,该产品的面世,标志着我国古籍数字化处理技术取得了重大突破,为我国大规模的古籍数字化奠定了良好的基础,同时。该项目也是建设大规模中文数字图书馆的重要尝试。”【39】
广西金海湾电子音像出版社和广西师范大学出版社出版的《古今图书集成》电子版也是这一时期出版的较为重要的古籍数字化成果。【40】该系统请曾经编制《古今图书集成索引》的广西师大林仲湘教授重新编制了电子版数据库索引。在充分把握原著分类特点和电子检索功能的基础上,建立了36个数据库索引,有36万条记录,共约1200万字。索引与正文联通,可直接调用相应的正文。特意标注了纸本页码,便于查找。较为可惜的是,由于建立的windows98平台上,随着windows操作系统的快速更新,已经非常不便于利用,这是一个非常遗憾的事情。
这一时期,有更多的文史学者加入了古籍数字化的应用行列,也发表了一些关于应用古籍数字化成果的论述。如罗凤珠曾讨论过红楼梦网络数据中心如何对红学发展产生了影响。【41】郁默介绍了台湾“中央研究院汉籍全文资料库”的主要构成和使用办法,【42】诸如古籍电子化、数据库对于文学、古汉语、十三经、古代史等方面的影响都有学者进行表述和介绍。【43】而史睿试图从理论上阐释古籍数字化与人文学术研究的关系,认为古籍数字化是现代学术研究的基础,而古籍数字化的理论比技术更为重要,提出了古籍数字化的解决方案。【44】另外,在很多具体学科门类也出现了应用成果。楼宇烈介绍了日本、韩国、美国以及香港、台湾等地的电子佛典建设工作,并对内地电子佛典建设提出了建议。【45】中国第一历史档案馆为加快信息化建设的步伐,实现明清档案整理、编目、编研、流通、信息发布的自动化和网络化面向外界招标,清华紫光中标。【46】裴丽则探讨了医古籍文献资源数字化建设若干原则。【47】
总的看来,古籍数字化的各项工作已经全面铺开,在这一时期发表的150余篇文章中,已经涉及到古籍数字化的各个方面。说明古籍数字化的理论和实践正在逐步成熟,特别是以文渊阁四库全书电子版为代表的一批全文数字化成果至今仍然在广泛使用,对学术研究仍然发挥着无比巨大的影响力。
三、基本完善、商业应用、网络化阶段(2002-)
2002年以后,古籍数字化工作突飞猛进,在诸多方面都取得了长足的进展,先后出现了多种总结和综述。作为著名的古文献专家,祝尚书分析了古籍整理研究数字化、信息化的现状,并指出版权、重复劳动、盗版、市场化、数字化图书馆和专业古籍出版社如何结合等是困扰当时古籍数字化的主要问题。【48】李弘毅把古籍数字化划分为准备阶段、自动化实施的过渡阶段、自动化发展的高级阶段。【49】陈立新认为,古籍数字化的当前问题是缺乏统一的古籍机读目录,汉字平台,古籍文献规范文档,影像处理标准,适合古籍的Metadata。【50】岳占伟介绍了多种古籍数字化产品后认为,特殊古籍的检索系统需要开发特定的原字检索技术,针对特殊古籍的新录入技术,特殊古籍的文字环境一并录入,电子出版物与数字化图书馆等是古籍数字化工作面临的巨大挑战。【51】陈力的总结则视角更广,也更系统。他认为,古籍数字化关注焦点过于集中于少数常用特别是丛书类的古籍,而一些学术界需要的古籍鲜有顾及。数据库封闭,在技术上很难与其它数据库融为一体,造成知识体系的割裂。不少机构并不采用通行的工业标准,而是自行设定相关的数字化加工与组织标准。不过这些仍然是表面现象,古籍数字化如何定位,特点如何才是深层次问题。陈力指出,古籍数字化是数字图书馆建设的重要组成部分,应该是开放的。古籍数字化应该根据古籍的特点来进行,数字化的过程是一个信息重组并上升为知识的过程。图书馆、读者、同行,用户都应该是古籍数字化的参与者。【52】吴家驹把古籍数字化的成果进行了初步的统计。【53】
这一时期的显著特点之一,就是关于古籍数字化理论和学科建设的深入讨论,逐步完善,成熟起来。李明杰认为,古籍数字化最主要的就是实现知识关联的全文检索,是实现了语义关联和知识重组的数字化信息的过程。并讨论了什么样的古籍适合数字化,由谁来实现数字化,并介绍了如何实现数字化的四方面关键点。【54】毛建军在2006年指出,古籍数字化属于古籍整理的范畴,代表着古籍整理的未来方向。古籍数字化研究中存在着古籍整理学界参与少,理论研究相对滞后的特点。构建古籍数字化系统理论可以为古籍数字化出版提供基础理论,开拓古籍整理和古典文献学专业的新视野,为文史研究者提供新思维和新工具。【55】博客如舸斋指出,传统文献学是数码文献学的基础,数码文献学是传统文献学的延伸;传统文献学是治学门径,数码文献学是治学利器;传统文献学是求真的学问,数码文献学是有效的工具。【56】而代表了学科成熟度的教科书出现,说明古籍数字化理论已经较为成熟。毛建军主编的教科书在分析了学术诸多关于古籍数字化的定义之后认为:古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成电子索引、古籍书目数据库和古籍全文数据库,用以解释古籍文献信息资源的一项系统工作。【57】教科书的出现,说明古籍数字化工作开始了系统化的梳理,理论建构初步成熟,学科体制已经形成,这是古籍数字化方向的重要成果。
马少平等介绍了古籍全文数据库的几种类型:完全图像、目录文本和正文图像、全文本、全文图文对照,并设计了古籍数字化的系统流程图和识别子系统流程图,对于大型中文古籍的数字化系统提出了自己的解决方案。【58】古籍数字化工作中的基础工作建设也得到了空前的重视,国家层面上提出了建设《国家数字图书馆标准规范》,并由中国科技信息研究所、中国科学院文献情报中心和中国国家图书馆联合发起于2002年启动了相关工作,得到科技部科技基础性工作专项资金重点项目资助。主要针对数字图书馆系统的数字资源建设与服务,制定我国数字图书馆标准规范发展战略与标准规范框架,制定数字图书馆核心标准规范体系,建立数字图书馆标准规范开放建设与开放应用机制。项目一期从2002年10月开始,到2005年9月结束。二期从2006年开始。其中设定了子项目《我国数字图书馆标准规范专门数字对象描述元数据规范》,试图通过对国内外已有的专门数字对象的元数据标准进行研究,同时针对中文数字资源的特点,选取不同类型的资源对象,以及具有中国文化特色的文献资料类型(如古籍、拓片、舆图等),通过试验研究,最终确定揭示和描述这些对象内容及其特性要采用的元数据标准,建立元数据格式及其扩展和互操作规则等,并提出初步的操作规范与应用指南。其中制定了古籍数字化方面需要遵循的22项数据规范或著录规则。【59】
古籍书目数据库建设也是这一时期的重点建设内容,徐清回顾了1995年到2006年间的古籍书目数据库建设工作,认为古籍书目数据库建设研究以建库的标准化、规范化为重点进行了一系列的探讨,取得了值得关注的成果。虽然在具体的问题上尚存在诸多分歧,甚至可以说还处于起步和实验阶段。但在古籍联合目录数据库的建设问题上,也达成了一定的共识:编制古籍联合目录数据库是进一步保存保护和开发利用古籍文献的基础,它对于学术研究和传播传统文化具有重要意义,古籍联合目录数据库的建置需在统筹规划、合作协调的基础上,借助于科学的可操作的统一规范来完成。【60】毛建军对古籍书目数据库加以定义,认为其是指在统一的机读目录格式下按照相应的标准和规范加工而成,并最终以计算机网络系统形式向用户提供相关古籍数据资源检索的大型目录数据库。并列表统计了海外、港台的古籍目录库。【61】熊伟华介绍了国内古籍书目检索网点的总体状况,并进行了列表统计。认为存在的问题主要是网络较差,古籍书目检索时有时无;缺乏对本馆古籍资源情况的介绍和对检索方法的说明;大多数合库者对古籍书目数据库并入综合书目数据库都未作说明,不便利用;缺乏主题标引,各检索系统在机读目录字段设置、繁简字使用和分类法使用上也极不统一。【62】
古籍数字化的专题工作也得到了迅猛发展,特别是在农业古籍、民族古籍、中医古籍、敦煌学等方面表现突出。南京农业大学是农业古籍数字化研究的最优秀者,有多部博士论文论文涉及农业古籍的数字化问题,【63】并由侯汉清主持,获得了国家社科基金2008年的资助项目《文化典籍整理与开发的智能技术研究》。2005年,常春讨论了农业古籍数字化项目的建设意义,并应用竞争情报的SWOT分析法,分析了农业古籍数字化项目的发展策略。【64】盛玲玉指出,建立农业古籍书目数据库,并建立图文版的农业古籍库,是最适合的数字化方式。【65】2004年批准由农业信息研究所承担的国家科技基础性工作专项“农业古籍珍藏及全文数字化研究与建设”项目,于2006年12月23日通过验收。该项目重点完成了基于图像的数字化农业古籍全文检索技术研究;国家农业图书馆古籍数字馆藏质量控制研究;农业古籍全文数字化检索技术研究和用户服务系统完善等。建成适合农业古籍特点、数据内容完备、著录规范化、标准化程度较高的古籍书目数据库,总计12,767种,13,044册,其中重要农书、史书可与一次文献连接,数字化全文总量达6000余册,80余万页,Tif格式原图文件700余G,部分为彩色图像。实现古籍文献目录、全文图像、检索工具的“一站式”查询检索门户体系建设,为国家农业图书馆古籍网络化、数字化资源共享,搭建了良好的基础平台;设计出“Web农业古汉语电子词典”(试用版),作为帮助读者在线阅读农业古籍的工具,方便用户利用。【66】在中医古籍、数字敦煌、民族古籍方面也先后发表了数十篇文章,极大的推动了数字化技术在相关方向的应用。
2002年以来,古籍全文数字化最大的一项工程是《中国基本古籍库》,由刘俊文总策划、编纂、监制。北京爱如生公司研发制作,2005年全部完成。共计500张光盘,总字数20亿,图像2000万页。收录了先秦到民国时期的典籍1万余种,均提供一个通行版本的全文信息和1-2个重要版本的图像信息。并根据中国古籍分类法,创设了自己的分类办法,4个子库,20个大类,100个细目。检索方便快速,具有良好的阅读编辑功能。这是古籍数字化建设的极大成就,是古籍数字化建设最高水平的代表之一。不过由于其高昂的价格,只有少部分财力雄厚的大学、研究机构得以购置,使用较为不便,限制了其先进功能和技术能力为学术发展做出更大贡献的可能性。如何在防止盗版和推进学术之间找到平衡点,是一个高难度的任务。
2002年以来,先后出现了多部较为集中讨论古籍数字化的专书。2002年,国家图书馆的内部刊物《文津流觞》第8期,建设了“数字化专辑”,集中刊布了24篇文章,讨论了古籍数字化的各个方面,是图书情报界一次大规模集中的讨论,对古籍数字化工作起到了极大的推动作用。【67】本年出版的《西夏文字数字化方法及其应用》在系统介绍和讨论了古籍数字化、电子化的一些基本理论之后,介绍了非汉字古籍数字化的方法,讨论了西夏字库的建立和编码及版面识别等问题,这是第一本系统讨论古籍数字化及实现技术的专著,有着极其重要的代表性。【68】2004年,在台北召开的“古籍联合目录数据库合作建置第三次研讨会”集中讨论了古籍书目数据库建设工作。2007年出版的《民国农业文献数字化整理及信息组织》研究了农业文献索引和电子图书编纂以及文献数据库建设等问题。【69】而前述2009年出版的毛建军先生所主编《古籍数字化理论与实践》,虽然尚存诸多不完善之处,却仍是古籍数字化理论表述的集大成者。毛建军2008年完成的南京大学博士毕业论文《古籍数字化理论研究》从古典文献学和古籍整理学角度系统提出了古籍数字化的基本理论框架,提出了古籍电子索引、古籍书目数据库以及古籍全文数据库的概念,对古籍数据库的规范提出了评价标准。
在文史学者应用当中,陈爽的几篇文章,再一次普及了古籍数字化知识。【70】吴宣德从使用者角度认为古籍数字化选题内容重复,文件格式繁多,阅读和资料提取麻烦。项目规划单调,产品开发缺乏连续性,得到了广泛的共鸣。【71】王兆鹏介绍了电子古籍文献检索资源,【72】刘伟归纳总结了《史记》的相关电子资源,【73】杨琳介绍了数字化的古典文献。【74】郑永晓认为,决不能仅仅满足于把计算机当作一个检索工具。应当适应并利用其独特的思维方式,在古籍数字化的基础上将古代文学研究提升到一个更高境界。计算机人工智能首先在古籍整理方面大有用武之地,在古典文学研究方面也有其契合点。同时对版本意识淡薄、字库设计不规范以及缺乏合适的程序设计语言等古籍电子化过程中面临的问题作了探讨。【75】
可以说,大部分古籍数字化建设项目都是在2002年左右开始启动的,有些项目已经建设完成,2002年是古籍数字化建设的一道重要分水岭。从2002年开始,古籍数字化的理论表述逐步成型,各类数据库建设基本完善,大规模投入了商业应用,更多采用了网络化建设手段。若干大型学术会议的召开,特别是《文津流觞·数字化专辑》、《西夏文字数字化方法及其应用》、2004年起陆续推出的《数字图书馆标准规范·专门数字对象描述元数据规范》、《古籍数字化理论与实践》等论文集、专著、国家标准的出版和发布,基本奠定了古籍数字化的学科体系。CADAL和读秀则提供了绝大部分图像格式的古籍数字化产品。读秀是由超星公司建设的商业化数字化网络图书馆,可以咨询部分页面,由读秀(超星)制作的大量古籍数字化产品,成为学者的案头必备。CADAL是公益项目,列入了“十五”期间“211工程”公共服务体系建设的重要组成部分。与“中国高等教育文献保障系统(CALIS)”一起,共同构成中国高等教育数字图书馆的框架。CADAL采用全文浏览方式,以便让尽可能更多人看到原汁原味的古籍。也较好地解决了通用性问题,它不像“超星”与“书生之家”等系统,需要安装相应的浏览器才可阅读,用户仅需在IE浏览器上安装一小插件,便可浏览任一CADAL项目中制作的E-BOOK。【76】
随着国学的普及化,更多的民间网站也投入了古籍数字化的行列。当然,这些民间网站在学术上尚未成熟,但是朝气蓬勃,人气也极为旺盛,而一些专业化网站门庭冷落。虽然网站高下不能以人气衡量,但是完全失去了人气的网站总是生命力不强的。这类网站多数以bbs形式展现,2003-2004年成熟,活跃在2005-2006年的有读书中文网,后期由于站长精力及其他因素导致关站,2008年以后转型成为非常小众化的网站。2005年左右建立的有国学数典网站(http://bbs.gxsd.com.cn/index.php),是目前同类网站中制度最完善,规模最大,会员最多的一家。2008年建立的龙腾国学网站(http://bbs.ltgx.net/index.php)有充足的空间,完善的架构体系,也是寻找诸多古籍的优秀平台。另外一些有电子资源存在的网站如儒藏网、爱如生等开闭不时,在网络中影响较小。总体看来,这些网站的古籍数字化来源较为单一,偶尔有网友扫描的个别图书。另外,行走在版权边缘的巨大风险,也是民间古籍数字化网站头上的不可抗因素。
四、古籍数字化研究历程的回顾与展望
30年来,古籍数字化研究走过了一条快速发展的道路,成果丰富,效益显著。对学术研究工作起到了极大的助力作用,文史研究水平在古籍数字化的基础上得以进一步提高。总的看来,30年来的古籍数字化研究呈现加速度发展的态势,与计算机软硬件、互联网技术发展是同步的。
回顾计算机及网络技术发展史,我们可以看到,1978年到1994年是网络初期:1978年,TCP/IP协议建立;1985年,“.com”和“.edu”域被分配出来;1986年,NSFNet建成,掀起与Internet连接高潮;1987年,在德国和中国间建立E-mail连接,钱天白教授发出中国第一封电子邮件;1990年,Internet开始建设。1995到2001年是网络就绪、影响期:1995年,WWW与搜索引擎成为最热门技术,;1996年,搜索引擎、JAVA、网络电话成为最热门技术,同时出现网络计算机等新技术;1997年,推送、多址广播成为最热门技术,同时出现流媒体等新技术;1998年,电子商务、网络拍卖、网络门户网站发展得如火如荼,电子贸易、XML、入侵检测等成为最新被关注的技术。全球电信、IT、互联网产业,基于同一个基础平台进行整合,产业边界模糊,产业链缠绕,标准趋于融合,最终形成.NET和J2EE两大阵营,激起了产业链中的创新变革和横向融合,产业发展的驱动力向应用服务转化。2002年至今是网络效益期:各种新技术、新应用层出不穷,几乎每个行业都开始享用数字化的饕餮盛宴。
从所述的计算机和网络发展历程可以看出,古籍数字化历程没有脱离这个基本的发展轨迹,1979-1995是古籍数字化的起步阶段,成果少,功能不完善,几乎大部分最终产品都已经淘汰,甚至绝大部分的原始数据也被更完善更准确的数据取代。1995年-2001年,古籍数字化得到了更加广泛的关注,图书情报界、文史界、电子工程界、网络技术界都在参与古籍数字化工作,今天看来,很多工作启动比较匆促,成果不尽如人意。这一时期的最重要代表性工作就是由迪志公司和上海人民出版社合作的《文渊阁四库全书》电子版,其影响力至今尚未消歇,已经成为文史学者的装机必备。2002年以来,以《中国基本古籍库》为代表的大型系统成熟,国家数字图书馆标准规范发展战略与标准规范框架的建立,促使数字图书馆中的古籍数字化建设得到了规范。
据笔者搜集的研究成果论著统计,在古籍数字化发展的30年历程上,有这样几个标志性的成果,理论表述方面:2002年的《文津流觞》第8期数字化专辑和《西夏文字数字化方法及其应用》,2006、2007、2008年完成的4部博士论文,2009年出版的《古籍数字化理论与实践》;学术会议方面:1995年召开的“中国古籍整理研究出版现代化国际会议”,2004年召开的“古籍联合目录数据库合作建置研讨会”,2007年召开的“第一届中国古籍数字化国际学术研讨会”,2009年召开的“第二届中国古籍数字化国际学术研讨会”是其中的较为重要者;单机或网络文史软件方面:1999年完成的《文渊阁四库全书》电子版,1999年完成的《古今图书集成》电子版,2002年完成的《永川二十五史检索系统》,2005年完成的开放式中华古籍全文检索数据库《国学宝典》,2005年建成的《中国基本古籍库》等是为翘楚;在古籍书目库和基本标准建设方面:《古籍著录规则》(GB3792·7-87),《汉语文古籍机读目录格式使用手册》,国家图书馆馆藏善本古籍文献书目总库,上海图书馆家谱书目数据库,海内外图书馆合作编制收藏中文古籍书目资料45万条的“中文古籍书目数据库”,2004年开始发布的数字图书馆标准规范专门数字对象描述元数据规范等是其中较有代表性的成果。
总体上看,1995年召开的“中国古籍整理研究出版现代化国际会议”是第一次大规模的系统总结,1999年完成的文渊阁四库全书电子版是具有重大影响的古籍数字化成果,2002年的出版的《文津流觞》第8期和《西夏文字数字化方法及其应用》是古籍数字化研究的系统梳理,2004年召开的“古籍联合目录数据库合作建置研讨会”对于古籍书目数据库的编目工作推动极大,2005年完成的的中国基本古籍库是数量最大,系统较为完善的全文数字化成果,《国学宝典》则在普及国学数字化方面贡献甚大,2007年“第一届中国古籍数字化国际学术研讨会”和2009年出版的《古籍数字化理论与实践》则标志着学科体系的初步建成。
展望未来,古籍数字化仍有极大发展空间,学术成长的道路还有极多工作需要开展。特别是在智能化检索的探索,联机字典的大力完善,以及学科体系建设,并形成个人本地数据库等方面有着广阔的未来!
注释:
【1】本文系中国博士后科学基金面上资助及特别资助项目“唐宋土地制度变迁”、“唐宋乡村社会控制与生存秩序”成果;辽宁省教育厅人文社会科学研究项目“唐宋赋役政策演变研究”;辽宁大学预申报基金项目“唐宋农民生活状况研究”;辽宁大学亚洲研究中心项目“均田制研究史”研究成果之一。
【2】陈寅恪:《陈寅恪集·金明馆丛稿二编》,三联书店出版社,2001年,第266页。
【3】力一:《苏联学者谈电子计算机用于人文科学》,《国外社会科学》1979年第1期。
【4】江小平:《法国<世界报>谈电子计算机进入人文科学问题》,《国外社会科学》1980年第2期。
【5】佚名:《电子计算机开发我国古代科学史料》,《中国科技史杂志》1982年第2期。该文转载自《北京晚报》1982年5月5日。文中提到该成果1981年曾在东京的国际陨石学术会议上发布。1975年,四川大学曾利用电子计算机来从事甲骨碎片缀合的工作,但这还不是文献史料的数字化工作。见童恩正:《关于使用电子计算机缀合商代卜甲碎片的初步报告》,《四川大学学报(自然科学版)》1975年第2期。
【6】语言学学科规划小组:《全国语言学学科规划会议纪要》,《语文研究》1983年第8期。
【7】栾贵明、李秦:《微电脑与古文献研究》,《古籍整理与出版情况简报》第127期,1984年8月20日。
【8】张普:《计算机在中国古籍整理研究领域中的应用(综述)》,《语文研究》1989年第4期。
【9】共月:《<全唐诗>在我校输入电脑》,《深圳大学学报(人文社会科学版)》1987年第1期。
【10】田奕:《古籍整理与研究的电脑化》,《中国文化》1994年第1期。
【11】曹书杰:《古籍整理与电子计算机应用研究的思考》,《古籍整理研究学刊》1988年第1期。
【12】刘宁:《汉字全文检索系统的分析、设计–从湖北省地方志全文检索系统的研制谈系统功能及设计方法》,《现代图书情报技术》1988年第2期。
【13】张普:《计算机在中国古籍整理研究领域中的应用(综述)》,《语文研究》1989年第4期。。
【14】李岩:《古籍整理研究技术手段现代化刍议》,《古籍整理研究学刊》1988年第4期。
【15】于曼玲:《用电子计算机编制古籍索引的体会》,《中山大学学报(社会科学版)》1988年第4期。
【16】张普:《计算机在中国古籍整理研究领域中的应用(综述)》。
【17】师文:《海峡两岸中国古籍整理研究现代化技术研讨会在京举行》,《语文建设》1993年第12期。
【18】佚名:《一次编制中国古籍善本书机读联合目录的试验》,《古籍整理出版情况简报》第225期,1990年5月1日。
【19】柯单:《美中联合编制中文古籍善本书机读目录进展情况》,《古籍整理出版情况简报》第267期,1993年2月。
【20】何小清:《我国古籍索引的新发展》,《辞书研究》1994年第4期。
【21】会议论文集未见出版。会前发布了通知。见佚名:《中国古籍整理研究出版现代化国际会议将在北京举行》,《出版参考》1994年第14期。会后简单综述见弓长:《首届中国古籍整理研究出版现代化国际研讨会在北京召开》,《语言文字应用》1995年第4期。由于资料缺乏,笔者未能搜集到这35篇文章全文,其文章题目见附录。
【22】姚松:《计算机用于古籍整理研究的现状与展望》,《中国典籍与文化》1995年第2期。
【23】姚俊元:《计算机辅助古籍整理研究的现状与思考》,《图书情报论坛》1995年第3期。
【24】王涵:《近年来微机操作系统的革命与古籍整理》,《中国典籍与文化》1995年第3期。
【25】本刊通讯员:《大藏经编纂及电脑化座谈会纪要》,《世界宗教研究》1996年第2期。
【26】方广錩主编:《藏外佛教文献第2辑大藏经编纂及电脑化特辑》,宗教文化出版社1996年。
【27】刘刚:《浅谈古籍书目数据库建设的若干问题》,《国家图书馆学刊》1996年第1期。
【28】周秦:《古籍书目数据库建设浅议》,《图书馆工作与研究》1997年第2期。
【29】朱岩:《中国古籍书目数据分析》,《国家图书馆学刊》1999年第2期。
【30】秦淑贞:《如何建立规范化的古籍书目数据库》,《现代图书情报技术》1999年第2期。
【31】李荣慧:《古籍书目数据库建设面临的问题及对策》,《图书与情报》2000年第1期。
【32】陈美亚:《对建立古籍书目数据库的思考》,《江西图书馆学刊》2001年第3期。
【33】胡海帆等:《北京大学古籍数字图书馆拓片元数据标准的设计及其结构》,《图书馆杂志》2001年第8期。
【34】郭小武:《电子文本的简繁转换——关于简体古籍逆向工程的实验报告》,《语言文字应用》2000年第4期。
【35】陈秉仁:《古籍善本数字化的尝试——中国古籍善本查阅系统述略》,《现代图书情报技术》1998年第1期。
【36】乔红霞《关于古籍全文数据库建设工作的思考》,《河南图书馆学刊》2001年第4期。
【37】国家图书馆数字资源建设指导小组:《国家图书馆数字资源建设(2003-2005年规划)》,http://ich.cass.cn/Article_Show.asp?ArticleID=378。
【38】张轴材:《<四库全书>电子出版工程与中文信息技术》,《电子出版》1999年第2、3、4、5期。
【39】刘博:《基于<文渊阁>四库全书电子版分析我国古籍数字化问题与对策研究》,郑州大学硕士论文,2006.
【40】唐建设:《古今合璧<古今图书集成>电子版》,《中国电子出版》1999年第4期。
【41】罗凤珠:《以“互动观念”建立“红楼梦网络数据中心”对红学发展之影响》,《红楼梦学刊》1997年增刊。
【42】郁默:《台湾中央研究院汉籍全文资料库》,《中国典籍与文化》1998年第3期。
【43】薛亚军:《古籍电子化对中国古代文学研究的影响》,《松辽学刊(社会科学版)》1999年第5期;陈海波:《关于数据库在古汉语研究中的应用》,《古汉语研究》2000年第3期;甘锐:《<十三经词语索引>系统的设计和建立》,《辞书研究》2000年第6期;袁林:《中国古代史研究数字化文献资源与利用》,《中国史研究动态》2000年第12期;张奇:《中国家谱上网现状与思考》,《图书馆杂志》2000年第5期;范子烨:《古籍电子化与中国古代文学研究——近年来若干古籍电子化工程及有关专业网站扫描》,“第一届全国高校中国古代文学科研与教学研讨会”,上海,复旦大学,2000年4月。
【44】史睿:《试论中国古籍数字化与人文学术研究》,《汉字的应用与传播’99汉字应用与传播国际学术研讨会论文集》,华语教学出版社,2000年,第368页。
【45】施言:《楼宇烈教授谈电子世界的佛典》,《世界宗教文化》2000年第1期。
【46】邓小军:《一史馆招标清华紫光中标明清档案管理将实现现代化》,《中国档案》2001年第4期。
【47】裴丽:《中医古籍文献资源数字化建设探讨》,《图书馆学研究》2001年第6期。
【48】祝尚书:《试论古籍整理研究数字化、信息化的现状与问题》,《“中国传统文化与21世纪”国际学术研讨会论文集》,中华书局,2003年,第193页。
【49】李弘毅:《浅论古籍数字化的发展阶段》,《上海高校图书情报学刊》2002年第2期。
【50】陈立新:《古籍数字化的进展与问题》,《上海高校图书情报工作研究》2003年第2期。
【51】岳占伟:《中文古籍数字化的成就与挑战》,《殷都学刊》2004年第4期。
【52】陈力:《中国古籍数字化的现状与展望》,《古籍整理出版情况简报》2004年第4期。
【53】吴家驹:《中文古籍数字化进展与主要成果述评》,《南京师范大学文学院学报》2004年第3期。
【54】李明杰:《中文古籍数字化基本理论问题刍议》,《图书馆论坛》2005年第5期。
【55】毛建军:《关于古籍数字化理论建构的思考》,《高校社科动态》2006年第4期。
【56】如舸斋:《数码文献学与传统文献学》,http://blog.sina.com.cn/s/blog_42990e1901008vyh.html。
【57】毛建军主编:《古籍数字化的理论与实践》,航空工业出版社,2009年,第5页。
【58】马少平等:《大型中文古籍数字化系统的设计与实现》,第八届全国汉字识别学术会议,北京,2002年。
【59】该项目设有专门网站,http://cdls.nstl.gov.cn/,2009年8月6日检索,大部分标准已无法下载。
【60】徐清:《近十年古籍书目数据库建设研究概述》,《图书情报知识》2006年第5期。
【61】毛建军:《中文古籍书目数据库的调查与分析》,《图书馆论坛》2007年第5期。
【62】熊伟华:《古籍书目检索网站述略》,《现代图书情报技术》2004年第9期。
【63】曹玲:《农业古籍数字化整理研究》,南京农业大学科学技术史2006年博士毕业论文;常娥:《古籍智能处理技术研究——农业古籍自动编纂和自动校勘的研究》,南京农业大学科学技术史2007年博士毕业论文;何琳:《古农学本体的半自动构建及检索研究》,南京农业大学科学技术史007年博士毕业论文。
【64】常春:《农业古籍数字化项目的建设意义和SWOT分析》,《情报杂志》2005年第11期。
【65】盛玲玉:《国家农业图书馆农业古籍数据化的探讨与实现》,《农业图书情报学刊》2005年第12期。
【66】农业信息研究所:《国家科技基础性工作专项“农业古籍珍藏及全文数字化研究与建设”项目通过验收》,http://www.caas.net.cn/caas/showarticle.asp?id=3845。
【67】《文津流觞》,第8期,http://www.nlc.gov.cn/old/old/wjls/html/8mulu.htm。
【68】马希荣、王行愚:《西夏文字数字化方法及其应用》,甘肃文化出版社,2002年。
【69】王雅戈:《民国农业文献数字化整理及信息组织》,中国三峡出版社,2007年。
【70】陈爽:《网络文史资料库一览》,《文史知识》2002年第6期;《网络文史信息的检索、浏览与存储》,《文史知识》2002年第1期。
【71】吴宣德:《古籍数字化:现状、问题与趋势——从一个使用者的角度看》,澳门:“汉文化联盟”第二届汉文化资料库国际学术研讨会,2002年。
【72】王兆鹏:《电子古籍文献检索资源概述》,《古典文学知识》2003年第4期。
【73】刘伟:《<史记>电子资源述评》,《史学月刊》2003年第.10期。
【74】杨琳:《数字化古典文献综述》,《中国史研究动态》2004年第4期。
【75】郑永晓:《古籍数字化与古典文学研究的未来》,《文学遗产》2005年第5期。
【76】肖卓:《CADAL项目与古籍整理》,《图书与情报》2005年第4期。