古籍数字化概念的形成过程探析

毛建军

  内容摘要:概念研究是古籍数字化研究的核心问题,探讨古籍数字化概念形成的历史过程,有助于古籍数字化概念的进一步明晰。古籍数字化概念的形成经历了早期实践、术语混用和概念形成3个阶段。

  关键词:古籍;数字化;概念研究

  作者简介:毛建军,男,1971年生,南京大学中文系2005级博士研究生

 

  概念研究是古籍数字化研究和开发的核心问题。没有一个明晰的概念,古籍数字化研究必将陷入混乱的局面,古籍数字化的开发也必将走入歧途。“古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功”[1]。正是因为缺乏古籍数字化理论的指导,才造成了目前古籍数字化在开发理念上的千差万别、质量上的参差不齐和标准上的各自为政的局面。

一、古籍整理与计算机结合的早期实践

  自计算机问世以来,古籍整理就有了新的利器,这一利器就是古籍数字化。古籍数字化与计算机信息技术的发展密切相关。1971年台湾的马志钦教授提议利用计算机做中文资料处理研究。不久几乎台湾所有的大学和电子研究机构都全力投入了这项极具潜力的领域[2]。1984年台湾中研院史语所开始实施开发“史籍自动化系统”。该计划由毛汉光教授倡议,谢清俊、管束东主持开发[2]。在台湾,除了单位投资建设中文信息资料库外,部分个人也积极投入到这项极具挑战性的工作中。1987年,台湾师大中文系教授陈郁夫也开始尝试开发《红楼梦》《水浒传》的全文检索系统[3]。

  大陆地区计算机事业起步较晚,在古籍整理与计算机结合的实践上较晚于台湾。1983年,全国语言学学科规划会议上提出要加强古籍整理和计算机的合作,促进古籍整理研究手段的现代化和方法的现代化。随后,国内开始了古籍整理与计算机结合的实践。1983年秋,江苏省“红楼梦电脑处理”课题启动,参加单位有镇江市科委、镇江市统计局电子计算站和江苏省计算中心,彭昆仑担任课题负责人[4]。1984年钱钟书先生提出,古典文献整理和研究应尽早与计算机结合。在钱钟书的倡导下,中国社会科学院文学研究所栾贵明、田奕等组成了研究小组,经过艰难的探索,“全汉字系统”“诸子集成数据库”“全唐诗检索系统”等古典文献数据库相继完成[5]。1984年9月—10月,深圳大学一批中青年学者提出让古籍插上电脑之翼的研究计划,开始着手开发《红楼梦》多功能检索数据库[6]。1987年10月,陕西师大在编撰《十三经辞典》和《十三经词语索引》的基础上开始探索辞书电脑处理系统[7]。

  在古籍整理与计算机结合的早期实践中,台湾和大陆是主体,但其他地区包括国外也有古籍整理与计算机结合的实践,这些经验对后期的古籍数字化工作产生了影响。如1978年美国人P.J.Ivanhoe运用计算机编制了《朱熹大学章句索引》《朱熹中庸章句索引》《王阳明大学问索引》《王阳明传习录索引》《戴震孟子字义疏证索引》等[8]。1995年初,美国图书馆研究学会(RLG)与北京大学图书馆合作开发联机中文善本目录,为我们提供了宝贵的经验[9]。

  古籍整理与计算机结合的实践也引起了学术界的思考。1988年曹书杰在《古籍整理研究学刊》发表的“古籍整理与电子计算机应用研究的思考”一文论述了古籍整理中的古籍今译、古籍注释、训诂、古籍校勘、古籍辑佚以及古籍的汇编计算机辅助等基本问题,并提出了“机整”的概念,即电子计算机参与古籍整理研究领域的工作[10]。

二、20世纪90年代——多种术语混用时期

  20世纪90年代,随着计算机用于古籍整理实践的丰富和大量数据库资源的开发,学术界开始出现古籍电脑化、古籍自动化、古籍电子化以及古籍数字化等术语。这些术语或在论文标题中出现,或在行文中出现,但都没有具体内涵的界定。这种现象反映了学术界对古籍数字化概念的模糊性,因此出现了如此之多的这类术语。

  1990年台湾《国文天地》为推动古籍整理中电脑的运用,特意推出专栏“科技新贵与古籍佳人的结合——中国古籍电脑化”,尽管专栏中没有一篇文章给出“古籍电脑化”确切的定义,却第一次提出了“古籍电脑化”的术语。1994年田奕在“古籍整理与研究的电脑化”(《中国文化》1994年第1期)一文中也使用了“古籍电脑化”。1995年台湾元智工学院教师罗凤珠开发出了“唐诗多媒体网络系统”。同时,罗凤珠还提出了古籍自动化和文史资料自动化的术语[11]。同时,在台湾还出现了“古籍全文数据库”(谢清俊、林晰“中央研究院古籍全文数据库的发展概要”《计算中心通讯》1995年第7卷)、“古籍文献之资讯化”(黄沛荣“古籍文献资讯化之现况与检讨”《国家图书馆馆刊》1997年第6期)、“珍藏文献数字化”(薛理桂“珍藏文献数字化之发展现况与展望”《国立中央图书馆台湾分馆馆刊》1997年第9期)等术语。

  “古籍数字化”术语最早出现在大陆。1996年上海图书馆启动重点科研项目——古籍善本全文光盘,计划将馆藏古籍善本全部数字化。上海图书馆研制的中国古籍善本查阅系统,将馆藏善本古籍的全文数据以图像形式录入光盘,并对标引、检索、查阅等功能进行了开发,为古籍善本的数字化作了尝试[12]。在开发建设“古籍善本全文光盘”的过程中,上海图书馆的工作人员刘炜、陈秉仁提出了“古籍数字化”(刘炜“上海图书馆古籍数字化的初步尝试”《图书馆杂志》1997年第4期)、“古籍善本数字化”(陈秉仁“古籍善本数字化的尝试:中国古籍善本查阅系统述略”《现代图书情报技术》1998年第1期)的术语。尽管刘炜、陈秉仁还没有对“古籍数字化”的概念作界定,但他们在文中详细介绍了上海图书馆开发建设“古籍善本全文光盘”的过程,并对“古籍影像光盘制作及检索系统”的结构、功能、配置作了全面描述。20世纪90年代,国内各大图书馆和科研院所都积极参与古籍数字化工作。1998年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《文渊阁四库全书》电子版无论从技术上还是从市场上来讲,堪称这个阶段古籍数字化的杰作。

  面对国内如此丰硕的数字化成果,《中国典籍与文化》组织了“数字古籍”专栏,专题讨论古籍的数字化问题。其中,陈洪澜在“中国古籍电子化发展趋势及其问题”(《中国典籍与文化》1998年第4期)一文中使用了“古籍电子化”的术语。事实上,这个阶段“古籍电子化”“古籍数字化”“古籍的数字化”是交替使用的。出现这种情况的原因是由于20世纪90年代“数字化”“电子化”混用造成的。王冠中认为:数字化是一个制作过程,电子化是一个应用过程。所以古籍数字化就是古籍文献制作成数字成品的过程;而古籍的电子化则是古籍文献数字化后,被使用的过程。因此,综合而言“数字化”这个概念的表述相应要准确一些[13]。而事实证明,进入21世纪以后,学术界广泛接受了“古籍数字化”这一术语。

三、21世纪初——古籍数字化概念的形成

  明确的古籍数字化(电子化)概念的出现是在21世纪初。2000年李运富在“谈古籍电子版的保真原则和整理原则”一文中首次界定了“古籍电子化”的概念。“所谓古籍电子化,是指利用现代信息技术,将历来以抄写本、刻铸本、雕版、活字版、套版及铅字印刷等方式所呈现的古代文献,转化为电子媒体的形式”[14]。李运富从技术转化的角度提出了古籍数字化的概念,但明显缺少古籍数字化目的的界定。彭江岸“论古籍的数字化”一文对此作了补充:“古籍数字化就是利用数字技术将古籍的有关信息转换成数字信息,存贮在计算机上,从而达到使用和保护古籍的目的”[15]。然而需要指出的是,古籍数字化事实上是一项系统的工作过程,以上两个概念缺少这方面的描述。2001年乔红霞“关于古籍全文数据库建设工作的思考”一文又作了进一步的归纳:“我国的古籍数据库建设即古籍数字化工作伴随着我国数字图书馆发展的步伐,经历了认识、探索、研制3个阶段。在这3个阶段的探索中人们把古籍的数字化归纳为这样一个概念,即利用多媒体技术、数据库技术、数据压缩技术、光盘存储技术、网络传输技术等手段把馆藏印刷型文献、缩微型文献、音像型文献等传统介质文献转化为数字化、电子化的光盘或网络信息的工作”[16]。但这个概念又略显复杂,因此,张雪梅又做了简化:“古籍数字化就是采用计算机技术,对古籍文献进行加工、处理,制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献中所蕴含的极其丰富的信息资源,从而达到使用和保护古籍的目的”[17]。

四、结语

  综上所述,我们可给古籍数字化界定如下:古籍数字化就是从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作。需要指出的是,古籍数字化还处在理论和实践的探索之中,对古籍数字化概念存在不同的认识应是古籍数字化发展中所必须经历的过程。基于这个概念,我们就可以将古籍数字化的基本性质定位为:古籍数字化是对古籍或古籍内容的再现和加工,属于古籍整理的范畴,是古籍整理的一部分。古籍数字化是21世纪古籍整理的主流,代表着未来古籍整理的发展方向。古籍数字化属于古籍整理和学术研究(或称校雠学)的范畴。古籍数字化的最终结果是将古籍资源制成古籍文献书目数据库和古籍全文数据库,从而达到利用和保护古籍的目的。

参考文献:

[1]史睿.论中国古籍数字化与人文学术研究[J].国家图书馆学刊,1999(2):28-35.

[2]叶晓珍.电脑摇身,古籍一变——访中研院谈古籍全文检索系统[J].国文天地,1990(9):16-19.

[3]陈郁夫.“龙泉”初淬——“岭月”中英全文处理检索系统开发记[J].国文天地,1990(9):22-23.

[4]彭昆仑.闯入神奇的知识王国——“电脑红学”研究的甘苦谈[J].国文天地,1990(9):34-37.

[5]田奕.古籍整理与研究的电脑化[J].中国文化,1994(1):85-89.

[6]张卫东.让古籍插上电脑之翼高飞——从“带领《红楼梦》进入电脑”说起[J].国文天地,1990(9):30-33.

[7]杨允敬.用电脑说文解字——大型辞典电脑化的尝试[J].国文天地,1990(9):28-29.

[8]陈东辉.20世纪古籍索引编制概述[J].文献,1998(2):69-78.

[9]张琪玉.古籍索引的一个范例——介绍《古今图书集成》电子版的索引数据库[J].图书馆杂志,2000(5):48-49.

[10]曹书杰.古籍整理与电子计算机应用研究的思考[J].古籍整理研究学刊,1988(1):44-49.

[11]罗凤珠.携手同行古籍自动化的路:不废江河万古流——D.I.Y.唐诗多媒体网络系统架构设计[J].国文天地,1995(6):105-111.

[12]陈秉仁.古籍善本数字化的尝试:中国古籍善本查阅系统述略[J].现代图书情报技术,1998(1):22-25,45.

[13]王冠中.中文古籍数字化成果与展望[D].长春:东北师范大学,2005:3-4.

[14]李运富.谈古籍电子版的保真原则和整理原则[J].古籍整理研究学刊,2000(1):1-7.

[15]彭江岸.论古籍的数字化[J].河南图书馆学刊,2000(2):63-65.

[16]乔红霞.关于古籍全文数据库建设工作的思考[J].河南图书馆学刊,2001(4):58-60.

[17]张雪梅.古籍数字化与文献信息资源共享[J].天津工业大学学报(社科版),2002(3):85-86.

原刊《科技情报开发与经济》2006年第22期