古籍数字化的使命与前景
(录音整理稿节选)

尹小林

  二十世纪八十年代,文史研究领域逐渐摆脱了政治的限制,发生了翻天覆地的变化,正如甲骨文的发现给学术研究带来的冲击,导致一个新学科的诞生,计算机技术的发展,也产生了一个文理结合的学科——电子文献学。因应于此,首都师范大学电子文献研究所应运而生。电子文献研究所自成立以来,得到了各界领导及学术界大力支持,也在古籍数字化方面进行了一些积极的探索。

  古籍数字化,简言之,就是利用现代信息技术对古代文献进行整理与研究,并以电子数据的方式提供使用。数字化的古籍再配合一定的检索软件,使古籍的阅读、翻检都大为便利,扩展了囿于时间、精力的个人有限的阅读能力,正如古人梦想的神笔,顷刻间可以将万卷诗书尽控于掌中,引起了社会各界的广泛关注。

  古籍数字化大约兴起于上个世纪90年代,当时仅限于电子文本阅读,也因为计算机的普及程度低,参与的此项工作的范围极其有限。目前,各类学术政府部门、研究机构、大专院校乃至个人都纷纷加入到古籍数字化的队伍中来,致使这一新兴领域在短短十年中,迅速发展,目前大约有40亿字的古籍被数字化,出现了《四库全书》、《国学宝典》等大型数据库,国家也倡导了大型的古籍数字化工程。随着网络的普及发展,在线的网络古籍电子资源也如雨后春笋,让人极大地感受到信息时代的便利。

  通过古籍数字化,建设大型古籍数据库,提供贴近现代学术的典籍资源,推进传统文化的现代化进程,为学术研究提供新的动力。将古籍原典、历朝历代整理成果数字化,形成一个庞大精深的立体知识体系,使数据库建设成为连续性的、开放式的,与文化传承和学术研究息息相关的一项工作,可以实现海量信息查询、字词频分析,用字量统计等古人难以实现的功能,为学术研究拓展一片新领域。

  在古籍数字化欣欣向荣的同时,我们也看到,古籍数字化缺乏一定的引导,在数据质量、数据内容等方面存在诸多问题,个别数字化资源随意节选,以讹传讹,产生了对读者的误导,也给研究人员使用带来了阻碍,加之部分数字化不注意对传统文化的选择,为了迎合读者,选取古籍中的糟粕,产生了不良的社会影响,亟需规范化引导。为此,我们将建设“电子定本工程”,以期古籍数字化的健康发展。

  为了总结、交流古籍数字化的经验,探讨数字化存在的问题,展望古籍数字化的前景,我们邀请各地专家学者,济济一堂,希望大家畅所欲言,共同开拓古籍数字化的辉煌未来。

  下面,我谨就古籍数字化的使命与前景发表一下简单意见,就教于各位方家。

  黑格尔在《历史哲学》说过,中国文化是世界上唯一绵延至今的文化。伏尔泰也说过:“世界的历史始于中国。”中华民族创造了辉煌灿烂的物质文明与精神文明,形成了中华优秀传统文化,孕育了伟大的民族精神,正是这样的民族精神,使我们的民族与国家,在任何历史时刻,威武不屈,绵延生长,薪火相传。世界上有许多伟大的民族,也创造了同样辉煌灿烂的文明,但是,都没有流传下来,只成为了历史的遗迹。其重要原因,就是文明载体缺乏连续性,无法流传。中华民族在五千多年的历史长河中,创造了辉煌灿烂的物质文明与精神文明,形成了中华传统优秀文化,孕育出伟大的民族精神。我国宏富浩繁的文化典籍,是中华民族政治、经济、历史、文化和民族精神的重要载体。据专家估计,中国存世古籍总计在10万种以上,如果计入碑刻、家谱等,约有15万种左右。这些存世古籍,负载着厚重的中华文明,凝聚着民族智慧,是祖先留给我们的一笔庞大的精神遗产。发扬时代精神,坚持古为今用、推陈出新,大力发扬中华民族的优秀文化,是时代赋予当代知识分子义不容辞的责任。

  可以说,人类文明的每一次进步,都伴随着技术的进步。古籍数字化将传统文化与现代信息技术结合,在社会分工日益明晰的今天,也顺应了人的全方面发展的需求,在当今社会的意义,大而言之,就是肩负着传承中华文明的重要使命;小而言之,为学术提供研究利器,满足新时代的阅读古籍的多方面、多层次需求。

一、古籍数字化是延续民族文化的重要手段

  一个民族的文化精神可以说是一个民族生存下去的理由和灵魂,对传统的扬弃,决定着这个民族文化精神的统一性、传承性和创新性。而对传统文化进行扬弃的前提是首先要了解传统文化,入乎其内,方可出乎其外。通过数字化工程,我们对传统文化进行全面整理的同时,也是对传统文化的再学习。

  中华五千年优秀文化遗留下来卷帙浩繁的古籍文献资料,虽然历代都曾做了很多抢救整理工作,但经过主观人为的编纂删修,以及因承载介质或时代、自然等因素造成的减损、流失,许多古籍消失了,而且无法再生。封藏于高阁之中的古籍文献资料在呼唤人们重新发现和认识它们的价值。古籍数字化,是当代技术的进步为古籍整理工作提供的一个新途径,通过复制转存,可以相对真实、永久地保存古籍原貌,其内容理论上可以无限期保存。我们可以利用现代技术手段,对古籍进行整理和挖掘,发现其中对现代社会的发展有益的部分,为世界人民的和谐共生服务。

二、古籍数字化为传统文化走向现代化提供了必要条件

  随着互联网技术的发展,网络传播不受时空限制、信息量大、传播速度快的特点,使数字信息成为最重要的文化资源。2004年底,全球最大的搜索引擎公司GOOGLE决定与美国斯坦福大学图书馆等五家图书馆合作,开创世界上最大的数字化网上图书馆。互联网上的数字图书馆,将使人类的精神文化宝库跨越时空,在全人类面前实现资源共享。显然,英美的联合已经占了互联网上话语权之先机,在一个人们极力等待着全球化到来的时代,技术的难关已经不再是困扰人们的主要问题,如何在传播民族文化的同时,保存民族文化的独立品格,维护世界文化多元性的存在,是问题的关键所在。作为东方文化重要组成部分,中华文化在这一方面,也应该有自己响亮的声音。将汗牛充栋的中华文化典籍数字化,搬上互联网,首先,让古老的中国文化借助现代信息技术再现辉煌,让全世界人们感受到东方文化恒久弥新的魅力,也可以使全球范围的炎黄子孙能够方便、快捷地学习了解本民族的文化。文化的传承与保护只有与技术的进步保持同步,才能世代相传。时至今日,华丽的缣帛、朴拙的青铜器都已经成了历史的遗物,一代有一代之学术,也有一代的文化载体。数字化时代要求传统文化也应该进入数字化的行列。当今社会,只有数字化产品才能迅速、准确地进行传递和交流,才能够为互联网信息平台提供有价值的信息资源,使传统文化在信息传播的深度、广度、速度上有一个质的飞跃。

三、古籍数字化为学术研究开辟了一条新途径

  自19世纪末20世纪初以来,中国传统学术在西方学术冲击下,发生了巨大转折。目前,言学者必论西方,学术话语与研究理路都来自西学界。一味的排外是愚昧,一味的尊崇他人也是愚昧。在西方文化大量渗透的形势下,什么才是我们的中流砥柱?决不是来自西方的学术。我们在学习西方的同时,不能以变成西方为目标,而应该以发展自己的传统文化为主旨,只有这样,中国学术才能发展下去。只有拓展眼光,开阔胸怀,既继承和发扬中华文明,又积极吸取人类文明的一切优秀成果,才能使我们的民族精神如鲁迅所说,“外之既不后于世界之思潮,内之仍弗失固有之血脉”。通过数字化工程,为全球华人,为学术界提供良工利器,提供更贴近现代学术的典籍资源,与学术界互动,推进传统文化的现代化进程。通过对传统文化的深入了解与接触,能够增强我们的民族自尊心和对本族文化的自信心,取其精华弃其糟粕,弥合文化的断层,增强民族凝聚力,使中国传统文化获得健康的发展,推进社会的稳定和谐进步。

  “千里之行,始于足下。”古籍数字化任重道远,有很多问题等着我们去处理。这次会议列出的七大议题:

  ①中文古籍数字化的历史、现状和未来;

  ②海内外古籍数字化发展方向及新技术应用;

  ③历史地理信息系统应用平台与专题研究;

  ④古籍加工整理的电子数据格式及规范;

  ⑤简、繁体转换与古籍数据库字形处理;

  ⑥古籍检索平台与知识库建设;

  ⑦古籍文献网络建设与古籍的白话文及多语种翻译。

  以上只是这次会议的部分议题。下面的大会发言中都有所涉及,而且范围更加宽广。我也不讲古籍数字化如何建设,有什么困难,应当注意些什么。利用有限的时间,拟着重就我所知谈谈古籍数字化的能力和未来发展。

  近几年,古籍数字化做了些什么,未来前景又怎样呢?下面拟通过10个特殊实例来展示其功用。

  例1:存贮容量问题。

  在一般字库中,1个汉字占2个字节。

  1024bt(字节)=1K,大约可存放500个汉字

  1024K=1M,大约可存放50万汉字

  1024M=1G,大约可存放5亿汉字

  现在市场已有16G的优盘,全部用来存放文字,大约可存放80亿汉字。

  “国学智能书库”会议纪念版,即存有2亿多汉字,几千幅图,1小时的声音文件。

  我们制作的《四库大系》图形数据库,将《续修四库全书》、《四库未收》、《四库存目》、《四库禁毁》全部1000多万页的图像全部存放在一个500G的活动硬盘中,使用非常方便。

  例2:检索速度问题。

  《国学宝典》网络版演示:从经史子集全库中查“古籍”一词。

  在“国学智能书库”24史中查“古籍”一词。从2亿字的库

  例3:古籍录入问题

  键盘输入。

  OCR识别。

  手写输入,语音输入等。

  例4:检索问题

  检索问题是古籍电子化过程中最重要的一个环节,涉及到古籍分类、校勘、字形、计算机字库、关键词索引、检索程序(计算语言、程序算法)、人机界面等诸多问题。

  数据库检索,最重要是查全率和查准率两项指标。

  此外,还有“有无”、“先后”、“多少”三大主题。

  A、孰有孰无

  “言有易,言无难”——赵元任语,王力多次引用。

  冯其庸先生讲:文革期间,郭沫若从某处看到《再生缘》作者陈云贞写给秋塘的一封信,郭老初步认为秋塘是陈云贞的丈夫范秋塘,但无有找到相关文献。用古籍数据库软件检索“秋塘”,马上就能找到清俞蛟《春明丛说》中有陈云贞致夫书,“范秋塘,淮南诸生也。早失怙恃,倜傥不羁,恃才鸳傲。继母某氏,素悍。秋塘不能供子职,遂以忤逆呈当事,谪戍伊犁。其妻云贞,淑而多才,擅长笔札,工吟咏,恒致书万里外,与秋塘相问答。金坛相国犹子和同,在戍所,时相过从。秋塘每出妻手札以示,于君叹服,录藏箧底。”俞蛟为康乾时人,记录当为可信。

  宋洪迈《容斋五笔》卷九:“元元二字,考之《六经》无所见,而两《汉书》多用之。”

  宋邵博《邵氏闻见后录》卷十九:“刘梦得作《九日诗》,欲用糕字,以《五经》中无之,辍不复为。宋子京以为不然。故子京《九日食糕》有咏云:‘飙馆轻霜拂曙袍,糗餐花饮斗分曹。刘郎不敢题糕字,虚负诗中一世豪。'遂为古本绝唱。‘糗饵粉蜜',糕类也,出《周礼》。”

  宋吴曾《能改斋漫录》卷一:“经典无骑字。古者服牛乘马,马以驾车,不单骑也。至六国之时,始有单骑。苏秦所谓‘车千乘,骑万匹'是也。《曲礼》云‘前有车骑'者,《礼记》乃汉世书耳。经典并无骑字。”

  《声律启蒙》卷上:“张骏曾为槐树赋,杜陵不作海棠诗。”

  宋周煇《清波杂志》卷五:“东坡在黄冈,每用官妓侑觞。群姬持纸乞歌词,不违其意而予之。有李琦者,独未蒙赐。一日,有请,坡乘醉书‘东坡五载黄州往,何事无言赠李琦'。后句未续,移时乃以‘却似城南杜工部,海棠虽好不吟诗'足之,奖饰乃出诸人右。其人自此声价增重,殆类子美诗中黄四娘。”

  宋何薳《春渚纪闻》卷六“李琦”作“李琪”,“五载”作“七载”。明蒋一癸《尧山堂外纪》卷五十二亦记此事。

  《浪迹三谈》卷三:“世传杜子美母名海棠,故全诗不及海棠,此不知所出何典。”

  B、孰先孰后

  1997年,我第一次去汤一介先生家,乐黛云给我讲了一个故事:若干年前,她在国外开一个学术会议,会上有外国学者提出“忧郁”一词在“十三经”、“二十四史”中都没有,可能最早出现于日本,当时在场的许多中国学者竟无法回答。会后,她利用燕京大学的诸子引得,查出早在春秋战国时期中国就有“忧郁”一词(见《管子》),肯定是此词的源头了。当然,现在这类问题已经不存在了。

  《辞源》对“衰退”一词的解释是:精力衰减。犹云年迈。

  其引语为宋曾巩《元丰类稿》和宋陈傅良《止斋集》。

  通过古籍数据库检索,可以找出以下例句:

  《晋书》卷六十八:“〔纪瞻〕上疏曰:……须臣差,则臣日月衰退。”

  唐玄奘译《缘起经》:“云何为老:……损减衰退、诸根耄熟,……是名为老。”

  《释迦方志》卷下:“树东大路左右各一塔,是魔王娆佛衰退处。”

  《唐会要》卷六十七载太和元年杨于陵上疏:“臣以年力衰退,陈乞休闲。”

  《宋史》卷一百九十二:“或武艺衰退者,许他人指名与之比较。”

  据此可以看出,此条目一是释义不准,二是引语较晚。

  《汉语大词典》对“衰退”词条的解释是:

  ㈠(身体、精神、意志、能力等)衰弱退步。㈡(政治、经济、文化等状况)衰落减退。

  解释虽较《辞源》为优,但引用的例句是唐沈千运《濮中言怀》诗,仍未找出最早的例句。

  C、孰多孰少

  社科院黄正建研究员在《唐代“士大夫”的特色及其变化》一文中,就使用了“士大夫”、“士君子”在两《唐书》和《宋史》中出现次数来说明其观点。

  例5:保留古籍原版式问题

  图文对照。《四库全书》,《中国基本古籍库》

  双层PDF文件。

  例6:古书字数。

  清阮葵生《茶馀客话》卷十载:“〔郑耕老云〕以字计之,《毛诗》三万九千一百二十四字,……《春秋左传》二十万一千三百五十字。大小九经,合四十八万四千四百九十五字。”郑耕老为南宋时人,他统计的九部儒家经典字数给我们留下了十分宝贵的信息。清朱彝尊《经义考》卷二百八十九也详细记录了石刻各经字数。用《国学宝典》软件的统计功能,仅需数秒钟,即可完成各经字数统计。现将以上三种统计数列表如下:

序号
书名
《茶馀客话》引郑耕老数
《经义考》引《石刻铺叙》数
《国学宝典》统计数
01
周易
24,207
24,052
21,696
02
尚书
25,700
26,286
25,700
03
毛诗
39,124
41,021
30,387
04
周礼
45,806
50,508
49,413
05
仪礼
52,802
53,867
06
礼记
99,020
98,545
97,985
07
春秋左传
201,350(注1)
197,265
197,294
08
春秋公羊传
44,738
44,922
09
春秋穀梁传
41,890
42,242
10
论语
12,700
15,913
15,917
11
孟子
34,685
 
/td>
35,385
12
孝经
1,903 /td>
1,798
1,903

  注1:《寄园寄所寄》引《郑耕老劝学》为196,845字,误。

  从上表可以看出,《尚书》《孝经》自宋以来,在一千多年的流传中内容几乎没有变化;清代所用《孝经》则少了105字(可能是故意被删掉);现存《周易》《毛诗》字数较宋代有所减少,可能是个别篇章或段落有所流失,《论语》《孟子》《尚书》字数有所增加,是否为清代加入,或新发现逸文尚待研究。

  例7:字频与用字量统计。

  《红楼梦》全书总字数729636个(不含标点),用字4426个,使用频率最高的10个字顺序是:“了”、“不”、“一”、“来”、“人”、“道”、“我”、“是”、“说”、“他”。

  如果将全书分为三部分进行统计,其结果是:

  前40回,总字数为22万8915字,用字量3661个;

  中40回,总字数为26万6572字,用字量3655个;

  后40回,总字数为23万4149字,用字量3139个。

  前40回和中间40回,用字量相差甚小,差率约为1.6‰,后40回与前40回相比,差率约为166‰,差率达100多倍。

  例8:模糊检索。

  水绕宫墙处处声,残红长绿露华清。武皇一夕梦不觉,十二玉楼空月明。

  例9:自动排版。

  (图)

  例10:特殊查找。

  《六一诗话》:“马放当时有进士许洞者,善为词章,俊逸之士也。因会诸诗僧分题,出一纸,约曰:‘不得犯此一字。'其字乃山、水、风、云、竹、石、花、草、雪、霜、星、月、禽、鸟之类,于是诸僧皆阁笔。”

  查《全唐诗》卷182,有李白诗【日夕山中忽然有怀】:

  久卧青山云,遂为青山客。
  山深云更好,赏弄终日夕。
  月衔楼间峰,泉漱阶下石。
  素心自此得,真趣非外惜。
  鼯啼桂方秋,风灭籁归寂。
  缅思洪崖术,欲往沧海隔。
  云车来何迟,抚几空叹息。

  70字的诗中,山云风月石竟用了9次。

  查找中国四大民间故事“孟姜女的传说”,若将关键词定为“孟姜女”,则最早只能查到宋元以后的文献,大量重要的前期资料被遗漏。此故事原型是:杞梁之妻寻夫,夫死,向城恸哭,城为之倾。如果将检索条件定为“杞”、“妻”、“哭”三个关键字,则可找出大量相关材料。

  《孟子·告子下》:“华周、杞梁之妻善哭其夫而变国俗。”

  《论衡·感虚篇》:“传书言:杞梁氏之妻向城而哭,城为之崩。此言杞梁从军不还,其妻痛之,向城而哭,至诚悲痛,精气动城,故城为之崩也。或时城适自崩,杞梁妻适哭。”

  《文选》卷三十七:“齐庄公袭莒,殖战死,杞梁之妻无子,内外皆无五属之亲,既无所归,乃就其夫尸於城下而哭之。”

  《乐府诗集》卷五十三:“杞妻哭死夫,梁山为之倾。”

  《春秋左传正义》卷三十五:“杞梁死,其妻迎其柩於路,而哭之哀。”

  《闲情偶寄·演习部》:“虽不比杞梁妻,善哭天,也去那哭倒长城的孟姜不远。”

  《日知录》卷二十五:“后人相传乃谓秦筑长城,有范郎之妻孟姜送寒衣至城下,闻夫死,一哭而长城为之崩,则又非杞梁妻事矣。”

  《列朝诗集》甲集第一:“君不见杞梁之妻善哭夫,哭得城崩又何补。”

  《东周列国志》第六十五回:“后世传秦人范杞梁差筑长城而死,其妻孟姜女送寒衣至城下,闻夫死痛哭,城为之崩。”

  期望与大家共同做的几件事情

  1.创建电子文献学科

  2.建立大型古籍全文和图像数据库

  3.构建中国文化立体智能知识体系

  古籍是中国的,是古老的;数字是世界的,是年轻的。今天海内外嘉宾学者汇聚一堂,共同探索一条传承中华文明的创新之路。

  谢谢大家!

2007年8月13日

作者单位】首都师范大学电子文献研究所