古籍数字化与现代学术进程

吴夏平
(贵州师范大学文学院 贵州贵阳 550001)

  摘 要:从技术与学术之关系的历史经验来看,古籍数字化正处于电子文本与纸本书籍共存的时代。其影响学术活动主要表现为五个方面,一是学术研究愈来愈成为技术活,二是检索替代阅读,使所有学者记忆力衰退,三是发表方便,四是传播速度加快,五是抄袭剽窃成本降低。综合来看,时下流行的“e考据”集中了各种要素,实为其典型代表。总体来看,技术引领学术是数字化时代学术研究的最大弊病。去弊之法有四:其一,充分发挥e时代和e文本的特点,扬长避短,创建为我所用的数据库;其二,技术与学术互补,去“心”“智”之隔;其三,区域资源共享,消除人为屏蔽;其四,防止“数位落差”,坚持汉文化中心本位。

  关键词:古籍数字化;现代学术进程;历史经验;e考据;数位落差

一、历史的经验

  与科学技术相比,人们或许更愿意将学术与政治环境或社会思潮等“心理”活动联系在一起,而忽视了与“物理”之科技的对接。比如梁启超先生概论清代学术,借用生住异灭等佛教术语来论述时代思潮对学术整合分化的影响,其着眼点即在于精神活动。[1]1但事实上,科技对学术进程的影响巨大,正如李约瑟博士所说:“在整个人类文明史中,没有比纸和印刷的发明更重要的了。”[2]笔者以为影响中国学术进程的科技活动,有三个重要的关捩,一是纸的发明,二是印刷的流行,三是网络信息技术(古籍数字化为其中之一)。前二者对学术产生巨大作用,业已被历史证明,现代信息技术左右学术趋向也初露端倪。

  不过,人们在认识科技与学术之关系时,往往从积极方面入手。比如纸张的发明和应用,促进书籍的出版和文学的繁荣。发生在汉末魏晋时期的纸简替代在当时最大限度地促使文化传播,在速度、广度和深度等方面都极大地促成文化下移和知识普及。[3]雕版印刷的积极作用也被充分认识。两宋时期的刻书最大限度地促进教育文化传播,并且作为一种产业加速商业经济的发展,改变都市文化的布局,对文学的发展也产生巨大影响。[4]

  科技对学术的负面作用却鲜少提及。不讲或少讲并不等于不存在。事实上,早在北宋苏轼等人已经开始思考印刷流行对文人的影响。苏轼曾谓:“自孔子圣人,其学必始于观书,……自秦汉以来,作者益众,纸与字画日趋于简便,而书益多,世莫不有,然学者益以苟简,何哉?余犹及见老儒先生,自言其少时欲求《史记》、《汉书》而不可得,幸而得之,皆手自书,日夜诵读,惟恐不及。近岁市人转相摹刻,诸子百家之书,日传万纸,学者之于书,多而且易致如此,其文词学术,当倍蓰于昔人,而后生科举之士,皆束书不观,游谈无根,此又何也?”[5]359书籍多且易得,反而使记忆力衰退。对此问题,叶梦得亦颇有体悟,其《石林燕语》云:“唐以前,凡书籍皆写本,未有模印之法,人以藏书为贵,人不多有,而藏者精于雠对,故往往皆有善本;学者以传录之艰,故其诵读也精详。五代冯道始奏请官镂《六经》版印行,国朝淳化(990-994)中,复以《史记》、《前》《后汉》付有司摹印,自是书籍刊镂者益多,士大夫不复以藏书为意,学者易于得书,其诵读亦因灭裂。然板本初不是正,不无讹误,世既一以板本为正,而藏本日亡,其讹谬者遂不可正,甚可惜也。”[6]116叶氏指出刻本书籍广泛传播后的两个弊端,一是读书人诵读灭裂,和苏轼的担忧相同;二是刻本流行后,其据以刊刻的藏本反而不为重视,导致讹谬之处无法刊正。这与今日数字化时代的弊病何其相似。

  古籍数字化与纸和印刷的发明一样,虽然对学术产生这样或那样的负面作用,但它的进程是历史的必然,无可逆转。从历史的经验来蠡测数字化进程,必然存在两个特点。一是数字化古籍最终取代纸本书籍,二是这个过程是漫长的。从历史来看,纸书取代简册,印刷取代抄写,都经历了相当长的过程。原因之一是经济成本的降低需要技术改进的支持,有一个较长的过程。比如纸张一开始很稀有,只有特权阶层才可以享用,随着技术改进和成本降低才逐渐普及,为普通大众能承受。印刷也是同样,一开始成本相当高,只有少数人能享用,随着技术的改进和商业化,印刷成本逐渐降低,普通大众才可享用。原因之二是观念的变化。汉末魏初重简轻纸,对粗糙的纸张并不认同,纸的应用往往与下层俗文化连在一起。但最终纸张的轻便迅捷等好处慢慢为人接受,逐渐取代简册。最初的刻本书籍同样是被视为俗的,不为文士所重。由于刻本在数量和质量上的优势越来越明显,渐次取替写本。纸简替代的完成约在魏晋时代,刊本取替写本也要等到明清刻书产业的全面兴隆之后。可见,这两个阶段都经历了较长一段时期。可以设想,电子文本全面取代纸本同样是一个漫长的过程,比如电子出版物得到官方认可,电子文献征引具有“合法性”,各种电子书籍和电子商品全面普及等等,均需假以漫长的时日。而现在,我们正处于纸本与电子文本(数字化文本)共存的时代。

  和历史相比较,共存时代的古籍数字化对学术的影响主要有以下几个特点。其一,知识共同体,学术研究愈来愈成为技术活。文献资料多且易得,只是熟练与否的区别。但在古代,远不是这样。比如清代徐松等人利用修《四库全书》的机会,得以观览宫中秘籍如《永乐大典》之类,撰写了不少质量甚高的著作,像《唐两京城坊考》、《登科记考》等皆是。假若没有入宫的机会,要完成这样的著作是很难想象的。再比如《四库全书》原为宫廷珍宝,一般人根本不可能有机会翻读。陈垣少时读《四库全书总目提要》,曾自叹今生可能无望读到《四库全书》。1915年,文渊阁《四库全书》搬运至北京京师图书馆。陈垣每天租一架驴车到图书馆阅读《四库全书》,有时遇上风霜雨雪,来回要三四个小时。这是何等的艰难,但就这样,陈垣一读就是十年。徐松和陈垣的学问高深精博,很大一部分是因为他们要比同时代的其他学者占有更多文献优势。但在古籍数字化的今天,这种优势不复存在。对大多数研究人员来说,能利用的文献材料几乎不存在量上的差异。其二,后写本时代,检索替代阅读,使所有学者记忆力衰退。其三,发表的方便,人人皆是写手。其四,传播速度加快。其五,抄袭剽窃成本降低。这些特点是古籍数字化影响学术研究的不同层面的表现。综合起来看,时下流行的“e考据”集中了各种要素,实为其典型代表。以下仅以“e考据”为例,分析e时代学术研究的利弊。

二、e考据实例

  什么是e考据?一般认为,最早提出这个概念的是台湾新竹清华大学黄一农教授。黄先生曾在《两头蛇:明末清初的第一代天主教徒》的自序中强调:“随着出版业的蓬勃以及图书馆的现代化,再加上国际网路和电子资料库的普及,新一代的史学工作者常拥有博闻强记的前辈学者们梦寐以求的环境。我们有机会在很短时间内就掌握前人未曾寓目的材料,并填补探索历史细节时的许多隙缝,或透过逻辑推理的布局,迅速论断先前待考的疑惑或者矛盾。事实上,一个有机会孕育‘e-考据学派’的时代或已出现。”[7]氏著在大陆出版简体字本后,得到一批文史研究者的称誉。又加上作者勤于讲述,先后到多家大学讲学推广,于是“e-考据”和“e-考据学派”的说法在学界迅速风行。

  究其实质,“e考据”无非还是要尽可能最大限度地占有和利用材料,与七十多年前傅斯年主张的“上穷碧落下黄泉,动手动脚找材料”别无二致。一农教授认为在当今这个网络发达、数字化古籍库蓬勃发展的时代,科学合理地利用现代科技手段,涸泽而渔式地占有材料并解决学术问题是可以实现的。诚然,e考据在某些方面要比传统考据更有效率,比如要比传统考据单纯用人脑和手工的阅读、记忆、分类和排比,在广度、速度和准确性方面都有很大的提高。同时,e考据能在合理时间内进行先前较难施行的分析,并因此有机会开创新的研究格局。但它永远只能是辅助性的。这是因为从理论上来说,利用网络和数字化古籍不可能真正做到材料上的涸泽而渔。在利用时,至少经过了双重过滤。第一重,发展至今日的,各种科研机构和商业公司制作的数字化古籍库,虽然已经是海量了,但并没有也无法将所有的古籍全部数字化。不要说那些极其珍贵的古籍一般很难见到,就是散落在民间的比如族谱之类的文献也是很难得到的。而现在能运用的大多是较为常见的文献。换句话来说,很多文献资料没有上网,没有数字化,必须回到图书馆。第二重,研究人员的检索,是第二次过滤,即在某一固定的数字化古籍库中也无法做到涸泽而渔。因为很多时候只能是点对点的检索,而无法完成多元或关联检索。王兆鹏先生曾提出对数字化古籍的三个期待,其中就说到在《四库全书》电子版中检索“苏轼”的资料,只能检索到包含有“苏轼”二字的资料,却不能检索到不含“苏轼”二字、却含有“东坡”、“子瞻”、“大苏”、“苏徐州”、“苏黄”等与苏轼有关的资料,因为《四库全书》电子版不能自动识别“东坡”、“子瞻”、“大苏”、“苏徐州”等就是苏轼。由此提出“今后数字化古籍,如果能由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索,那就更好了。”[8]

  那么,王先生的期望有没有实现呢?就目前来看,其中部分已得到解决。比如北京大学的李铎教授已突破原先用于检索格律诗的数字模型(字符串),以及用于检索重出诗的数学计算模型(膜),建立了用于分析宋代诗人与文化之关系的《全宋诗》的“本体库”。[9]台湾元智大学的罗凤珠先生也对唐宋诗词的检索功能进行了改造,使全文检索功能从传统的“字形辨识”之全文检索进展为以“语义辨识”之语义概念全文检索。[10]此外似乎还局限于文献形态的转换上,只能提供点对点的字符检索。总体来看,要在短时间内全面实现智能检索恐怕还很难。

  在《两头蛇》一书中,作者虽然利用网络文献和数字化古籍相当宏富,多达1099种。但即便如此,也难免出现将瞿汝夔的母亲支氏误认为谭氏的错误。其成因正如学者所指出的,并非检索本身出了问题,而是他检索的数千种文献中没有关键性的瞿氏家谱。[11]由此可见,检索本身没有问题,但将视野局限于网络提供的数字化文献范围,则这种“e考据”是非常危险的。因此,必须重新审视e考据。它与传统考据学的关系在于,现代检索手段给学术研究提供了非常不一样的天地,通过电子资料库和正确的检索方法,e时代的文史工作者可以做到很多传统时代做不到的事。诚然,e考据是搜集材料的一个现代手段,但是这个现代手段是以传统文史的积累为基础,以对现代技术的掌握为前提的,而只有两种能力兼备,才能够在e时代进行e考据,并取得相当的成果。[12]

三、去弊的方法

  技术引领学术是古籍数字化时代学术研究的最大弊端,但表现在个体和社会群体上又不尽相同。个体方面主要是研究者的惰性和迷失。先说惰性。长期使用网络和各种古籍库的研究方式,使研究者逐渐养成勤于检索的工作习惯,以致形成依赖,离开网络就无法工作。比如利用中文期刊网、超星数字图书馆、《中国基本古籍库》、《国学宝典》、《四库全书》、《四部丛刊》,以及各种其它类型的古籍库,很有一种“坐拥书城”的感觉。因此之故,很少去查阅原典,更不用说阅读纸质原典了。惰性的弊害不只是在阅读方面,更在于由此导致的思维懒惰和视野狭窄。[13]再说迷失。海量信息让人无所适从。若能执简驭繁,恰当地处理信息,则利大于弊;若不能排除无用信息的干扰,如同“一部十七史,从何说起”,则弊大于利。技术引领学术的弊病表现在社会层面则为“隔”。“隔”,因隔阂隔膜形成差距,“不隔”,即融通无碍。数字化进程中的“隔”,主要源于行业、机构、区域、国际等方面差异。不仅阻碍古籍数字化进程,而且可能使汉文化失去中心本位。结合上述种种弊病,笔者以为当从以下几方面着手除病去弊。

  其一,充分发挥e时代和e文本的特点,扬长避短。强调突破局限,与传统研究方法相结合,二者互补。其主要途径是充分发挥电子文本易于搜检统计的功能,创建适合的数据库,利用计量分析方法解决学术问题。数据是证据的延伸和扩大,建构文史专业数据库是学术研究现代化的必然要求,而运用计量分析方法则既构成传统历史文化研究法的一大辅助和补充,也成为使学术研究更具科学性、客观性和准确性的重要途径。计量分析的好处,还在于人类社会中“可以计量的领域有助于我们解释那些不可计量的领域。”[14]尚永亮先生曾结合个人研究心得,提出利用数据库进行研究的一些基本原则,很有参考价值。比如力求基本数据的准确;运用相关数据,对研究对象进行多角度、多层面的分析,使数据尽可能地发挥其利用价值;将研究对象纳入系统框架内,从相互关联和比较中把握其特点和本质属性。[15]创建数据库之外,还可以利用e时代海量信息的特点,补充前人之未备;亦可利用e时代搜检精细的特点,从关系学的角度侧重于人的关系研究。

  其二,技术与学术互补,去“心”“智”之隔。技术与学术本可互相促进,但长期以来各行其是。数字化工作者不搞学术,从事学术者技术水平不高,两相脱节。应让更多的科技工作者进入文史研究领域,也让更多的文史工作者进入数字化行业,两相沟通,有利于数字化的良性发展。同时,政府和教育部门应从学科建设的高度着眼,认可并在较广的范围内设置电子文献科研机构,用以培养相关学科人才。

  其三,区域资源互补,消除人为屏蔽。在一个小范围内加强合作,实现资源共享是较容易的。比如同校、同区、同城、同省都易于合作,实现资源有效利用。但是区域一旦扩大,则合作不易。比如全国各地都藏有地方特色文献,从保护和利用出发,大都已数字化,创建了各具特色的数据库。但这部分精神遗产,实际上只有很少一部分人在享用。不过,加强区域合作,真正做到资源共享,只有政府行为才可能实现,以个人力量是无法做到的。

  其四,坚持汉文化中心本位,防止“数位落差”。数位落差,亦作数码鸿沟、数码隔膜或数码差距,是指社会上不同性别、种族、经济、居住环境、阶级背景的人,接近使用数位产品(如电脑或是网络)的机会与能力上的差异。(1)数字化古籍的数位落差不仅表现在国内的不同区域之间,也表现在国际上。国内沿海发达地区与西部欠发达地区之间的差距虽有增无减,但总体上不影响数字化进程。最应该关注的是国际之间的数位落差。一些从事古籍数字化的商业公司,研制开发出大量的集成性大型软件,其价格高得惊人,动辄数十万甚至几百万,在国内不仅个人无力购买,即便是科研机构也得思量再三。因此,这些数字产品的销售对象就从国内转向国外,特别是一些经济发达的国家。长此以往,本是以汉文化为中心的古籍数字化产品,外国人倒比中国人拥有得更多更精。其结果,域外汉学家最后成了真正的中国专家了。

四、结语

  历史经验告诉我们,任何一种新生事物出现,必然是利弊相伴。发掘其利之时,亦要充分估计其弊。只有这样,才能更好地发挥它的长处而为我所用。古籍数字化同样是这样的。它的各种有利于现代学术的方面,应当合理利用。但认识到其有弊于学术的一面,却能使我们更好地加以改进,推动它的进程。

  可以预言,尽管其过程是漫长的,但电子文本最终必然全面取代纸本书籍。当电子文本、电子期刊、电子文献征引等获得合法地位之日,也正是无纸化学术研究到来之时。数字化古籍作为其中重要组成部分,必然发挥它的无可替代的作用。但同时,我们要充分估计e时代出现的各种问题。比如从技术层面看,所谓e考据,无非就是传统考据学在信息技术时代的延伸,无法脱离传统学术的指导。而更重要的是e时代产生的个人和社会问题,使我们不得不思考应对之法。如何驱除惰性,如何摆脱海量信息的困扰,如何“心”“智”互补,如何消除区域差异,如何防止数位落差,等等,都需要积极思考共同面对。而以上,则是个人的一些鄙见,以祈方家指正。

参考文献:

[1]梁启超.清代学术概论[M].上海:上海古籍出版社,2005.

[2](英)李约瑟,钱存训著,刘祖慰译.中国科学技术史:第五卷第一分册纸和印刷(序)[M].北京:科技出版社,1990.

[3]查屏球.纸简替代与汉魏晋初文学新变[J].中国社会科学,2005(5).

[4]朱迎平.宋代刻书产业与文学[M].上海:上海古籍出版社,2008.

[5]苏轼.苏轼文集[M].北京:中华书局,1986.

[6]叶梦得.石林燕语[M.北京:中华书局,1984.

[7]黄一农.两头蛇:明末清初的第一代天主教徒[M].上海:上海古籍出版社,2006.

[8]王兆鹏.三大功能:对未来数字化古籍的期待[M].中国社会科学院院报,2007-09-28.

[9]李铎.从检索到分析[J].文学遗产,2009(1).

[10]罗凤珠.引信息的“术”入文学的“心”[J].文学遗产,2009(1).

[11]熊熊.e时代的两头蛇[J],台湾“中央研究院”近代史研究所集刊,第59期(2008年3月).

[12]张国刚.“两头蛇”的行藏[J].博览群书,2006(7).

[13]吴夏平.数据库与古代文学研究[J].《光明日报》(理论版),2004-09-29.

[14](英)罗德里克·弗拉德著,肖朗等译.历史计量法导论(导言)[M].北京:商务印书馆,1992.

[15]尚永亮.数据库、计量分析与古代文学研究的现代化进程[J].文学评论,2007(6).

注释:

(1)观察数位落差可以从接近使用(Access)电脑及网络的机会、以及对于电脑及网络的使用能力(亦可称之为资讯素养,InformationLiteracy)这两大面向来看。最早有系统观察数位落差的国家是美国,自1995年起,由美国商务部国家通信及资讯管理局(NTIA)陆续发布数位落差调查报告。一方面,资讯科技使大众的生活质素得到改善,并把繁琐的日常工作简化。然而,对于未能享用同等资讯科技的人,却要继续沿用旧有的方式去工作,不能透过资讯科技去获取资讯或把资讯增值。这当中的差异,有可能会使社会的两极化更趋激烈,从而令社会财富更为不平均。

发布日期:2009-08-18