古籍数字化与学术异化 – 国学网

古籍数字化与学术异化

  【内容摘要】历史经验表明,技术革新必将导致学术变异。古籍数字化对现代学术进程产生积极作用,但同时也带来负面效应,或可导致学术异化。以下三方面值得特别注意:一是技术遮蔽伪化研究论断,二是数字鸿沟拉大区域学术落差,三是技术伪装学问使伪学术加剧。本文认为:积极开发语义检索系统、加大研发主体公益性与商业性协作力度、正确使用数字化成果,将是去除信息时代学术异化的有效途径。

  【关键词】古籍数字化;学术异化;技术遮蔽;数字鸿沟;技术伪装学问

  【作者简介】吴夏平,男,1976年生,江西都昌人,贵州师范大学文学院教授,北京大学中文系博士后。

  近三十年来,中国古籍数字化基本上是通过两个方面来进行的,一是利用计算机对古籍进行揭示,建立古籍的书目型数据库,方便读者检索使用;二是利用计算机对古籍的内容进行数字化,使读者不仅能通过计算机来阅读古籍,并且能够通过磁盘、光盘和网络进行传播。[1]对古籍数字化的研究,随着时间的推移愈来愈炽烈,仅就论文的数量来看已近千篇。[2]研究论题主要集中在两方面,一是古籍数字化建设,即技术层面;二是对数字化古籍利用,属于学术层面。对于技术与学术的关系,则探讨得不多。本文拟从技术遮蔽、数字鸿沟、技术伪装学问等方面揭示信息时代技术与学术之关系,指出或将导致学术异化的诸端表征,并指陈去除异化的相关对策。

一、技术与学术之关系的历史经验

  总体来看,技术革新影响学术变异有三个重要阶段,一是纸张的发明,二是印刷术的运用,三是现代信息技术的普及。技术与学术之关系,古人早有自觉的研究并形成较深的认识。如北宋时期,苏轼思考雕版印刷对文人的影响,指出:“自孔子圣人,其学必始于观书,……自秦汉以来,作者益众,纸与字画日趋于简便,而书益多,世莫不有,然学者益以苟简,何哉?余犹及见老儒先生,自言其少时欲求《史记》、《汉书》而不可得,幸而得之,皆手自书,日夜诵读,惟恐不及。近岁市人转相摹刻,诸子百家之书,日传万纸,学者之于书,多而且易致如此,其文词学术,当倍蓰于昔人,而后生科举之士,皆束书不观,游谈无根,此又何也?”[3]书籍多且易得,反而使记忆力衰退。对此问题,叶梦得亦颇有体悟,其《石林燕语》云:“唐以前,凡书籍皆写本,未有模印之法,人以藏书为贵,人不多有,而藏者精于雠对,故往往皆有善本;学者以传录之艰,故其诵读也精详。五代冯道始奏请官镂《六经》版印行,国朝淳化(990-994)中,复以《史记》、《前》《后汉》付有司摹印,自是书籍刊镂者益多,士大夫不复以藏书为意,学者易于得书,其诵读亦因灭裂。然板本初不是正,不无讹误,世既一以板本为正,而藏本日亡,其讹谬者遂不可正,甚可惜也。”[4]叶氏指出刻本广泛传播后的两个弊端,一是读书人诵读灭裂,和苏轼的担忧相同;二是刻本流行后,其据以刊刻的藏本反而不为重视,导致讹谬之处无法刊正。这与今日数字化时代的弊病何其相似。

  当代学者对于技术革新与学术变异之关系亦不乏思考,涌现出一批诸如《纸简替代与汉魏晋初文学新变》[5]、《纸张的广泛应用与汉魏经学的兴衰》[6]、《纸的发明与后汉的学风》[7]、《宋代刻书产业与文学》[8]、《印刷传媒与宋诗特色》[9]等优秀成果。其共同特点是从技术创新角度考察文学(经学)的变异,对于探讨现代信息技术与学术之关系具有相当的借鉴作用。有些学者已经充分认识到信息技术对当代学术的影响,主要表现在学术话语权的分解以及网络文化对纸质文化的冲击等方面:“在纸质文化时代,文化话语权还主要掌握在少数所谓文化精英手中。有的时候,他们就像救世主似的,发蒙解惑,以炫博雅;另外一些时候,又把自己想象成帝王师,吐属不凡,指点江山。而今随着网络的普及,这种文化特权被迅速瓦解,大众也可以通过网络分享部分话语权力。”“一个基本事实是,以信息技术为核心的文化转型已经势不可挡。如何抓住这样一个历史契机,迅速适应日益变化的形式,这是摆在每一位文学工作者面前的重要任务。当前,中国古籍电子化的时代即将到来,为我们的研究提供了前所未有的便利条件。虽然这项工作还仅仅处于起步阶段,却已显示出无比广阔的学术空间。”[10]显然,这些论断有助于认识古籍数字化与学术之间的关系,为论析数字化与学术异化的问题提供了有益的思路。

  当前对于学术异化的认识多着眼于评价体系,批判对象直指“职称体”、“项目体”、“学报体”等异化现象,以及由此产生的学术腐败等伦理缺陷。而较少从技术层面予以反思。学术的异化,固然与世俗功利密切相关,但另一个重要因素——技术——也不容忽视。以下从技术遮蔽、数字鸿沟、技术伪装等方面论述古籍数字化与学术异化之间的关联性,并由此指陈去异化之对策。

二、技术遮蔽

  学界对数字化古籍利用的最大弊病,就是过于依赖数字化成果。一切学术问题都试图通过检索来完成,由此导致伪学术产生。究其成因,在学术伪命题之外,数字化技术遮蔽也是重要因素。

  知识被遮蔽的第一种情况,是知识因未被选择而遮蔽,技术在对一部分知识进行筛选和固化时,使另一部分知识淡化、边缘化,或者说被遮蔽。在一部分知识被选择、集成之时,另一部分知识即被舍弃,乃至被遗忘。[11]古籍数字化要从海量的古籍中选择处理对象,在这个过程中,一部分古籍被数字化,另一部分则因未被选择而被舍弃。其结果就是那些未被收入数据库因而被遗忘的文献,永远是无法被检索,影响数据收集的完整,进而影响研究的结论。本文以“e考据”为例,论证技术遮蔽对文献考据可信度的影响。

  最早提出“e考据”概念的是台湾新竹清华大学黄一农教授。他认为“随着出版业的蓬勃以及图书馆的现代化,再加上国际网路和电子资料库的普及,新一代的史学工作者常拥有博闻强记的前辈学者们梦寐以求的环境。我们有机会在很短时间内就掌握前人未曾寓目的材料,并填补探索历史细节时的许多隙缝,或透过逻辑推理的布局,迅速论断先前待考的疑惑或者矛盾。事实上,一个有机会孕育‘e-考据学派’的时代或已出现。”[12]基于“e考据”理念,氏著《两头蛇》一书充分利用网络文献和数字化古籍来考察明末清初的第一代天主教徒,所利用资料多达1099种。即便如此,还是难免出现将瞿汝夔的母亲支氏误认为谭氏的错误。其成因正如学者所指出的,并非检索本身出了问题,而是他检索的数千种文献中没有关键性的瞿氏家谱。[13]这个案例或可作技术遮蔽影响学术论断的著例。

  技术遮蔽的第二种情况,是关键词检索导致的检索结果不全面,检准率较低。检索被广泛利用,因它“满足的是在一个海量信息集合中快速定位信息的需求,解决了Web信息资源在广度上迅速增长而人们需要定位局部信息需求间的矛盾。”[14]关键词检索一定程度上解决了在海量信息中定位局部信息的问题,但是关键词检索主要还是词形匹配而非词义匹配,因此产生三方面的不足:一是限于对检索问题的了解程度,用户不能准确地描述自己的信息需求;二是不能恰当地把握检索的深度,需要反复尝试不同的检索词以控制检索的规模;三是用自然语言检索受控语言标引的文献,造成漏检和错检。这些不足,在实际运用过程中多能切实体会。前面两种现象,主要关涉检索者本身的学养。错检和漏检则更为普遍。以电子版《四库全书》为例:比如要检索“苏轼”的资料,只能检索到含有“苏轼”二字的资料,不能检索到不含“苏轼”二字,却含有“东坡”“子瞻”“大苏”“苏徐州”“苏黄”等与苏轼有关的资料。同样,检索有关“杜甫”的资料,也只能检索到含有“杜甫”二字的资料,不能检索到含有“杜子美”“杜少陵”“杜工部”“杜二”“诗圣”等与杜甫相关的资料。此外,还出现错检。比如检索“太白”一词,检索结果并非都与李白有关,还会搜索到太白山和太白星等信息。[15]

  上述“e考据”可信度降低、关键词检索出现错检和漏检等现象,均与数字化技术遮蔽有关。此为技术影响学术的第一个层面。

三、数字鸿沟

  数字鸿沟,或称数位落差,是指社会上不同性别、种族、经济、居住环境、阶级背景的人,接近使用数位产品(如电脑或网络)的机会与能力上的差异。简约来说,观察数位落差可以从接近使用电脑及网络的机会、以及对于电脑及网络的使用能力这两大方面来看。一方面,资讯科技使大众的生活质素得到改善,并把繁琐的日常工作简化。另一方面,对于未能享用同等资讯科技的人,却要继续沿用旧有的方式去工作,不能透过资讯科技去获取资讯或把资讯增值。这当中的差异,有可能会使社会的两极化更趋激烈,从而令社会财富更为不平均。古籍数字化的主要介质是计算机和网络,数字化古籍亦属于数字产品。对古籍数字化成果利用的落差,也是网络时代数字鸿沟的主要内容。

  就数字化古籍而言,数字鸿沟主要表现在两个方面,一是发达地区与欠发达地区之间的不平衡,一是国外与中国本土之间的不平衡。从使用数字产品的载体来看,东部和沿海发达地区在电脑及网络使用上,都要高于西部欠发达地区。在西部山区,许多学校至今在教学过程中还较少使用电脑。在利用各种数字产品方面,东部同样要高于西部。由此催生一大批数字穷人,他们与数字富人相对比,被称之为新一代文盲、电脑盲、科盲。他们被迫或主动放弃信息权力,将成为十分不幸的信息穷人。其发展趋势愈演愈烈,结果是富者愈富而穷者愈穷。地处西部的多数高校和科研机构,无力购买数字化古籍等产品,在科研和教学方面远远落后于发达地区。数字鸿沟导致的区域学术落差,可视为信息时代学术异化之一端。此仅就国内而言。

  从国际方面看,同样出现数字鸿沟现象。以北京爱如生数字化公司产品销售为例。作为目前国内最大的数字化公司,其产品涵盖多方面,主要特征是古籍依类集成。以下是该公司部分产品网络报价情况:中国基本古籍数据库,网络报价(单机版)100万元;近代报刊库(收书数量3000种),网络报价(单机版)42万元;网络报价(单机版)为60万元的数据库有9种,分别是中国方志库(初集)(收书2000种)、中国类书库(收书300种)、中国经典库(儒典)(收书2000种)、中国经典库(道藏)(收书2000种)、中国俗文库(初集)(收书2000种)、敦煌文献库(初集)(收书数量不详)、中国谱牒库(初集)(收书2000种)、中国丛书库(初集)(收书4000种)、历代别集库(明前编)(收书1800种)。[16]此处不惮其烦地转述数字化产品的网络报价,无非是想说明:一、这些数据库对从事科研的学者来说非常重要,因其资料较为齐全,影响学术成果的前瞻性和权威性;二、由于价格因素,这些数字产品不仅个人无力购买,甚至一般普通高校和科研机构也无能为力;三、大型数据库的购买者要么是国家级的科研机构,比如中国国家图书馆和中国国家博物馆,要么是国外的一些科研机构,如美国国会图书馆和德国柏林大学图书馆等。其结果就是,一方面,发达地区和政治中心区域越来越占据优势,拉大与落后地区的数字产品利用差距,另一方面,很可能若干年后国外科研机构在古籍数字化产品的占有量方面超出中国,因而在对中国古代文化和文明的研究成果上反超中国。这看似危言耸听的推测,正是数字化带来的学术异化的另一种表征。其原因,一如美国学者杰弗里·A.赖德伯格-科克斯不无忧虑地指出的:“具有讽刺意味的是,这种具有潜力、从根本上改变学者完成他们工作的工具,由主要追求商业利益,而不是出于研究和教学需要的环境驱动,正在茁壮地生根发展。”[17]这种现象,确实需要警惕和反思。

四、技术伪装学问

  所谓技术伪装学问,指的是在信息时代利用数字产品为学术服务的负面效应。正面效应当然是正确利用现代信息技术为学术服务。但是在实际使用过程中总会产生与之相反的效果。以古典文学研究为例:比如古籍校点,不去调查版本情况,直接下载《四库全书》或《四部丛刊》等电子文献,简单处理后即刊发印行。作家研究资料汇编,仅凭关键词检索以致造成断章取义。诗文集的笺注,直接复制《汉语大词典》的字词解释,而对诗歌本身所关涉的人事时地及诗歌意蕴鲜有揭示。在考证文章中,本来两三个代表性的例子足以说明问题,却偏要列出几十个例子以显博学。这些都是技术伪装学问的表现。究其成因,与以下两方面原因密不可分。

  其一,长期使用电脑和网络从事研究工作,习惯与数字化产品打交道,使得研究者过于依赖信息工具,离开这些工具就显得非常弱智,甚至无法工作。这是因为“过于依赖检索系统会逐渐滋长我们的惰性。科学本身就是一把双刃剑,人体感官在享受数字化优裕的同时也逐渐退化,数字检索在方便之余也逐渐吞噬我们的思维。”[18]与传统治学相比较,数字化时代学者的思维方式和研究方法都发生很大的变化。传统时代,学术问题大都从阅读中得来,解决问题还要回到阅读中去。但数字化时代则往往主题先行,即先有题目再去论证。这种本末倒置的做法导致的不良后果是伪命题及伪学术的层出不穷。其实,电子化时代更需要学者的识见和智慧,卖弄学问已经不足以振聋发聩。

  其二,研究者被海量信息淹没,进退无据,无所适从。海量信息的积极方面是为涸泽而渔式的研究提供基本条件,但另一方面信息爆炸又阻碍了学术前进,原因是“没有控制的和没有组织的信息不再是一种资源。它倒反而成为信息工作者的敌人”。[19]特别是无价值的垃圾信息的泛滥,导致人们陷入信息过度、信息麻痹的困境。同时,很多有价值的信息也可能被忽略。人们特别容易“丧失自己的自主性,丧失反思和批判的能力,成为信息爆炸的奴隶,被信息洪流所异化。”[20]当研究者在信息的汪洋大海中难以适从,当学术被技术主宰,技术伪装学问就在所难免,大量论文的思维定势和材料堆砌、著作的个性缺失和思想贫乏以及相关种种现象充斥学界也就不足为奇了。

五、去异化之对策

  以上分析了古籍数字化或可导致的学术异化诸种情形。如何避免或去除异化,本文以为可从以下三方面思考。

  其一,充分利用知识组织系统。所谓知识组织系统,是一种机器可理解的系统,即可以被计算机系统所识别、读取和理解的系统。在古籍数字化过程中利用知识组织系统,核心工作是要做到关键词检索转换为概念检索。如上所述,关键词查找的最大特点是词形匹配而非词义匹配。概念检索的最大特点是在检索过程中,与检索词同义的各种概念也同时被检索,因此检索结果更完整更全面。与关键词检索相较,概念检索解决了几个难题。一是检索词的选择。比如要在《四库全书》中检索与文学传播相关的资料,但古人并不常用“传播”这个概念,因而就无法查找《四库全书》中蕴藏的大量的传播资料。概念检索则可以解决这个问题。因为“传播”不再作为一个词语,而是作为一个同义词的集合构成的一个概念被检索,因而与“传播”相关的所有信息都能检索出来。二是提高检索准确率。关键词查找在用户的检索词和文献的关键词间进行词形匹配,即以词的拼写一致为依据。自然语言中一义多词(同义词)使检全率难以保证,一词多义(多义词)导致检索出无关的文献,使检准率降低。概念检索则可以避免这种情况发生,最大程度提高检准率。三是检索结果按语义排序。关键词检索结果主要是按照文献的自然顺序来排序,很难进行语义排序。概念检索则可以从检索词的语义相关度上对大量的结果进行分级、排序和组织,从而便于检索者的使用。这方面的研发已有所进展,比如北京大学李铎教授的《全宋诗》“本体库”[21]、台湾元智大学罗凤珠先生的唐诗宋词语义检索系统[22],都是较有价值的例子。

  其二,努力缩小数字产品利用差距。如何缩小数字鸿沟,可以从古籍数字化研发主体进行思考。数字化研发主体是多元性的,主要包括图书馆、学术科研机构、个人、出版社、数字公司、联合体。[23]前三者的共同特征是公益性质,其数字化成果大都免费(或部分收费)。出版社和数字公司则是纯商业性质,主要目的是盈利。联合体是指图书馆、科研学术机构、个人、出版社、数字公司等之间的跨行业的协作体。联合体将公益性与商业性相结合,整合了先进的数字化技术和人才,集成了相关古籍数字化主体的优势,产品主要是古籍全文数据库,比如《中国基本古籍数据库》、《四库全书》电子版等,规模较大,质量也属上乘,因此,应该是古籍数字化开发主体的一种发展方向。

  其三,正确利用古籍数字化成果。需从以下诸方面着手。第一,观念上确立工具本位意识。在学术研究过程中,电脑和人工智能永远只能是一种辅助工具,而不能替代学术本身。计算机虽然在一定程度上能够模拟人的思考,甚至在某些方面要比人强得多,但是它不具备人类最本质的创造性思维。举例来说,比如校勘工作,在辨别不同版本文字异同方面,可能计算机要比人完成得更好。但一般的校勘,在比较文字异同之外,判断是非更为重要。这种判断是非的能力决不是设计某种电脑语言程序所具备的,因为这需要深厚的学术涵养和学术积累。第二,变被动应用为主动应用。长期以来,由于使用者较少参与古籍数字化过程,对数字化各种相关技术不了解,即便有所参与但亦知之不深,因而在使用过程中处于被动地位,只能“傻瓜式”地按照设计者的规定来使用。提高利用主体的信息素养,让更多人文和社科领域的专家学者参与到古籍数字化过程当中,建构数字人文科学,变被动为主动,是正确利用数字化成果的一条光明路径。第三,为我所用,创建具有个性化的独具特色的数据库。笔者曾多次论及这个问题,以古代类书的编纂等为例来说明个性化数据库创建的方法及其重要性。[24]此外,还可以把数据库与计量分析方法结合起来,共同服务于学术研究。[25]总而言之,只有积极正确利用数字化成果,才能更好地迎接信息时代的新挑战,推动学术健康发展。

注释:

[1]陈力《中国古籍数字化的现状与展望》,《古籍整理出版情况简报》2004年第4期。

[2]耿元丽《三十年来中国古籍数字化研究综述(1979-2009)》,见http://www.guoxue.com/wk/000652.htm

[3]苏轼《李氏山房藏书记》,《苏轼文集》卷十一,中华书局1986年版,第359页。

[4]叶梦得《石林燕语》卷八,中华书局1984年版,第116页。

[5]査屏球《纸简替代与汉魏晋初文学新变》,《中国社会科学》2005年第5期。

[6]刘跃进《纸张的广泛应用与汉魏经学的兴衰》,《学术论坛》2008年第9期。

[7](日)清水茂《纸的发明与后汉的学风》,见《清水茂汉学论集》,中华书局2003年版,第22页。

[8]朱迎平《宋代刻书产业与文学》,上海古籍出版社2008年版。

[9](台)张高评《印刷传媒与宋诗特色》,台北里仁书局2008年版。

[10]刘跃进《纸张的广泛应用与汉魏经学的兴衰》,《学术论坛》2008年第9期。

[11]吕乃基《技术遮蔽了什么?》,《哲学研究》2010年第7期。

[12]黄一农《两头蛇:明末清初的第一代天主教徒》(自序),上海古籍出版社2006年版。

[13]熊熊《e时代的两头蛇》,台湾《“中央研究院”近代史研究所集刊》第59期(2008年3月)。

[14]王军《数字图书馆的知识组织系统——从理论到实践》,北京大学出版社2009年版,第5页。

[15]王兆鹏《三大功能:对未来数字化古籍的期待》,《中国社会科学院院报》2007年9月18日版。

[16]参考爱如生公司官方网站:http://www.er07.com

[17](美)杰弗里·A.赖德伯格-科克斯《挑战数字图书馆和数字人文科学》,朱常红译,广西师范大学出版社2010年版,第76页。

[18]吴夏平《数据库与古代文学研究》,《光明日报》(理论版),2004年9月29日版。

[19]奈斯比特《大趋势——改变我们生活的十个新趋向》,孙道章等译,新华出版社1984年版,第32页。

[20]孙伟平《论信息时代人的新异化》,《哲学研究》2010年第7期。

[21]李铎《从检索到分析》,《文学遗产》2009年第1期。

[22]罗凤珠《引信息的“术”入文学的“心”》,《文学遗产》2009年第1期。

[23]王立清《关于多元古籍数字化主体的探讨》,《图书馆学研究》2011年第7期。

[24]吴夏平《古籍数字化与文献利用》,《中国社会科学院院报》2007年9月18日版。

[25]尚永亮《数据库、计量分析与古代文学研究的现代化进程》,《文学评论》2007年第6期。

(作者单位:贵州师范大学文学院贵阳550001;北京大学中文系北京100871)

  

Comments are closed.