对古籍数字化建设及其学术应用的若干思考

唐 磊

  本文意在分享笔者在实际项目和科研过程中积累的一些有关国内古籍数字化建设与学术应用方面的宏观思考,讨论的范围不仅限于纸本文献向数字化形式转换这一过程,而且包含数字化古籍及相应技术手段影响学术知识生产的诸方面问题。这些思考谈不上系统,也许很不成熟,但借此机会提出,祈望得到方家指正。

一、整合古籍数字化资源的必要与可能

  在这一领域内,一些问题曾经反复讨论,但始终没有达成一致的见解或产省生一致的行动,就古籍数字化建设方面如数据规范问题、汉字标准问题、分类问题问题等等,大家在深切感受到不便的同时,又苦于无法寻找到切实的解决方案,这里有一个深层的矛盾即在于:表面看这是一项学术基础建设工程或信息化工程,而在操作层面,它往往被嵌入到制度环境或市场环节中。

  古籍数字化建设同所有信息化建设工程一样,需要充足的资金支持。一般情况,仅有建设热情的个人是难以负担的,所以充当主角的只能是组织性的科研机构或从事商业运营的开发商。由科研机构组织的古籍数字化建设,通常是以项目形式申报,在整个项目流程中,会受到来自所属组织及机构内部的的业务基础、募资能力、人员素质、管理效率乃至做事风格等多种因素的影响,很多时候,这些因素可以归结到行政组织的某些固有特性上,而不得不有所掣肘。因此,有时是在某些具体技术问题如工作平台的选取、工程进度的安排等上,都是一个多方博弈的结果。

  对于商业运作的公司而言,制度环境相对简单、技术力量也较学术单位强大,但他们在项目过程中,每一步都会有成本—收益的考量,这是商业公司的性质所决定的,当学术目标与商业利益发生冲突的时候,往往被放在次要位置。而古籍数字化的最终目标是为知识发展服务,因而,上述冲突总是很难避免。

  不过,这两只力量毕竟是古籍数字化建设的主力,虽然存在诸多不尽人意的问题,但数字化建设还是在发展,这是大势所趋。随着商业公司同学术机构合作的不断深化与扩大,也产生了一些经济效益和学术影响兼备的成果,如书同文公司开发的“四库全书”、“四部丛刊”,国学公司开发的“国学宝典”;学术机构、包括图书馆单位在较好地协调各种因素后,也贡献了许多精品,国家图书馆的敦煌文献、历代拓片数字化项目、北京大学中文系的全唐诗检索系统、全宋诗分析系统,即是其例。

  分散来看,我们在十数年间已经取得了相当的成绩,古籍数字资源从无到有,逐渐发展,就数据量而言,根据专家统计,我国古籍的数量超过20万种,已经数字化的古籍恐怕已近其半,大型类书或丛书如《四库全书》、《四部丛刊》、《古今图书集成》、《续修四库全书》、《大藏经》、《太平御览》都已数字化,一些珍本古籍包括《讳书集成》、《北京图书馆珍本年谱丛刊》等也被陆续数字化。

  但将古籍数字化做为一个通盘的工程项目来看,我们会发现有许多问题。首先,这些数字化资源格式并不统一,底层格式主要是文本和图片格式,但最终实现的格式却因建设方和生产工具的不同,呈现为txt、word、pdf、djvu、tiff、超星格式等,几乎涵盖所有现行的数字化工具;其次,检索平台和检索方式不统一,这些数字化资源大多需要纳入数据库,以便调用和检索,但各家所用数据库很不统一,access、mysql、sqlsever都有,有时使用同样的数据库平台,也会因为开发商的再次技术加工(以知识产权为目标)而形成人为的数据格式差异,从而给数据兼容及随后的跨库检索应用带来极大不便。另外,由于分散作业,各自为用,我们至今无法完整地了解哪些古籍已经被数字化,更无法知晓其数字化格式、利用程度,这一方面造成了数不清的重复建设,一方面又使这些有用的学术资源无法充分发挥其作用。

  应当认识到,我们今天从事的古籍数字化建设是一项惠泽当下,福被来者的千秋工程,尽管受到各博弈方的影响,但是这一工程的最终指向仍应定位于为知识发展服务,这一目标在建设知识型社会的今天,并非不可能同商业利益或制度环境达成一致。抱着这样的信心,笔者试提出以下三条建议,旨在现有条件下整合古籍数字化资源,并促进未来古籍数字化建设的公共平台。

  1.数据标准有待统一——基于元数据

  统一数据标准也许是一个谈虎色变的话题,但笔者这里提出统一,并不是主张把所有古籍文献内容统一为文本或图像格式,在现有条件下,把全部古籍电子格式文本化也不现实。笔者所谓的统一,是基于目前图书馆界和国外学术资料信息化的普遍经验,将资源对象的语义信息统一为元数据格式。

  元数据是用来描述数据的数据,故称“元数据”。以最为通用的DC元数据即“都柏林核心(DublinCore)元数据”为例,该元数据规范包含十五个最基本的元素及许多拓展元素,用以描述资源对象的语义信息,这十五个元素是:题名(Title)、创建者(Creator)、日期(Date)、主题(Subject)、出版者(Publisher)、类型(Type)、描述(Description)、其他责任者(Contributor)、格式(Format)、来源(Source)、权限(Rights)、标识符(Identifier)、语种(Language)、关联(Relation)、覆盖范围(Coverage)。[1]

  元数据可以扩展定义,就是说可以根据每一不同对象来定义一套不同的元数据,在保证开放性的同时,它又采用了规范的语法,使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。

  对古籍数字资源进行元数据标引,有诸多好处,首先它不必对现有资源进行格式改造,只是加以外部属性描述;其次,这将为全部古籍数字化资源的调查和格式转换或再度开发创造统一的数据环境(元数据元素集中定义了相关标识字段)。随着学术需求和开发建设的不断发展,可以想象,对现有数字古籍资源做元数据回溯标引也将势在必行(类似对图书馆馆藏的回溯标引一样)。

  2.资源分布需要普查

  五年前,中国社科院历史所陈爽先生曾在《文史知识》上发表《网络文史资料库概览》、《网络古籍全文检索系统简介》两篇文章,很受欢迎,各大学术网站都纷纷转载。五年中类似这样介绍古籍电子资源或网络资源的文章出现不少,许多有心的学者和热心的网友都做出了贡献,但遗憾的是,至今尚没有一份完整的古籍数字化资源普查报告,我们对科研单位、商业公司或个人总共做了多少工作,古籍数字化的覆盖面、分布情况无法获得一个全体的了解。

  这份工作的必要性和重要性无须赘言,它有如学术资料的索引一样,将对我们更好地利用和建设古籍数字化资源将产生巨大的作用。但是,这项工作也存在相当的困难,否则也不会持久无人问津。总结起来,困难主要在于:第一,开发单位分散、信息交流机制不健全、存在相互保守心态;第二,数字化资源流散情况复杂,许多早期建设的资源由于格式、利用率等问题,很容易被人遗忘而逐渐流失,而且网络资源的变更或自然流失更是一个普遍现象,据学者研究表明,因特网上的资源,在6个月,有12.2%的网站和20.5%的网页不能被访问到;1年后,分别上升到17.7%和31.8%。每周有0.5%的网页和网站消失,6个月和1年内网站发生变化的比率分别为97%和超过99%,对于网页,这组数据分别为98.3%和99.1%[2];第三,这项普查工作是一项基础工作,很难获得直接的经济效益或被纳入学术成果,因而很难吸引相关机构来从事,而其费时费力又显然不是个人能够完成。

  这些问题,无论国内外,都普遍存在,但是否无法客服呢?笔者认为不然。在技术支持上,我们完全有足够的支持,通过网页跟踪技术,可以相对克服网络资源自然耗散问题,通过简单的数据库技术和元数据定义,可以实现资源定位整合与持续更新,关键是组织保障和经费支持。而在这些方面,笔者以为恰可以发挥现有体制的某些优势来克服。例如,通过古籍整理委员会或大型科研机关或某个行业、学术联盟的力量,通盘规划,完全可以在较短时间内完成这一普查,并由调查单位维护更新,其中,建立长效机制的最好办法莫过于成立行业联盟。这就引出我的第三个建议。

  3.有必要成立业界联盟

  成立一个集聚科研单位、图书馆、专业开发公司及有相关经验的团体、个人的古籍数字化业界联盟,不仅有助于实施诸如古籍数字化建设普查这样的大型公益项目,同时可以起到引领行业发展、避免重复建设、统一业界规范等多种作用。

  众所周知,古籍数字化建设中,现有字符集不够用是一个瓶颈,北京大学中文系李铎先生就指出,无论是GBK还是方正超大字符集,其中毫无用处的字符太多,属于“拍脑袋拍出的垃圾字”。[3]为什么会出现这样的情况?主要在于设计方不知道实际需求,Gb2312的六千多个汉字可以满足一般文献的需要,但对于处理古代典籍到底需要哪些字符,没有实际的古籍数字化经验,很难有清晰的认识。业界联盟的建立,可以集中经验,共同制定一个相对稳定、合理的字符集标准。

  在文献信息处理过程中,每一步都将会涉及标准问题,如异体字的统一、信息的组织分类、叙词表(关键词)的确定等环节无不如此。数字化古籍本质上如李铎先生指出的是“公共信息”产品,则其目的是更多的人能够使用,此时我们就不能使用“谁做大做强谁就是标准”的简单市场思维,而应遵循共享共赢的公共理念。多年来,成立业界联盟的呼声始终不断,但一直未能实现,与大家缺乏这种公共理念是有关系的。

二、提高古籍信息化建设水平的两点理论准备

  古籍数字化建设发展到今天,需要对各方面资源进行整合,同时,比较国际文献信息化的发展水平,我们还需要提高,而且这种诉求不仅来自于与国外的比较,同时也是信息社会或知识型社会发展趋势对我们提出的必然要求。

  李铎先生曾提出,信息技术介入人文学术研究,不再停留在文献检索层面,而是进入了所谓“分析时代”。[4]这与信息技术发展的方向也是一致的,即今天的信息技术已经从简单的信息处理走向大规模的信息分析和深度信息挖掘。

  人类今天所拥有的、可以利用的信息量早已超过我们个体的生理能力实际可以“运算”的信息量,这是信息技术发展的重要后果之一,而同时,我们也越来越依赖信息技术来处理所有这些信息。人永远努力避免无知或者不能掌握对象的恐惧,这便使信息增长和信息处理方式不断相互竞逐。

  信息处理的目标是使信息有序化,尽量降低信噪比,并产生相应的知识结果。早期发展起来的是以搜索引擎和检索工具为主要代表的信息定位技术以及以关键词标引和手工分类为代表的信息分拣技术,近年来,又发展出各种信息聚合和以“元数据”为代表的“多属性标引”信息处理技术。所有这些追求信息增值的技术理念又都围绕着一个核心理念,即知识生长的固有逻辑与计算机信息处理逻辑的有效结合。

  因此,要提高现有古籍数字化建设水平,使之更好地服务于现代学术需求,我们需要有两点理论准备,一是对现有知识谱系及其生长特点的了解,二是对计算机信息处理逻辑的充分理解。

  现代知识体系和学术体系肇基于自古希腊时期便得以发展的以概念、关系、逻辑等为基本架构的一套谱系,在知识分类上以树型结构为通用构型,在深层逻辑上以数学关系为基础,在此基础上,产生了今天的计算机信息处理方式,因而二者间有着天然的相通。[5]这套知识逻辑同时也成为我们今天共享全部信息和知识成果并不断推动知识进步的话语基础。我们要理解和把握今天所谓信息社会或知识型社会的发展方向,必须承认这个话语基础。

  在这个话语基础上,我们要进一步领会这套框架体系的元素构成和结构,就像学习面向对象的程序语言必须彻底掌握对象—属性这一逻辑方式一样。

  目前,许多单位都在开发所谓“专家知识系统”或“多维信息系统”,以李铎先生提出的“多属性标记本文或多维度的数据仓库(Databank)”为例,其理念是:在存储时,人们已经根据可能性做了多维的标记处理,这些标记并不是针对某一具体方向的工作而做的,但计算机可以根据其属性归纳总结出简单而又直接的“指令”来,这“指令”是由计算机发出。[6]这一思路明显是从“元数据”的理念中来。

  随之而来的一个问题就是,理论上,一个对象可以有无限多的属性,哪些属性是可以充分描述该对象的核心属性必须得到确定,同时,不同对象的属性集会不同,这样,“元数据”是否准确和适用便成为影响上述系统成败的关键(在技术上处理元数据的弹性可变已不成障碍),而确定对象—属性的内容与关系(即元数据结构)则有赖于我们对认识对象和其在知识谱系中与其他对象的各种时空联系有较全面的把握,并以这样的认识基础来确定“元数据”内容,便可以利用计算机的处理逻辑来组合“元数据”各种属性,分析其属,实现知识挖掘。笔者不妨借用李铎、王毅文章中的例子来解释这种把握:“比如以某一作家的生平家世为焦点,可以迅速排列比较同时代和异时代的多个、甚至多组作家的类似背景资料,从而发现其中各种关联和变化的脉络。又比如从某个重要作家的家世和作品系统,可以方便地切入与此相关的众多时代事件的信息系统之中;如果需要,还可以进一步了解诸如官制、地理、经济、民俗、宗教、中外文化交流等等所有某一具体事件背后复杂弘阔的背景,了解它们在一个长时段中各自的沿革脉络、相互关系等等。”[7]

  “元数据”所代表的数据结构化已成为大规模信息处理的基础,围绕它而发展的各种技术也成为业界的重要发展趋势。最近,出现了一个名为的“freebase”的网站[8],它被誉为“2007年互联网上最激动人心的东西”,其目标是整理世界上所有的信息,与现有的wiki百科系统不同的是,它为每一个条目都设计了一套元数据,所有的信息内容都是结构化的。比如一个人物,就包含出生时间、死亡时间、性别、职业、国籍、配偶等等多条属性和相应属值,当数据量充分丰富后,我们可以很方便的查询诸如“2000年去世的中国女性作家”,同时提取她们的生平履历。这样的信息材料在和元数据理念和大规模信息处理技术发展以前,我们很难得到,也就不会把这些信息或知识成果纳入研究视域,但有了上述手段,我们就有了完全不同的基础。

  李、王二位学者就提出:“当‘多维度的数据库'系统等等手段有了比较充分的发展完善、人们可以方便地从非常广泛多元的视角(比如文化诸多领域的信息资源之间、古今信息之间、中外信息、人文科学与某些相关自然科学领域之间等等参照关联的路径已经充分发达)进入无数具体的研究界域时,则这个进入研究的过程本身,其蕴含的信息量、尤其是它蕴含信息的开放潜能、扩展潜能和升值潜能,就必定是极大地超越了进入该具体研究界域之前的知识准备和逻辑预设,于是研究过程的展开就再也不会仅仅是对已有学术假说的论证、对预设认识路径的修正和充实而已,而必然是研究过程与研究者之间的一种全新的互动关系”。笔者认为,这是一个激动人心但又确实具有前瞻性的预言,但要充分发展这些手段,对人类知识谱系的基本构架、逻辑方法的理论认识和思维准备必不可少。

  其次,我们需要理解计算机处理信息的逻辑特点,以寻求它与人类知识能力和思维方式的最大结合。在量子计算机和各种生物计算机得到突破性发展之前,目前我们通常使用的计算机其基本工作原理仍是以数学二进制为基础,以0-1式的电子脉冲为实现方式,这就决定了其基本逻辑仍是线性的,再高级的算法也只是提供了线性逻辑的多种复杂组合和并行方式。

  当我们充分利用电脑的我称之为“多维线性”的逻辑特点,便可以完成人脑不能胜任的许多任务,比如海量信息中某一信息元的搜索定位、相关信息的匹配与比较,这些功能在古典文献研究中可以帮助我们完成校对、辑轶、排重等许多基础文献工作,也可以帮助我们实现诗歌的韵式分析、词频统计等文学研究的外部计量工作。但是,电脑不具备人脑那些主动的跳跃性思维或非逻辑的情感联想功能,比如说起“黄河”便联系到“母亲”,提起“秋”就联系到生命、时间的流逝。所有电脑“具备”的“智能”,本质上都来自于对其语义逻辑各组成元素之间关系的人工定义,只有当人们在程序中定义了“秋”与“生命”相联系时,电脑才有可能分析一首悲秋主题的诗歌中的生命意蕴。一句话,现有的电脑信息处理技术可以按规定有逻辑的模拟人的某些思维过程,并且比人更加严格地遵守逻辑法则,但它不能主动的创造未经定义的或无法通过现有信息和逻辑推导出来的关系,也无法超出逻辑范围来判断对象或关系的合理性。

  电脑信息处理的逻辑在总的特点上表现为多维线性方式,在具体的程序实现上又涉及逻辑嵌套、逻辑遍历等具体环节。例如通过学习同样一套基础语义模本,来实现对其他文本的语词切分、自动标点,如果定义的学习方式不同,出现的结果就会不一样,错误的时候离真实结果偏差会很大。因此,理解计算机的逻辑还需要掌握基本的编程能力。

  提高古籍数字化建设的核心因素是人员素质的提高,而从事古籍数字化的专业人员首先应该具有以上两个理论和认识准备。

三、在学术研究中提高应用数字资源水平的两点要求

  提高建设水平对建设者提出高要求,同样在学术研究中拓展和深化对古籍数字化资源的利用也对研究者和学界提出相应的要求。结合信息时代背景和学术发展需要,笔者提出两条基本要求。

  1.信息时代的学术研究对个人信息能力的要求

  2000年1月美国公布了《高等教育信息素养(informationLiteracy)能力标准》,确定了一个具备信息素养的人应达到的目标是:“确定所需信息的范围;有效地获取所需的信息;鉴别信息及其来源;将检索出的信息融入自己的知识基础;有效地利用信息去完成一个具体任务;了解利用信息所涉及的经济、法律和社会问题,合理合法地检索、搜集和利用信息。”第五条说的是关于利用信息的安全与伦理问题,前面四条包含了个人收集、管理和运用信息的全部重要环节。这是信息时代对个人信息能力提出的基本要求。

  许多学者(尤其是年轻一代学者)已经开始使用电脑信息处理手段来辅助科研,但这些运用大多停留在简单的利用搜索引擎进行信息检索和论文查询上,而信息时代提供的信息环境和信息手段实际已使今天的学者有条件超越前人,这种超越体现在通过信息手段来不断扩大自己的知识基础,而不是仅仅将“检索出到的信息融入自己的知识基础”,还体现在学者不仅可以“完成一个具体任务”,而且可以完成前人无法完成的任务。

  对于前者,学者首先需要有“究通天人,吞吐万象”的学术自信和“八面受敌”的学习心态,然后需要通过科学的知识管理来积累各门学科的知识,并通过这种管理来创造打通学术壁垒的可能。

  关于“个人知识管理”概念,美国学者Frand和Hixon定义为:“它是一种概念框架,指个人组织和集中自己认为重要的信息,使其成为我们知识基础的一部分。它还提供某种将散乱的信息片段转化为可以系统性应用的东西的(个人)战略,并以此扩展我们的个人知识。”[9]今天,越来越多的程序开发人员、公司管理人员、金融分析人员使用个人知识管理软件来管理他们所接触的各种信息和知识,他们应用知识管理的目标是“在最快的时间内找到我所需要的信息”。对于人文学者来说,进行知识管理不仅能够实现上述目标,同时知识管理系统的树形组织方式和灵活多变的信息整合功能,常常在我们在管理知识的时候,给我们提供更广泛的知识联系和学术视域。比如,在组织知识时反复使用和调整的分类操作一方面加强我们对学科特点的把握,一方面又提示我们超越学科畛域的可能。

  个人知识管理理念,在许多资料管理和文档处理软件中已有一些体现,如Microsoft Office系列产品,笔者在此愿意推荐两种专门的个人只是管理软件:Mybase[10]和iNota[11],学者不妨下载尝试运用,将会获得不少便益。

  2.信息时代学术研究需要相应的思维方法和学术理论

  一般来说,工具是配合理论而发展的,就如统计学的发展推动了各种统计软件的产生,但技术发展速度同时也刺激了理论的更新速度,近二三十年来,数理统计方法和计算机处理技术的完美结合,也促使前着发生了重大的进步。而与此相比,人文研究特别是国内的古典学科研究在拥有越来越强大的电脑信息处理手段的同时,相应理论却十分落后,这也造成了应用基本停留在粗浅的信息检索层次上这一普遍情况。

  在一些较深层次的应用上,比如意象统计、字频统计、风格分析,学界尚没有提出一些有针对性性的算法,或者存在一些对应特定系统的算法,这些经验也没有经过交流而上升为一种通用的方法。要解决目前的理论缺陷,一渠道是学界借鉴在科技、商业领域的各种应用算法,合理移植到人文研究中。例如,过去很多搜索技术都采用了简单计算文字、词组出现频率的方法,却忽略了文字使用增加的速率,而康奈尔大学的科学家开发了一个算法,能够识别一篇文章中某些文字的“突发”增长,而这些“突发”增长的文字可以用来快速识别最新的趋势和热点问题,因此能够更有效地筛选重要信息。类似这样的算法创新往往被最先运用到商业领域,分析客户需求风尚和购买习惯,而很少被及时引入到人文研究领域。这也提醒我们跨学科交流过少、关注视域不广等不足。

  前面已经提到,信息时代的信息环境和各种信息手段为研究者提供了不断开拓研究界域、打破学科壁垒的条件,甚至带来“研究过程与研究者之间的全新互动关系”,但实现这些变化的潜在要求则是我们思维方式顺时的转变与开拓和学术方法的更新。这一点,有赖信息技术界、信息服务提供方(图书馆等)和学术研究界的共同合作与努力。

注释

[1]关于DC元数据的具体运用和相关信息,可以查看其官方网站http://dublincore.org/。

[2]见段宇锋《网络链接研究中的制约因素分析》一文。

[3]见李铎、王毅《数据分析时代与古典文学研究的开放性空间——兼就信息化工程与古典文学研究之间的互动问题答质疑者》一文,载《中国文化研究》2006年第2期。

[4]同上。

[5]这与中国传统学术思维和知识谱系有着明显分野。尽管在“究天人之际,通古今之变”这些对象和目的上中西方并无差别,但中国传统知识谱系和思维特点始终没有摆脱非理性和神秘主义倾向。很难想象通过这样的非理性思维能够发展出一套现实的计算机系统。

[6]见李铎、王毅《数据分析时代与古典文学研究的开放性空间——兼就信息化工程与古典文学研究之间的互动问题答质疑者》一文。

[7]同上引。

[8]读者可以通过http://www.freebase.com访问该网站。

[9]Pason Frand,Carol Hixon. Personal Knowledge Management:Who,What,Why,When,Where,How?[DB/OL].

http://www.anderson.ucla.edu/faculty/jason.frand/researcher/speeches/educom98pkm/ 1998.10.17。

[10]Mybase是一个可自定义格式及层次关系的通用资料管理软件,可用于管理各种各样的信息,如:各类文档、文件、资料、名片、事件、日记、项目、笔记、下载文件等等,其数据组织能力足够灵活,允许您自定义更多的适合具体情况的各种用途。官方网站:http://www2.wjjsoft.com/。

[11]iNota是一套个人知识管理编辑工具,可用拖曳或剪贴的方式取得文字或图形,以树状结构来分类及管理资料,包含详细的资料注解,可自动转成XML文件,作为网络资源之用,并且自动化的方式整理、归类,重点注记及内容加值的方法,建立个人的目录与个人知识管理系统,提高信息处理与知识吸收的效率。

官方网站:http://www.mypcera.com/

 

作者单位】中国社会科学院文献信息中心研究部