古籍数字资料的搜集与应用

王文涛

  司马迁之后,搜集和考辨史料,作为一种治史的基础,为绝大多数史家所继承,并逐渐形成考据之学。随着信息技术的发展,古籍数字化热潮方兴未艾,从零星制作到规模开发;从初期的图形扫描到字符数码化;从目录、文摘的制作到全文录入;从制作单机版 CD发展为网络版的数据库。随着OCR扫描技术的成熟、UNICODE编码的统一、全文检索软件的完善以及Web技术的普及,以网络为主要载体,古籍数字化与当代先进的信息技术的结合日益紧密。

  中华民族创造了无比丰富的历史文化遗产,古代典籍是中国历史文化遗产最为重要的物质载体,是世界文化的重要组成部分。胡适先生认为传统的经史研究存在范围太狭窄,注重功力而忽略理解,缺乏参考比较的材料等积弊,故以清代三百年间第一流人才的心思精力,都用在经学的范围内,所获成果实不相称,关键是缺少对古籍的系统整理,又不注重学术成果的积累,两千四百多卷的《清经解》,大多是一堆流水烂账,没有条理,缺乏系统。针对清儒治学方法的缺陷,学界编纂了多种引得、通检、索引、汇编等工具书,部分完成了索引式整理的目标,为我们查阅古籍提供了诸多便利。但是,中国古籍汗牛充栋,经过系统整理的毕竟只是少数,方便的检索工具也还嫌太少。即使是已有索引的古籍,用来解决具体问题时仍会感到种种不便。

  史料是历史研究的基础。每一个从事史学工作的人都要搜集和积累史料,过去最常用的方式就是抄录卡片并加以分类,它基本上是按个人的需要辑录并供个人使用的。人文学术研究是个性化很强的事业,一个人的精力和时间是有限的,将有限的时间、精力花费在浩繁、琐碎的翻检工作之中,就不能大幅度地提高学习和研究效率,学术进步自然也就困难了。因此,我们需要应用便捷、高效、准确的查询工具为人文学术研究服务。

  古籍数字资料的搜集与整理是一个完整的过程,它包括数字资料搜集范围的确定,数字资料的筛选与鉴定。搜集过程中的各个环节并不一定严格地按上述先后次序,可以同时进行,例如一边搜集,一边鉴别等等,这要依具体情况而定。数字资料搜集完成以后,要对这些数字资料进行一番认真的鉴别。因为很难保证我们在很大的范围中搜集到的所有数字资料都是可靠的,去伪存真,去粗取精,以保证数字资料的可靠性。关于数字资料鉴别的方法很多,如对数字资料所存书籍年代的考证,作者和版本的考证,文字和方法方面的鉴定等。这是每一位史学工作者的基本功,在这里我们不过多地去涉及它。

  史学工作者计算机的主要用途之一,就是储存数字资料和检索数字资料,数字卡片已经取代了传统的卡片,个人数字图书馆正在迅速丰富个人的藏书。计算机作为现代科学技术发展的结晶,为存贮、检索、分析和处理大量史实提供了重要的技术保证。这就需要历史学家与计算机专家密切配合,相互学习,取长补短,共同协作,把史学研究推向深入。

  就现阶段中国大陆的古籍数字资料应用来说,有喜有忧。一方面,信息技术的迅速发展,为古籍数字化提供了充分的技术条件。互联网提高了电子文献的检索效率,扩大了服务范围,便捷的信息传递节省了远程通信费用。新一代高性能计算机的海量存储和惊人的秒级运算能力,使我们再也不必为存储空间和运行时间的矛盾而苦恼。通用UNICODE(统一字符编码标准,采用双字节对字符进行编码)码包含约6万多个汉字,为汉字信息处理的国际化和标准化开辟了道路。非键盘输入技术使文献载体转换方式发生了一场革命,例如自动识别输入技术(ODR)使海量信息输入的工作量大大降低,清华紫光公司所研制的非特定人手写识别软件仅用三个月时间就将一部《文渊阁本四库全书》输入计算机内,为同类工作积累了宝贵的技术财富。

  另一方面,现有的网络古籍数字资料分布极不平衡,绝大部分的网络古籍数字资料库集中在海外,大陆学者在使用上存在诸多不便:文字编码不统一,会员资格受到限制,服务器连接也不够通畅。就目前掌握的情况看,尽管大陆的软件公司推出了各种版本的廿五史,还有四库全书、中国基本古籍库等煌煌巨制的检索系统,但真正投入网络运营的只有国学网等寥寥数家。究其原因,除了服务器数据库运营技术复杂,费用相对昂贵外,网络市场不够健全是主要因素,许多商家宁肯用上千以至数万的价格卖出光盘,以求尽快收回成本。而大陆无论是学者个人,还是文史研究机构,经费相对拮据,没有能力支付软件费用,因而造成恶性循环。从长远看,借鉴海外网络运营经验,采用部分适当收费,部分免费开放的会员制运营,可能是一个比较有效的解决途径。

  古籍数字化需要具备怎样的功能?其数据应当怎样处理,使用何种技术才能保证它具备我们需要的功能呢?这些都是摆在我们面前的重要问题。

  这里,我们所谈的数字化文献,不是为大众提供普及读本,而是为学术文化的繁荣奠定基础,这应是我们制作和使用数字化文献的共识。数字化文献的功能不仅在于一般的信息查询,更重要的是古籍文献中的知识发现。它应符合各种国际通用标准,具有开放性,可以在网络上传输,实现信息资源共享。古籍数字化的过程,基本上可以视为文献全文数据库的生成过程。一篇古籍文献输入计算机,就形成了无标引的全文数据库,即半结构化的数据库。目前,以中国古籍为内容的电子读物多为此类产品,但这远不能发挥计算机的技术优势,也难以达到研究者的要求,其最大的缺陷就在于它不能像结构化数据库一样经由排序、筛选、分类和统计之类的管理过程产生再生资源,更谈不上知识发现。因此,对古籍中的数据进行充分的分析和处理,制成结构化数据库,与半结构化数据库相结合,才是较为完美的方案。数字化古籍适合实现多途径排检功能,在确保信息查询的查准率和查询率的前提下,提供了实现海量信息中知识发现的可能。

  古籍数字资料检索结果的阅读和输出,也是关系到使用效率的一个非常重要的问题。例如,《四库全书》的检索结果必须通过阅读原文才能知晓具体内容,不能集中显示,给用户使用带来了一些麻烦。“孔子”的检索结果高达23757卷、111641个匹配。有人做过统计,假定每个匹配的阅读时间平均为1分钟(加上复制相关资料、标点,实际一条资料的处理时间远远超过1分钟),每天八小时不间断地阅读,则“孔子”需要花233天才能阅读完毕。如果是通过网络阅读,耗时将更多。

  有的检索软件提供了将检索结果一次性全部输出的功能,例如陕西师大的汉籍全文检索系统,全部检索结果和文献出处可以一次性输出为一个文本文件。检索内容的输出以关键词所在段落为单位,因而有不少无用的文字信息需要删除。对检索获得的文字内容的初步整理,我们可以利用EmEditor等文本工具中对检索关键词的高量显示功能,突出显示关键词,无用的文字可以快速删除。利用第三方软件对检索结果进行整理,与《四库全书》在原文中复制一次、然后再粘贴一次相比,速度快了很多。

  经过初步整理以后的数字资料大体上可以分为两类:一是数据性资料,二是需要进行逻辑分类的文字。对数据性资料进行分析,是史学研究的重要内容。一般来说,这些历史数据都是离散的,对它们的分析应依据统计学的原则来处理。可以利用数据库软件来做统计分析,内容一般包括:平均数、近似值、相关分析、回归分析、时间序列、加权平均数和指数、分布规律的研究,等等。根据不同的情况,运用不同的统计方法就可以揭示出数据集合的整体特征,为我们认识这些数据的实质提供可靠的科学依据。

  在古代典籍中,数据性资料只是少数,大量的是文字性的数字资料,这些文字性数字资料按照什么标准分类?用何种方式进行更进一步的整理?目前,尚没有方便适用的软件。数字资料的整理应根据研究需要而决定,整理的根本目的在于使用、检索、研究的方便,省时省力。整理的方式有以下几种:去粗取精,按性质归类,按时间顺序排比,按研究问题分组,等等。这里面有大量的工作可以利用计算机来完成,对软件的要求是能够方便地对数字资料进行分类、归纳、排比、筛选,方便进行逻辑分析。

  不可否认,网络中的浮躁和功利化倾向对文史研究质朴、谨严的学风造成了一定冲击。个别学者以检索代替研究,不核原文,不审背景,错谬频出,粗制滥造。但这不过是应用古籍数字资料的歧途,误入歧途者应尽快回归正道。古籍数字化给文史研究提供了一个丰富的学术宝藏,方便快捷的检索功能,大大缩短了搜集资料的时间。我们要利用好这一宝藏,把节省的时间用于资料的分类、归纳、排比、筛选、考订,这是在信息时代出现的新的研究方式,值得我们总结和提高的东西还很多。当然,除了掌握先进的电脑网络知识,还必须具备扎实的学术功底,只有博闻强记,勤于思考,关于思考,才能融会贯通,否则再先进的检索系统也只能是无的放矢。

作者单位】河北师范大学历史文化学院