三大功能:对未来数字化古籍的期待

王兆鹏

  中文古籍的数字化,近几年发展迅猛,种类之多,数量之大,功能之强,都出乎我们的意料。古籍的数字化,不仅可以给我们提供强大的检索功能,还可以帮助我们发现问题。数字化古籍,怎么能够发现问题呢?我举两个例子。

  一是《全宋词》中,有许多互见词,也就是一首词被收录在不同作者名下,由于史料的缺乏,有的难以判断这些互见词的真正作者。为慎重起见,我的老师唐圭璋先生在编《全宋词》时,根据相关文献,把这些互见的同一首词编列于不同作者的名下。唐先生生前,曾经耗费大量的精力,做过《宋词互见考》,能断是非的就作判断,不能断是非的就存疑。我原以为唐先生已经将这一工作穷尽了。前几年一次偶然的机会,却发现《全宋词》中还有些互见词,老师并未发现。那是我要统计《全宋词》中相互唱和的词作,请一个朋友帮我设计一个软件,将《全宋词》中用韵相同或相近的词作全部列出目录。他用了四个小时,在《全宋词》数据库里加写了一个程序,经计算机自动运算处理,最终用Excel帮我列出了我所需要的相关资料和数据。如果让我手工在计算机上查询2万多首词哪些是属于唱和次韵之作,恐怕没有一年半载的时间难以做到,他却只花了一个晚上的时间就帮我搞定了。这使我相信,古籍的数字化,只有我们想不到的,没有做不到的。我们利用古籍做研究的人,需要数字化古籍库提供什么功能,都应该可以解决。我在统计结果时,意外地发现,有许多用韵完全相同的词,有的属于同一首词,而见于不同作者名下,即属互见词。其中不少互见词,我的老师没能发现。这并不是我比老师高明,而是电脑可以穷尽式地处理资料数据,而手工和记忆,毕竟会有遗漏。不是这个数据库,我既不可能准确地统计出《全宋词》中唱和词的情况,也无法发现《全宋词》中还有一些互见词有待考定。这是数字化古籍帮我发现的第一个问题。

  第二个问题是,前年我做《全明词》和《全清词》研究。由于明清之际的词人,时代的划分不易处理,属明属清,都有道理。于是,有的词人,这两本书都予收录。为了弄清楚这两本书究竟收录了哪些共同的词人和词作,我让门下研究生做了一个数据库,将这两本书所收录的词人、词作和收录的来源文献,用Excel做了一个表格。结果意外地发现,同一位词人,两本书收录的作品数量、篇目并不一样,有的甚至相差二、三百篇。这主要是因为两本书依据的文献不一样。利用这个数据库,我写了一系列的《全明词》和《全清词》的研究论文,其中发现并指出了《全清词》应收而未收的词作有1600首之多。如果用人工比对,而不用数据库处理,花的时间多不说,也难以一一发现这些问题。

  由此,我想到,未来数字化古籍,应该具有哪些功能才是最理想的?我以为,最好应具备三大功能,以适应专业研究者的需求。

一、智能化的检索功能

  目前已经问世的大型数字化古籍,基本上都有全文检索功能,似乎不必再饶舌。但目前全文检索的功能相对单一,还不能满足专业研究者的多元需求。因为,这些全文检索,只能是关键词的检索,不论是单词检索,还是组合检索,检索一次,都只能检索到与输入的词语严格匹配的资料,而不能检索到不含输入的词汇而实际相关的资料。比如,在《四库全书》电子版中检索“苏轼”的资料,只能检索到包含有“苏轼”二字的资料,却不能检索到不含“苏轼”二字、却含有“东坡”、“子瞻”、“大苏”、“苏徐州”、“苏黄”等与苏轼有关的资料,因为《四库全书》电子版不能自动识别“东坡”、“子瞻”、“大苏”、“苏徐州”等就是苏轼。也就是说,数字化古籍目前只能固定检索海量数据,而不能智能化地检索和生成新的数据。因为不能智能化检索,所以,我们无法穷尽古籍文献里的资料。如果说,用关键词检索人物资料,通过组合检索或多次检索的方式还能比较全面地查到所需资料的话,那么,查找相关主题的资料,就更加困难了。比如说,我想查《四库全书》中有关文学传播的资料,但是古人并不常用“传播”这个概念,如果用“传播”作为关键词,就无法查到《四库全书》中蕴藏的大量的传播资料。

  要实现智能化的检索,数字化古籍必须能自动识别我们所需要的与关键词相关的资料。比如上面说过的,检索“苏轼”,数字化古籍能自动识别“东坡”、“子瞻、“大苏”、“苏徐州”也与苏轼有关。检索“李白”的资料,数字化古籍能自动识别“太白”、“谪仙”、“诗仙”等与李白相关的资料。检索杜甫的资料,数字化古籍能自动识别“杜子美”、“杜二”、“杜少陵”、“杜工部”、“诗圣”等与杜甫相关的资料。检索“传播”等主题资料,又能自动识别哪些资料与传播相关。

  今后数字化古籍,如果能由单一检索变为多元检索、由定向检索变为关联检索、由静态检索变为动态检索,那就更好了。简单地说,就是实现检索的智能化。我们在数字化古籍中,输入一个关键词后,不仅能检索到与关键词匹配的资料,也能检索到与关键词关联的资料,还可以动态地生成相关资料和数据。

  我想,在数字化古籍里,根据不同研究者的需要,附加不同的参数,应该是可以解决这个问题的。只是人们的需求有不同,数字化古籍不可能完全满足使用者千差万别的需要。可以考虑,让数字化古籍变成一个动态的开放式的数据库,而不是一个封闭的凝固的系统。让使用者根据自己的需要,增加相关条件后,就可以动态地智能化地检索。

二、自动化的统计功能

  定量分析,今后可能是古代文学研究中常用的一种手段和方法。定量分析,需要大量的统计数据。如果数字化古籍能实现这个功能,那就更为便利。比如,我想在《国学宝典》里统计历代评论李白和杜甫的数据,从一个角度比较说明,历史上是李白更受推崇还是杜甫更受尊敬?目前的《国学宝典》,我不知道能不能做到。因为,在《国学宝典》里,即使我们从不同的角度用不同的组合方式查到所有李白和杜甫的资料,但《国学宝典》不能自动识别哪些是评论资料,哪些是记载生平的历史资料,更无法识别资料中对李杜的评价是褒还是贬,是扬还是抑。所以无法自动统计和生成我们所需要的评论数据。

  再比如,我想统计唐诗在历代文献中入选和被称引或被评点的资料。这个数据,也比较复杂。原因是,有些诗歌,在题下署了作者的名字,有的没署。没署名怎么自动识别是哪位作者的?即使署了名,有的署名,有的署字,有的署别号,又怎样自动识别哪些名、字、号是同一位诗人?有的仅征引了诗中的一句或几句,又怎样自动识别这几句是哪位诗人的哪一首诗?体裁上,怎样自动识别是古体还是近体,是七律还是五律?

  我目前做的唐诗数据库,是将历代唐诗选本一一录入,设置一些项目,如诗题、作者、文献来源、体裁等等。然后再分类统计。有没有可能,利用现有的大型数字化古籍,加上一些识别的条件,让它自动识别和生成我所需要的数据呢?技术上也许是可能的。我的这个数据库,目前只含近百种古今唐诗选本,远远没有穷尽古今所有的唐诗选本,更没有包含类书和相关典籍诸如诗话、笔记、别集、小说中的唐诗资料。

  数字化古籍,统计字频比较容易,《国学》网上已公布了《国学宝典》中单字字频的数据。虽然词频统计相对复杂和困难,但已经获得了解决。如果能够根据研究者不同的需要,数字化古籍能自动统计各种数据,那该多么令人神往!

三、多元化的对比功能

  有比较才有鉴别,有比较才有发现。科学研究是从发现问题开始的。数字化古籍的对比功能,用于古籍整理和研究最有优势。数字化古籍可进行哪些项目的对比呢?

  1.版本对比

  在超大型数字化古籍库中,可以考虑同时收录同一古籍文献的多种版本。将不同版本的文本进行对比,以发现文字的异同,自动进行校勘。

  2.作者对比

  古籍文献中,常有同一作品归属不同作者的情况。将所有文献记载的作品分别进行对比,考察其作品归属的异同,以便考订作者的归属和作品的真伪。

  3.数量对比

  同一古籍,因版本不同,收录的作品有多寡。经过对比,可以鉴别哪些版本收录作品比较完善齐全,哪些版本有遗漏脱缺。这既可以将别集的不同版本进行对比,也可以将总集进行对比。

  同一类型的不同选本,入选的作者和作品都有差异。比如诗选和词选,可以对比它们入选作者、篇目、数量的差异,从中可以发现编选者不同的审美取向和选择宗旨,也可以研究每位诗人词人在不同时期的影响力和认同度的变化。

  4.类型对比

  将不同作者、不同文献记载的同一体裁类型的作品进行对比,以发现某一体裁、文体的形成、发展和演变。比如在词学研究中,可以将同一词调的全部作品进行对比,考察这一词调句式、用韵、平仄的异同及其变化。在诗学研究中,特别是唐诗的研究中,可以将唐代的近体诗进行对比,以考察近体诗的特点、定型过程及变化规律。

  不同的需要,有不同的对比。比如,要考证一则史料的来源,可以将所有文献记载的这则史实进行对比,以考察其原始出处和后续记载的变异。

  不同的目的,也有不同的对比。可以是相似性的对比或关联性的对比,也可以是差异性的对比。

  如果一个超大型数字化古籍库,能将同一类型的古籍或不同版本的古籍尽可能收录,就可能具有对比功能。

  以上仅仅是我个人的一点期待。谬误之处,敬请指教。

 

作者单位】武汉大学