关于古籍数字化的一些思考

彭国忠

  随着电子技术的发展,古籍数字化已经成为必然之势,在当今时代,任何反对、阻止这种潮流的想法与做法,都是不足取的。确实,古籍数字化会使古籍的久远保存和广泛传播以发挥其自身价值,进一步落实、完善资源共享,使学者读到以前不易读到的书籍;会为研究者们提供便捷快速的检索服务,提供远比手工检索更为全面、可靠的需要资料,使资料的转化、引用、运用异常迅速,甚至还会提供一些新的灵感和构思。总之,古籍数字化带给古代文学研究界的实实在在的好处,是谁也抹煞不了的。

  但是,就目前的现状言,古籍数字化也存在一些问题,值得人们思考并努力解决。

一、信息的全部再现

  首先是信息量的全部再现问题。古籍数字化,第一个要回答的问题就是是否做到了信息量的全部再现。信息量的全部,不是说现存全部古籍的数字化,而是就一部书所包含的全部信息而言。

  一部书的全部信息,按照从外到内、从大到小的先后次序说,由这样几部分构成:

  (1)版本信息,包括版刻(稿本、抄本的撰写、誊录、抄写)时间,出版者(个人或机构),出版地,出版类型(重刻、翻刻、补版、增订等等),版次(原刻原印、重印),以及出版的一些附录项,如出资人、刻字者、校字者、版权声明、广告等。

  (2)序跋。序跋往往会交代一部书的撰写、出版情况,书作者的生平、家庭、经历、思想情况,书在作者当时或出版时的接受流传情况,因而存储了大量的有价值的信息。有的书籍有多篇序跋,一序再序,一跋再跋,这对古籍数字化的过程言,无疑增加工作量和繁难度,但对使用者、研究者而言,却是非常难得的信息。

  (3)题辞。有的书,在成书或付印前、后,会约请他人题辞,这些题辞,或文或诗词,形式不拘,而不论是直接评论作品、交代创作背景,还是述交情、谈感受,其价值都不容忽视。有些题辞还未被题辞者作品集收录,或题辞者根本就无作品集,可以补题辞者作品之遗佚。

  (4)凡例。凡例是一部书编写、撰定的标准规定,是纲领是宗旨,它设定了全书编、撰的原则、体例、取舍存汰。那些文学选本的凡例,更是编、撰者思想、情趣、倾向性的浓缩,反映了他们对某一文学现象的总体认识、基本评价,甚至直接表述了编作者的文学观。

  (5)目录和目录序论。不少古籍都有目录,它是全书内容的排列次序。但古籍的目录,往往与正文不相一致,存在着种种差异,甚至有目无文、有文无目。从现代出版标准看,这是不规范的,应该加以批判、杜绝的,但传统的魅力恰在于此,所谓因病成妍,颦心增媚:目录与正文的差异,可以提供有价值的异文,形成互注性的文本结构。有的书籍,在目录后还有目录序论、目录跋,其性质与凡例、与论非常接近,有的目录序论就是重要的理论文献,如清代常州词派理论家周济关于宋词家法与习学路径的观点,就以《宋四家目录序论》的形态出现的,本来就是选本《宋四家词选》的目录后之序论。

  (6)正文。包括卷次、题目及题注、正文内容及其异文。这是古籍的核心部分,也是一般数字化古籍所特别重视、关心的部分,是他们所理解、从事的古籍数字化的全部内涵。这几项中,往往被人忽略的题注、正文异文,有时价值反而比题目比正文更大。中唐时期刘禹锡《和乐天春词》之题,有两首作品,一首有题注,一首没有题注,没有题注的是七言绝句,有题注的是长短句,题注是:“依望江南曲拍为句。”这个简单的题注,已经成为重要的词学文献,它标志着文人此体意识的独立。遗憾的是,有的数字化古籍,对题注、异文关注很少,认为它们可有可无。

  以上6个方面,构成一部古籍的全部信息,当然,有的书籍6项指标兼具,有的书籍具备几项,甚至只有一项。但是,不管它有几项,在数字化的过程中,都应该如实反映出来,不能根据自己的理解,只数字化正文,将其它信息一概摒弃、屏蔽。一部书的信息,是多方面的,有多个价值指向,它会根据使用者、研究者的不同,体现出不同的价值。正文内容是被普遍关注的部分,但有的人关心其中的版本信息,有的人看重序跋,有的人需要题注,有的人重视历史事实和时间。所谓人弃我取、人轻我重,各取所需而已。如果认为只要是正文数字化了,就是全部数字化,必然导致大量有益信息的流失,这样的数字化,不如不数字化。正如清修《四库全书》,虽自有其价值,但修书过程中造成大量古籍的消亡、被改造,实际也是书籍之巨厄。

二、信息的真实再现

  如果说信息的能否全部再现,属于人的主观认识的问题,那么,信息的真实再现,则既有主观因素在内,也有客观因素在内;而相比信息的全部再现,真实再现似乎更重要。

  主观方面因素,是指人的思想认识能力、文字认识能力、传统文化素养、掌握现代电子技术的能力等。电子技术能力毋需多说。这里的思想认识能力,主要是充分认识到古籍数字化的文化意义、现实意义和未来意义。中国的古籍文献,由于时间(长)、物质(纸张、油墨、温湿度)、技术等原因,有的已经很难再原样保存下去,有的只能作为一种文化的载体存在而无法实现其供人阅读的文化价值。古籍数字化不是简单的数字化技术问题,而是关系到中华数千年文明典籍的转化、再生、存续,关系到民族文化记忆、思想的现代化表述。当今社会,大量的研究者正翘首期盼着现代化技术带来的尽可能多的典籍使用的便捷化、准确化、快速化。古籍数字化,应该尽量满足现代研究者的学术需要。而古籍数字化也是古籍适应未来社会发展的必要手段。做好古籍数字化,不是一个人几个人的事情,也不是一个小团体的事情,它关系到整个国家,整个民族。

  文字认识能力,是指认识繁体、难字、异体字的能力。繁体,难字冷僻字多,异体字多,是古籍不同于现代书籍的重要表现。一般扫描仪器连简体字的报刊书籍尚不能百分之百准确无误地识别,扫描古籍差错率必然大。一是技术跟不上,不能保证质量;一是古籍自身问题,刻本的繁体、难字、异体已经造成数字化的高难度,稿本、抄本中的异体字、行书体字、草书体字,对现代技术来说,更无异于“天书”,要想全部辨识,难上加难。这就对从事古籍数字化的人员提出高难要求,他们必须认识古籍中的各种字体,必须解决仪器识认不了的字,将它们真实地再现出来,让阅读的人可以阅读。如“夘央”或“夗央”,实际是“鸳鸯”的异体书写。一部书,数字化以后,存在这样那样的错字,或是以其它符号代替的字,或留空,或以图像代替的字,总感觉到阅读不顺畅,或阅读时感觉文本不真实。

  传统文化素养,指的是综合的国学功底。古籍的阅读和数字化,不是仅仅识字就可以了那么简单。古籍书写,有其特殊的“格”。这些“格”,有的较简单,如直行,不分段,开头不空格,避讳字阙笔等等,较容易掌握;有的较复杂,不容易掌握,如为表示对朝廷、帝后,以及书写者尊长的尊敬,行文中会在相应位置留空、转行、偏行、顶格、小字处理等,一不留神,就会出错。如清代中期李星驰淑仪《澹香阁诗抄》,其夫侄序云:“澹香阁者,先叔母旌表节孝李太宜人之居也。”原刻本在“先叔母”后留空,“旌表节孝李太宜人之居也”另起行,以示写序者对其叔母的尊敬。尝见有人将其点断为:“澹香阁者先叔母。”作一行;“旌表节孝李太宜人之居也。”另作一行。古籍中还有一些特殊的符号,不知道,不掌握,很难有效地数字化。如清人对南宋曾宏父所刻《凤墅法帖》进行释文时,基本保留原手写书信的一些特殊用字符号,像《凤墅残帖释文》卷五“清江三刘帖”,多次出现“将息二二”、“至极二二”、“苦事二二”、“至喜二二”、“可惜二二”、“保重二二”等,其中“二二”显然是重复时的省略符号,“将息二二”,即“将息将息”,“至极二二”即“至极至极”,如此类推。现代人对手写的一字省略符号较为熟悉,对古籍中的二字三字省略符号,恐怕就不大认识了。清代青浦词论家王昶《西崦山人词话》稿本卷二第一条“朱竹垞尊彝云”,在“尊”字右边加了一个方向朝下的逗点,“彝”字右边加了一个方向朝上的逗点,都很轻,不留心会忽略过去,即表示“尊彝”二字要倒为“彝尊”。这个乙字符号,也与现代人所掌握的不同。至于断句标点,也是基本功之一,是对数字化者综合素养的考验。

  古籍信息的真实再现,就是建立在正确理解原文基础上的文字转化。没有“正确理解”这个前提,只需要复印、拍照即可做到真实再现,但复印、拍照不是数字化,不能检索、复制;数字化而没有“正确理解”这个前提,绝对不可能达到真实再现这个目标。

三、古籍数字化后的新问题

  古籍数字化,必将为人们的阅读、研究提供非常多的好处,但同时,我们也不能不看到,古籍在数字化以后,也会滋生一些新的问题。这突出地表现在以下几个方面:

  第一,误引误用成为常事。数字化具备异常快捷的检索、统计功能,于是乎,字、语词、意象使用频率的统计,典事最早或原始出处的查找,都可以在瞬间完成。不再需要一本书一本书地翻检,不需要一个人一个人地请教,只需输入关键字词,轻点鼠标,几秒钟一切事情都搞定。殊不知,这样检索、统计的结果,是不可靠的,其中有许多虚假数字。电脑虽然号称人工智能,在社会科学领域,毕竟不如人脑聪慧。它只能找出字或字串,不能区别同字之异义,区别相同字串的不同涵义。笔者为做《唐代试律诗研究》,曾检索电子版《四库全书》中的“试律”一词,可以得到144条,但合乎考试的律体诗歌这一意思的,只有几条;检得“试律诗”2条,全部不合要求。只要上一字是“试”,下一字是“律”,就会被它当作“试律”看待,其错误类型五花八门,如:“凡明法,试律七条令三条”(《新唐书》卷44),“进士诸科,始试律义十道”、“第一第二场,试律”、“亦试律义”、“仍罢试律义”(《宋史》卷155),“试律学第一,除参军”(《辽史拾遗》卷16)、“试律官二员”、“会试下第再举,直赴御试。律科进士,又称为诸科”(《金史》卷51)、“试律赋一首,律诗一首”(《太平治迹统类》卷27),还有宋代王庭珪《泸溪文集脱藁》目录,上一行是“送刘世臣赴省试”,下一行是“律诗七言”,也被嫁接成“试律诗”。这些“试律”、“试律诗”,完全脱离上下文的语言环境,不问“试”何指,“律”何义,随意组合,牵强成词。如果自己在电脑检索的结果出来后,不细加辨析,便会得出错误的结论。技术无道德,不需要负责任;但人是社会生物,需要对自己的研究负全责。

  第二,青年人整体古籍阅读能力的下降乃至丧失。上世纪九十年代以来,在商品经济大潮的冲击下,在急功近利世风的影响下,越来越多的从事古代历史、文化史、文学史研究的人,急于成名,急于完成学业,不认真读书,只从他人的著作、文章中辗转稗贩一些古籍段落、字句,率尔操觚,轻易成文,本身的阅读力却不断下降。近年来的“国学热”、“读经热”,正是在青年人整体传统文化兴趣和功底都丧失殆尽形势下的危机应对策略,它是非常态的,不得已的。一旦古籍完成数字化,就有可能助长这种不读原典的坏风气。年轻一代的本科生、研究生,古代文化文学爱好者,发现可以非常轻易地得到师长辈们费尽九牛二虎之力才得到,或根本就得不到的研究资料,还会去孜孜矻矻地读经典,读正史,读诗词曲赋吗?数字化将造就一批学术懒人,这是可以预料也可以接受的;但是,以一代人甚至几代人古籍阅读能力、理解能力的下降乃知丧失为代价,换得数字化,那么,这个代价也太大了,相信是大多数人都不愿看到不愿接受的。于今之计,否定数字化,拒绝数字化,肯定是行不通的;加强思想道德教育,通过学校、老师(导师)给年轻人施加压力,估计收效也不会大。比较理想的措施,可能需要国家教育主管部门、文化主管部门,还有人事主管部门、学校、教师、家庭,多方合作协商,从人才培养、任用、考评等制度方面,制定出一整套长效机制,方能解决根本性的问题。

  第三,数字化的法律秩序。首先是版权、著作权混乱。传世古籍,除了今人的影印、点校、注释、翻译之外,是没有著作权的,不涉及版权问题。但数字化以后,这个问题就变得复杂了。数字化算不算古籍整理?有没有产生新的著作人、版权人?这个版权如何维护?人们在使用数字化古籍成果时,要不要加署资料出处?而新的著作人、版权人,又是否能够保证使用者所引用资料的正确无误?具体而言,图像版的古籍(数码拍照)有无版权?如果有,版权是归藏书单位,还是归图像制作者?数字化的古籍,有无版权?版权归谁?这些问题,就目前的数字化古籍市场看,显得十分混乱。国家尚未出台一部针对数字化古籍的法律法规,因而市场无准绳可依。其次,数字化进程混乱。现在是诸侯割据,各占一方。只要投入资金,都可以进行古籍数字化。而缺少统一部署,统一调度,有限的人力资源、资金资源,得不到有效的整合、协作,从而使古籍的数字化出现较为严重的重复施工、整体布局失衡的现象。一些较为热门的古籍,不断被人数字化,冷僻一点的,则无人问津。除了《四库全书》、《四部丛刊》等少数几部外,大量的大型丛书(当然,不少丛书的细目,存在交叉重合,数字化时,也需要协调,免得重复投入),成了被电子技术遗忘的角落,成了电光、激光普照不到的阴暗地方。为此,我们呼唤相关法律法规的出台,盼望数字化市场早日法律秩序化。

作者单位】华东师范大学中文系