古籍数字化应以技术为突破口——兼与程毅中先生商榷

  程毅中先生《古籍数字化须以古籍整理为基础》(刊于《光明日报》4月30日),以国学公司的电子产品《中国历代笔记》为例,对古籍数字化的基础进行了探讨,发表了看法,也对我们提出了批评。先生能够专门探讨我们的产品,我感到很高兴,也非常感谢。

  我与程先生相识已久。多年以来,先生一直对我们的古籍数字化给予大力支持和热情指导。古籍整理不能一蹴而就,我们的古籍数据库产品也很难一步到位。对于程先生文中所列的问题,我想在此逐一说明。

   关于版本问题。《中国历代笔记》数据库均有所本,在单机版的《国学宝典》中,不但有版本信息,还有书目解题。

   关于序跋问题。按我们的体例,原作者的序跋,一般予以保留;后人所写序跋,因其非本书的正文内容,原则上不予收录。

   关于书目和版本的选择问题。为满足学术需要,我们邀请了北京大学、清华大学、北京语言大学、首都师范大学、东北师范大学等高校的多位教授担纲分卷主编。然而,由于此项工程规模宏大,挂一漏万,在所难免。这也正是我们需要与学术界共同完成的。

   关于作者的名字问题。由于古籍中书名、人名盘根错节,情况复杂,古书作者署名混乱,编者未能详加考证。但凡遇学者或用户指出,我们都将及时更正。《葆光录》正文误成《稽神录》,是程序链接错误。程先生发现后告诉我们,亡羊补牢,还不算晚。此外,数据库的开放性也是我们产品的特点,多年来,我们的产品得益于广大用户良多,就在于学者们在使用过程中及时反馈意见,使我们能不断改进,以臻完善。

   关于“全书没有统一体例”的问题。程先生在第柒条头一句话就是“据U盘的凡例说”,至少表明产品是有凡例的。按《辞海》的解释,凡例是“说明著作内容和编纂体例的文字”。事实上,《中国历代笔记》“凡例”对收录范围、编目、版本、辑佚、文字、分段标点、检索功能、附录、卷标编码、人名索引等均有说明,共有15条之多。

   关于“辑集未注出处”的问题。在大型古籍数据库问世以前,辑佚工作是件难度很大的事;在有大型古籍数据库之后,辑佚工作难度大大减少,查找时间大大缩短,主要是内容甄别的排序。对辑文一般不注出处,是我们数据库的体例,因为查找这些易如反掌。

   关于充分吸收现代人的研究成果与校勘记的问题。对于纸质书的出版,国家有一整套统一的出版标准要求;而古籍数据库尚处于初创阶段,在国家尚未制定统一标准的情况下,我们只能自定标准,在摸索中前进。

  程先生举《朝野佥载》为例,认定我们是根据中华书局整理本录入并删除校勘记,此话不妥。《朝野佥载》主要有一卷、五卷、六卷本三个系统,《宝颜堂秘笈》及《四库全书》本均为六卷。民国石印本《宝颜堂秘笈》并不难得,《四库全书》全文及图像版数据库首都师范大学文学院购有一套,上海古籍、三秦出版社都出过整理本。我们使用的《宝颜堂秘笈》底本,本来就没有校勘记,又从何处删起?改正发现的错别字,是数字化流程中的一道工序,是保证古籍质量的重要措施,也是我们的基本权利和义务。

   关于数据库中的标点问题。《中国历代笔记》总字数逾一亿字,如果将这些内容排成10万字一册的书,足足有一千册之多。按图书出版质量标准(差错率低于万分之一,标点每处计0.1个差错),标点差错在10万以内尚属合格。程先生精心挑选的几处标点错误,我们已全部改正。一些学者在使用国学数据库时,发现错误,及时通报,并嘱速改,以免贻误后人。我对这些品行高尚的学者心存感激,这是对古籍数字化事业的巨大鞭策和鼓励。

  为了做好古籍数字化工作,我不仅踏踏实实地做,也一直想在理论上得到证明,集思广益。

  程先生提出的主要观点是“古籍数字化须以古籍整理为基础”,但以我们研发数字产品的实际经验而言,“古籍数字化应以技术为突破口”。古籍数字化的核心是信息技术,信息技术是一个强大的工具,是给现代社会带来巨大便利的创新工程,是让所有人都受益的工程。这是传统的古籍整理不能替代的,也是将来发展的方向。这就如同传世文献从手抄本向印刷本转变的过程一样,是不可阻挡的潮流。数据库建设是一个非常复杂的系统工程,不仅涉及计算机软件、硬件、数据库结构、数据关联、搜索引擎等,还涉及到版本学、目录学、文字学、文史工具书等。

  国学网从创办之初就坚持严格的技术要求,也坚持严格的学术要求。古籍数字化起步时间不长,已经显示出了它的巨大价值。它在发展的过程中存在问题,我们随时都在改正,而且连改正的方式也远比传统古籍整理的改进方式更为先进。我们还将投入更多的力量,继续拓展古籍数字化事业。目前已有千万学者受益于古籍数字化成果,程先生也当是其中一员,这是令我们引以为傲的事情。如果古籍数据库被个别出版社所垄断,那将导致古籍数字化产业中道崩殂,半途而废,这不仅会丧失我国在相关领域的国际领先地位,危及我国的文化安全,也将使我国的学术事业受损。

  与传统的古籍出版事业相比,古籍数字化才刚刚起步;与博大精深的中华传统文化相比,古籍数字化才迈出了万里长征的第一步。现在有许多出版机构已经参与到古籍数字化建设大军中来,我们愿与所有支持、关心国学事业的单位和个人合作,共同推进古籍数字化事业的发展,让中国文化在世界发扬光大。

本文已刊发于《光明日报》2013年5月28日第13版

(作者为国学网总裁、首都师范大学电子文献研究所所长)

程毅中先生赠联

附:程毅中先生文章(发表于《光明日报》2013年4月30日)

古籍数字化须以古籍整理为基础

程毅中

  古籍数字化是一个大有前途的文化产业。目前市场上已有不少古籍数字读物,但往往存在一些质量问题和知识产权问题。

  有人认为古籍整理只是加了一堆标点符号,算不得学术著作,也不存在知识产权问题,因而随意抄袭和转录,并制成营利性的商品,从而引起了一些争议和诉讼。

  数字化的古籍应该是经过认真整理的古籍,需要运用目录、版本、校勘和文字、音韵、历史文献等各方面知识进行点校,成为现有最好或较好的版本。否则,将会造成谬种流传,劣本取代善本。但目前流传的古籍数字书,有些却是未经整理和粗制滥造的版本。试以中国国学出版社2008年11月第一版的《中国历代笔记》U盘来说,收书很多,号称有1200多种,逾一亿字,信息量很大。真是“一盘在手,坐拥百城”,方便得很。然而,从古籍整理的规范来衡量,此U盘却缺点很多,遗憾不少。

  为了古籍数字书的改进和传播,本文以《中国历代笔记》U盘(以下简称U盘)为例,说明古籍整理的规范和价值。

   古籍的复制应该说明用的是什么版本。而U盘则一律不说根据什么版本录入的,这就丢失了文献的科学依据,使人不敢轻易引用。

   有些书原有的序跋都被删掉了,这也使读者无从了解版本源流的信息。

   书目和版本的选择没有必要的说明,随意性很强。例如,唐张鷟的《耳目记》就是一本伪书,实际上只是抄了《朝野佥载》的几条文字假托的书名。又如,明无名氏的《巫娥志》,实际上是李祯(昌祺)《剪灯馀话》里的一篇,原名《江庙泥神记》,这也是假造书名的伪书。又如宋人张君房的《丽情集》是一部佚书,U盘收了十二条残文,大概是根据宛委山堂本的“假《说郛》”辑录的。但《说郛》本引的只是只言片语,很难理解原意。其实,如果要收《丽情集》的话,至少《类说》卷二十九所收的24条佚文,就比《说郛》本还多出许多。再如所收佚名的《灯下闲谈》,只有一篇,即原书中的《神仙雪冤》。实际上原书是两卷二十篇,有《适园丛书》本和商务印书馆排印的《宋人小说》本,并不难见。明代卷所收李诩的《戒庵漫笔》,只有一卷,实即李诩《戒庵老人漫笔》的一个节选本。为什么不收通行的八卷本呢?杨万里的《诚斋挥麈录》《四库全书总目》提要已考定为王明清《挥麈录》的节本,实属伪书。U盘收了一些伪书、残本及单篇文章,而重要的书如《归田录》《梦溪笔谈》和《剪灯新话》等却没有收。

   对作者的名字不加核实。如汉魏晋南北朝卷的《五代新说》,题唐徐炫撰,大概又是沿袭重编本《说郛》之误,实应据《郡斋读书志》作唐张询古撰。又如宋徐铉的《稽神录》,U盘上题作“龙明子”撰(使用手册上还不误);而另一种《葆光录》题下也署名为“龙明子”,实则原书作者题“袭明子”,原名应作“陈纂”,见《直斋书录解题》。又如元人的《青楼集》一书,题黄雪蓑撰,原书邾经序中有“商颜黄公之裔孙曰雪蓑者”的话,前人早已考证出“黄公”是用汉代商山四皓之一“夏黄公”的典故,作者名夏庭芝,字伯和,号雪蓑钓隐。大概编者采用了重编《说郛》本的文字,又把邾经的序和夏邦彦的跋删掉了,使人不知道它是什么版本。上述《葆光录》一书,内容与书名不合,作者之误还可以说是误从了《顾氏文房小说》本之讹,而书中正文却全抄自《稽神录》,就不知怎么出的错了。

   全书没有统一的体例,如收入了一些单篇的传奇小说,本来不属于笔记之列,但是又收得不多。宋辽卷收了赵希弁《读书附志》,把书目也视为笔记,但《郡斋读书志》正编却没有被列入。又如上述唐人撰的《五代新说》、宋人乐史撰的《绿珠传》列在汉魏晋南北朝卷,清人万斯同辑的《庚申君遗事》列在宋辽夏金元卷,按作者年代分卷的体例并没有贯彻始终。

   所收笔记有一部分是佚书,编者加以辑集,当然很好。如唐五代小说的佚文,有《太平广记索引》和李剑国的《唐五代志怪传奇叙录》可以参考,不难照录。但令人费解的是往往不注出处,湮没来源,就不能使读者信赖了。例如戴孚《广异记》已是佚书,U盘所收都据《太平广记》辑出,可是一概不注书名、卷数。《广异记》虽有抄本流传,但所辑不全,现有方诗铭重辑本较为完备,U盘所收与之基本相同,却把出处全删了。李剑国、方诗铭还从《类说》辑出两条佚文,又没有利用。他如牛肃《纪闻》、李亢《独异志》、张读《宣室志》等书也是如此,既不说明版本,又没说明佚文出处,令人无从了解书的来源。

   据U盘的凡例说,曾“尽量吸收前人的研究成果”,实际上应该是尽量吸收现代人的成果,但又没能充分吸收。古籍的点校本一般是有校勘记的,U盘则只吸收了他们的校改成果,而把校勘记删了,这样就使读者不知道它用的是什么底本,更不知道它的文字是根据什么版本改的。例如《朝野佥载》一书,中华书局版赵守俨点校本以《宝颜堂秘笈》本为底本,与《太平广记》等书对校,并作了许多补辑工作。U盘的正文就照改了那些校改的文字,例如第二条“藏曰夫人目长而漫视”,第五条“而刑部尚书李日知”,第十三条“试着口即死”等字句,都有校勘记说明改字的依据,而U盘却全部删除了。更令人困惑的是,赵守俨从《酉阳杂俎》等书辑出的“补辑”一卷,U盘也全部照收,附在第六卷之后,而全都删掉了出处。再如《北梦琐言》一书,上海古籍出版社版林艾园校点本也有许多校改和校勘记,照录了它的正文,又删掉了校勘记,而且还把底本(《云自在龛丛书》本)原有逸文四卷的出处也一起删掉了。徐铉《稽神录》一书,已有白化文先生的点校本,U盘吸收了他的“再补”,却改注为李剑国、程毅中补辑的,这就不免有掩耳盗铃的嫌疑了。

   历代笔记的标点,不少书有中华书局“历代史料笔记丛刊”和上海古籍出版社“笔记小说大观”等点校本可以参考,错误还不算太多。但有些未经整理的书,标点就出现不少失误。这里举一些比较明显的例子,略加分析,以见一斑:

  帝不得已而行,窃谓人曰:“匈奴为害自,古患之,周秦及汉魏,历代所不能攘,相为勍敌者也。”(B005《大唐创业起居注》)

  按:“自”字显然不能读断,逗号应移上。

  又曰:“吾不试故艺,试用也”。夫艺者,不独总多能第,以其无用于代,而穷愁时有所述耳。(B006《大唐传载》)

  按:“吾不试,故艺。”是《论语·子罕》记孔子的话。“试者,用也。”见于《论衡·正说篇》,是注释者引用的话,“试”字下应加逗号。“第”,但也,在这里是一个副词,应属下句。

  任昉序《王俭集》有攻乎?异端归之正义,可见攻字从攻击之攻。(D119《谈辂》)

  按:“攻乎异端”是出于《论语·为政》的一句成语,不能见到“乎”字就加问号。“端”字下应加逗号,“攻乎异端,归之正义”两句是任昉的话,应加引号。

  文选王简《栖头陀寺碑》文,有云:层轩延袤,上出云霓。(D255《半村野人闲谈》)

  按:“文选”是书名,“王简栖”是人名,《头陀寺碑文》见萧统《文选》卷五十九。如果查一下书,就不会读错了。

  潜言皇上联云:“礼乐征伐自,天子出。”(D304《金声巧联》)

  按:这句话出于《论语·季氏》,孔子曰:“天下有道,则礼乐征伐自天子出;天下无道,则礼乐征伐自诸侯出。”在“自”字下断句又怎么讲呢?

  从《中国历代笔记》U盘的一些缺点可以看出,有些数字化古籍之所以不能使人信赖,就在于未经学者的认真整理,或者是借用了已经整理的版本而又乱加删改,藏头露尾,买椟还珠,造成了许多混乱。

  数字化的古籍虽然使用方便,但有些书还不符合古籍整理的规范。除了要继续提高电脑技术之外,更需要加强“人脑”的文化素养和学术含量。古籍的数字化必须尽量吸收和保护古籍整理的成果。目前不少出版社正在积极进行数字书的出版,这方面的经验教训值得借鉴。

  

Comments are closed.