传统目录学与古籍文献数据库的开发建设
摘要:文、史、哲等传统学科的学者需要面对浩如烟海的古籍,由于数量庞大和阅读不易,古籍数据库的作用便越来越大,而如何建设古籍数据库便成为一个与传统学术密切相关的问题。以经、史、子、集四部分类为基础的传统目录学仍具有不可或缺的作用,传统目录学与现代数据库技术的结合才能更好地适应新时期的古籍数据库建设,并对传统文史学科的发展提供更好的支持。
关键词:传统目录学;古籍数字化;数据库
1. 传统目录学之功能及在古籍数据库建设中的作用
以中国古典文学、古代历史、古代哲学等为研究对象的人文学科,在步入二十一世纪的今天,学术追求、学术理念、学术方法都有重大的革新。尤其是看似与人文学科关系甚远的计算机科学竟深深地渗透进来,古籍数据库的应用已经相当普及。在这样一种学术氛围中,我们固然需要不断汲取现代科学的最新结晶,从不同角度发现和培植学术增长点;另一方面,我们却也绝对不能忽视传统学科本身固有的特性,应在充分继承学科原有特点和成就的基础上推陈出新。而在传统的文史研究、现代信息技术和古籍数据库建设这一学术链条中,笔者以为,传统目录学的重要性不容忽视。
大体而言,在中国传统目录学史上,目录学重在“辨章学术,考镜源流”,清代著名学者章学诚在《校雠通义》卷一中指出:
校雠之义,盖自刘向父子部次条别,将以辨章学术,考镜源流,非深明于道术精微,群言得失之故者,不足与此。
作为我国最早的分类目录学著述,刘歆《七略》所建立的分类体系以及每类之下有说明和每书之下撰写叙录的体例和范式,对于辨析学术流变和异同颇有裨益,影响深远,成为我国传统目录学史上历代相沿的基本范式。其后班固《汉书·艺文志》即据刘歆《七略》增删改纂而成。唐初所修《隋书·经籍志》,首创四部分类体系,在继承《七略》和《汉书·艺文志》的基础上,对文献的分类和对文献流变、沿革的阐述也厥功甚伟。
虽然历史上的这些目录学著作并非都这样以“辨章学术、考镜源流”为宗旨,也有详分类目以便检索的所谓帐簿派目录学,但毫无疑问,“辨章学术、考镜源流”,以明晰学术史的发展历程为指归的学术史派更应被看作是传统目录学的主流。
传统目录学着眼于辨析文献的演变历程,阐明学术史的流变,其功能在于收集、保存、传承、研究文献。传统目录学的这一功能,正是我们在建设以传统文史资料为主要内容的古籍数据库时所必须认真考虑的。因为专业性较强的古籍文献数据库其服务对象均属专业人士,其目的在于突破传统阅读方式浏览海量文献的局限,使得浩如烟海的古籍文献能够便捷地为学术研究服务。既然是为专业人员提供服务的数据库,理应与服务对象的需求和相关学科的特点有机地契合,正是在这个意义上,笔者认为古籍数据库建设应更多地借鉴传统目录学的长处。之所以是传统目录学而不是现代目录学,是因为以“索引”为主要技术手段的现代目录学,与传统目录学在学科宗旨、功能设置等方面颇有相异之处。
2. 传统目录学与索引及全文检索的优劣对比
如上所述,中国传统目录学的优势在于能够通过类的区分和书目的解题示学人以读书治学之门径,通过纲目、细目、解题等方式,提纲挈领,纲举目张,将某一领域的文献属性,包括作者情况、版本流变、内容真伪、后人评价等有条不紊、要言不烦地展示在读者面前。其长处在于能够令人快速掌握相关领域的重要文献线索,不会发生读书治学不得其门而入的困境,其短处则是传统目录学在文献内容本身的介绍和检索方面功能较弱,难以快速查询文献中的细节。
快速而准确地检索到文献内容的细微之处则是索引的长处,而当代计算机领域中的全文检索技术则把这种索引、查询、检索功能发挥到了极致。
索引,又称索隐、引得(Index),是在西方目录学影响下逐步完善的文献检索方式。具体而言,索引是将图书、报刊等文献中的字、词、句、人名、地名、书名、篇名、主题词等按照一定的规则(如笔画、音序)等进行顺序排列,便于用户快速查询到相关信息。西方的学术传统中,十分重视索引的编纂。
尽管索引也可以按照主题类别进行排序,但是索引的长项在于微观方面的细致和快捷。而这个曾经花费大量人工和时间才能实现的功能在计算机那里可谓不费吹灰之力。具备超强记忆和查询功能的计算机在建立文献索引方面具有远非人工所可比拟的优势,这种优势在大型文献数据库进行全文检索时表现得淋漓尽致。
比如像书同文公司制作的电子版《四库全书》这样的大型古文献数据库,以比较精准的方式向学者展示了以往靠人力所不能实现的功能,尤其在查询某些字词的原始出处、出现频率等方面,这样的数据库的确提供了此前学者想象力所不及的功能。
问题在于,检索功能强大并不能包办一切。例如查询宋代诗人黄庭坚的资料,因古人习惯以字号相称,黄庭坚号“山谷”,所以查询黄庭坚的资料必须将“山谷”作为重要关键词之一。但是古往今来,以“山谷”作为地名之处比比皆是。查询结果可想而知:鱼龙混杂、泥沙俱下,虽然有关“山谷”的信息扑面而来,目不暇接,却难以令学者把握住最紧要的信息所在。
这个例子告诉我们,建立在数字化文献基础上的数据库,至少到目前为止,仍然存在一些缺憾。显示出目前IT人士主导建设的数据库,与学者的实际需求之间,尚存在一定的差距。
而这些缺憾,笔者以为,恰恰可以从传统目录学那里获得启示和改进。具体而言,至少在这样几个方面值得古籍文献数据库借鉴:一、具有总揽全局、统观古今的功效。浏览几部经典的目录学著述,如《隋书·经籍志》、《郡斋读书志》、《直斋书录解题》、《通志·艺文略》、《文献通考·经籍考》、《四库全书总目》等,可以对中国文化发展史之大略有比较清晰的认识。第二,严格区分文献属性,对文献性质、价值有严格的定位和评价。例如经部所收文献与子部儒学类是不能相混淆的。而史部文献中又可区分出正史、别史、编年、纪事本末、史钞、史评、传记、政书、职官、地理、杂史等类别。这些细目的区分虽然在不同的目录学著述中微有不同,对同一种文献的属性定位在不同的目录学著述中也可能有不一致处,但这都显示出目录学作者根据自身学术眼光对文献性质作出的判断,对于后来的学者十分重要。第三,重视版本。所谓目录学最重要的功能即是向读者推荐优秀版本的文献。版本的不同,小则影响对一个字句含义的理解,大则影响某些学术流派根本思想的异同。
传统目录学的优点当然不止于此,然仅就以上几点而言,也足以证明传统目录学的价值所在。显然,以索引见长的西方目录学与我国传统目录学相比,可谓各有千秋,不可偏废。
3. 传统目录学应用于数据库建设之探索
通过上文的分析我们不难看出,计算机的检索功能固然强大,却并不能代替我国传统目录学中那种“辨章学术,考镜源流”的功能。纵观近年来比较流行的古籍类数据库,也往往是检索功能强,而分类和导引功能较弱,在文献编排方面相当随意。有时虽然也根据朝代、文体等要素对所收录的数据进行排列,亦即数据库除可以全文检索外,也可以按类查找相关文献。但是,由于没有严格遵守传统目录学的规范,一般仅仅根据朝代或文体对所收文献进行粗浅的分类。对于传统目录学中所言正史、别史、编年等,笼统地冠以所谓“历史著作”的名称,不仅显得没有学术水准,更重要的是对于用户而言,也失去了引导学者进入相关领域学术殿堂的功能。
在数据库技术产生以前,一般而言,在文史研究领域,学者在从事某一研究课题之前,会根据所研究对象和领域的不同,大多会有选择性地首先查阅《汉书·艺文志》、《隋书·经籍志》、《四库全书总目》这类目录学著作,再通过这些目录进行延伸阅读,找到自己研究领域所需要的书籍。这条治学路径优点是不至于遗漏本学科需要研读的基本书籍,不会漏掉最重要的基础文献。而其缺点也很明显,即难以快速查询到精确的信息。众所周知,中国古籍浩繁庞杂,即使将范围限制在某个较小的领域,所阅读的文献量也可能相当可观,比如研究《三国演义》,既需要梳理作为文学作品的小说的各种资料,又需要研究与三国时期那段历史相关的各种文献,同时还涉及宋元以来有关“三国”的戏曲、说唱、曲艺等艺术部类。面对庞杂的各种文献,即使是睿智聪慧、博闻强记的学者也常常望书兴叹。因此,当计算机技术渗透进入中文信息处理领域,专门为文史研究者开发建设的电子版《四部丛刊》、《四库全书》、“廿五史”、“中国基本古籍库”等数据库问世后,众多学者大为赞叹。整日在书海中遨游的学者们此前从未想到,计算机能够在这样短的时间内检索出那么多巨细无遗的资料,其记忆力和反应速度与人脑相比,胜过后者何止千倍!
问题在于,如果将“三国演义”作为主题词在上述古籍数据库中搜索,很可能得出上万条有关《三国演义》的信息。面对这许多扑面而来的数据,用户极有可能会无所适从。这是由于,就目前的数据库开发水平而言,检索出来的这些信息一般会按照数据库中所收古籍的时间顺序递次排列。这种排序对于研究者而言,其实与杂乱无章没什么差别,对于如何进入《三国演义》的研究帮助不大。之所以如此,就是因为基于全文检索技术而产生的这些查询结果并不能按照研究者的意愿进行真正有序的排列,它无法判断哪些文献更重要,哪些信息是垃圾。
诚然,凭借技术进步和增加人工干预,可以通过事先标记等手段对所收数据进行预处理,比如标记图书类别、朝代、时间、方位、人名、地名、职官等信息,使用户在查询时能够得到一个按照标记类别排列顺序的检索结果。但即便如此,却也并不能给予用户一个纲目清晰、全面完整、系统有序的有关研究对象的资料信息。这一点,却正是传统目录学著作所擅长的功能。
笔者以为,在建设面向学者,为科研服务的文史类数据库时,应审慎、严格、规范地按照传统目录学的相关知识对所收文献进行排列、设置。绝对不能凭借数据库强大的检索功能而疏于对数据按照文献属性进行设置和排列。亦即符合学术规范、对学科建设有更大裨益的数据库应是将目录和索引两方面的功能结合起来。
基于此种考虑,中国社会科学院A类课题“元代文献数据库”在立项之初,便决定遵循传统目录学中的四部分类法对所收文献进行分类,同时在技术上,则保证数据库有强大的检索功能,包括按作者、书名、主题词检索及全文检索等。因为该数据库虽然仅是元代一个朝代的断代文献数据库,但所收经、史、子、集四部文献也十分庞杂。又考虑到这样一个数据库的用户必然涉及史学、文学、哲学等多个学科,所谓术业有专攻,学者的研究方向不同,研究领域不同,所研读的文献便自然有所区别。我们按照学科规范对这些文献条分缕析,对所收文献的属性有明确的、细致的定位,并且在每种文献之前,录入《四库全书总目》等书籍中对相关文献所作的提要和时人及后人为该文献所作的序跋,这就类似于传统目录学中对文献所作的解题,其目的就是使用户对这些文献的属性和价值有较为明晰的了解,帮助学者能够更快地利用数据库掌握本学科领域的相关文献。由于各类文献严格按照经、史、子、集及各部所属子类顺序规则排列,保证了该数据库既具有强大的检索查询功能,又符合传统学科的固有规则,不同领域的学者都可以根据自己的需要快捷地查询到相关文献。事实证明,这些措施是可行的,也取得了预期效果。
因此,笔者以为,这样的探索是有意义的。适用于学科基础建构,推动学术发展的数据库,应该是结合传统目录学和计算机双方长处的结晶。
4. 传统目录学应用于数据库建设之途径
在近年来的学术研究中,学者们在使用数据库时已经习惯了其强大的搜索功能,但是,治学严谨的学者在使用这些功能强大的数据库时,却并不会将数据库提供的信息直接引用在自己的学术论文中。他们满足于数据库给自己提供了一个线索,而为了可靠与严谨,他们一定会再找到原始纸质书籍或其他精良版本,重新校对,才能放心地将检索获得的信息作为自己学术论文的组成部分。
这样的结果难道是数据库开发建设者所乐意看到的吗?
所以,我们一方面应充分肯定近年来文史类数据库建设的成就,另一方面,则不能故步自封,而应该切实从学术发展和学科建设的角度,仔细审慎地体察学者的需求,将数据库建设推进到一个新的高度。
而要实现这样一种愿景,笔者以为最重要之处即是汲取传统目录学的长处,利用目录学知识的引导,在全面、专业、精良等方面下功夫,庶几可以逐步满足学者的需求。
就目前的数据库开发情况而言,文史类数据库大体可分为三种类型,其一为将某部或多部大型图书进行数字化并建成数据库,如众所周知的电子版《文渊阁四库全书》、《四部丛刊》(由书同文公司分别于1999年、2000年开发成功)等。其二是试图将中国有史以来的重要文献尽其所能收录于一个大型数据库中,如“国学宝典”(DOS版发布于1998年,其后递有增补)、“中国基本古籍库”(2005年10月发布)等。其三是根据某些分支学科建设的需要,开发为某个具体学科服务的专题数据库,如笔者正参与建设的“元代文献数据库”和“《红楼梦》研究资料数据库”等。
除《四部丛刊》、《四库全书》外,《永乐大典》、《古今图书集成》、《四部备要》、也已经开发出电子版。这个系列的数据库其发展方向一是将“续修四库”系列进行数字化,二是将众多的明清方志进行数字化。因为投入巨大,短时期内很难见到类似《四库全书》那样规模的具备全文检索功能的产品,学界人士只能翘首以待。而像“国学宝典”、“中国基本古籍库”那样的数据库当然也可以继续增添新的文献。然而,为了学科建设的需要和学者使用的便利,在未来的数据库建设中,笔者以为应该把重点放在那些切合学科建构需要的专题数据库方面。
而对于一个古籍文献专题数据库来说,是否达到相应学术水准是衡量该数据库成功与否的重要标尺。实现这一目标的关键即在于汲取传统目录学的相关知识作为数据库建设的指导思想。具体而言,以下几点需要特别注意:
第一点力求收录数据全面。所谓全面是指数据库所收文献的范围而言,应当尽可能巨细无遗地网罗符合数据库建设宗旨的所有文献。那么如何才能确保所收数据全面而不至有所遗漏呢?当然是向权威的目录学著作求助。目录学著述已经为我们提供了历代文献的存世数量、版本、存放地点等信息,按书索骥,便不难将相关文献资料全部网罗进来,不会产生重要文献未被纳入的缺憾。而一个有学养的数据库用户,他当然能够判断该数据库所收文献是否足够全面,如果收录的文献没有缺漏,则能够使学者在从事此一领域的研究时别无所求,不必再花费心思到别处查询资料,则此数据库的价值也就不言而喻。
第二点力求更加专业。库中所收录的文献不仅要全面无缺漏,还应该在数据分类、数据排列、属性设置、检索科学等方面符合文史学科本身的特性,特别需要能够根据前人和今人的已有研究成果对数据进行预处理,能够给出像传统目录学那种“解题”式的阐释。其目的在于让用户在使用数据时能够快速把握相关文献的价值、真伪、相关研究成果等信息。这样才能使数据库起到引导用户尽快进入相关研究领域的功能,使学者在前人已有研究成果的基础上更进一步。这也正是传统目录学所具有的功能。对于古籍数据库而言,相关数据按照经、史、子、集四部分类法进行有序排列仍然是迄今为之最好的解决方案。
第三,力求数据来源更加可信。在古籍数据库的开发中尽可能以精良版本的文献为基础来建设数据库。在中国历史上,越是著名的著作,其刊刻的次数就越多,而每次刊刻,如非出自同一刻板,由于校对者水平不一,便难免产生字句不一的现象。有些同一种类的文献,书名相同,但卷数相异,所收录的文献内容差别甚大。更有些文献,只有钞本,难以辨认字迹。凡斯种种,都是源于不同文献版本所造成的差异。版本不同,所记录的信息便可能相差甚远,有些文献是宋元时的版本最好,而有些文献则是清人曾经花费巨大精力进行过校勘,清人校本优于宋元刻本。因此,治学严谨的学者往往比较不同版本的差异,而以最可靠版本的记载作为自己论证的依据。这就为我们开发文史类数据库带来了挑战。必须在选定精良版本的基础上,进行严格的校勘,力求令数据库中的文献与纸质版本完全相同。只有这样,学者们在使用这一数据库时,才不会出现在数据库中查询信息,再到纸质版上核实的现象。
5. 小结
由于古代文学、史学、哲学、古汉语研究等传统人文学科需要面对极其浩繁的古代文献,学术的发展又必须推陈出新,因此借助古籍数据库便成为学者的不二选择。而古籍数据库如何更能为学者所易于接受,如何能够帮助用户快速找到所需要的文献,是任何古籍数据库开发者所必须思考的问题。仅仅具备全文检索功能显然远远不能满足学者的需求。传统目录学在历史上曾经统领众多古籍,引导过无数的读书人步入学术殿堂。那么,我们今天以传统目录学统领古籍数据库建设的全局并具体应用于数据库的开发,也具有重要意义。未来的数据库应该不仅仅局限于可以查询需要的数据,而且可以巨细无遗地将有关专题涉及的数据文献脉络清晰地提供给学者,不仅是文献本身,而且还包含文献之间的“关系”。只有这样,古籍数据库才能真正成为学术发展的基石。
此外,数据库的广泛应用和学术本身的发展,也在不断催生很多新兴学科和交叉学科。传统文献学将向数字文献学转变,地理信息系统、人工智能等将逐步影响传统文史学科。而某些新兴学科、交叉学科的出现也必将对古籍数据库建设提出新的要求。但这已属于另外一个问题,笔者将另文讨论。
参考文献:
- [1] 章学诚.《校雠通义》[M],粤雅堂丛书.广东.南海伍氏刊本.1853
- [2] 李铎,王毅.《关于古代文献信息化工程与古典文学研究之间互动关系的对话》[J],文学遗产.2005 .1:126-137.
- [3] 范子烨.《咫尺应须论万里:说电子版〈四库全书〉》
- [EB/OL].[2003-10-29]. http://xiangyata.net/data/articles/f03/261.html
- [4] 郑永晓.《古籍数字化对学术的影响及其发展方向》[J],《社会科学管理与评论》2006.32(4):81-88.
作者简介:郑永晓 中国社会科学院文学研究所,研究员,博士。主要研究方向为唐宋文学、文献学、古籍数字化。