传统目录学与古籍文献数据库的开发建设

郑永晓

  内容提要:现代图书分类法在适用古籍文献时常有削足适履、生搬硬套之嫌。因此,对于大型传统古籍数据库建设而言,中国传统目录学中以经、史、子、集四部分类为基础的图书分类法仍具有不可或缺的作用,这是由学科特点和数据库建设的基本要求两方面因素所决定的,传统文献学所积累的学科规范与现代数据技术处理的有机结合才能更好地适应新时期数据库建设的需要。对于文献种类繁多、内容庞杂的综合性古籍数据库而言,尽管计算器有强大无比的检索功能,可以任意提取所需字段或数据,但是,相关数据按照一定的规则进行有序排列仍然是十分必要的。而对于古籍数据库建设而言,按照经、史、子、集四部分类法进行排列仍然是迄今为止最好的解决方案。将传统目录学与古籍数据库建设联姻,进行古籍分类和数据导入,其优越性表现在:一、作为数据库底层数据分类的依据,有效避免因分类混乱产生的讹误。二、可以作为确定数据属性的依据,每一条数据都属于每个部类下的某个子类,只有首先按照目录学知识对每条数据进行定性,才能使整个数据库具备符合学科要求的检索功能。以下从四个方面对此稍加梳理,以就教于学界方家。

一、现代学术发展与传统目录学之关系

  笔者首先做一个界定,此处所谓学术特指以中国古典文学、古代历史、古代哲学等为研究对象的学科,这些学科虽各自有其独立的学科范畴和学术体系,但在长期的发展历程中,也在相互汲取他方的研究成果,互为借鉴,相互促进。更有少数学术大家,文、史、哲兼通,其学术成果横跨各个领域,世所瞩目。所以旧时有“文史不分家”之说。而在人类社会步入二十一世纪的今天,学术追求、学术理念、学术方法都有重大的革新,尤其是看似与人文学科关系甚远的计算机科学与网络技术竟深深地影响了这具有悠久历史传统的文、史、哲研究,令人惊叹现代学术中学科交叉、融合趋势之不可阻挡与学术发展、学术进步之日新月异。

  在这日新月异的学术发展中,我们固然需要不断汲取现代科学的最新成果,吸收其他学科的成果,创建和扶植各种新兴学科、交叉学科,从不同角度发现和培植学术增长点;另一方面,我们绝对不能忽视传统学科本身固有的特性,应在充分继承学科原有特点和成就的基础上进行创新。而在传统的文史研究、现代信息技术和数据库建设这一学术链条中,笔者以为,传统目录学的重要性不容忽视。

  大体而言,在中国传统目录学史上,目录学重在“辨章学术,考镜源流”,章学诚在评价刘向、刘歆父子目录学之成就时指出:

  校雠之义,盖自刘向父子部次条别,将以辨章学术,考镜源流,非探明于道术精微,群言得失之故者,不足与此。[1]

  作为我国最早的分类目录学著述,刘歆《七略》所建立的分类体系以及每类之下有说明和每书之下撰写叙录的体例和范式,影响深远,成为我国传统目录学史上需要遵守的基本范式。作者于每类之下所作的考辨,是对于此一类书籍所产生之由来、递嬗、发展等所作的揭示,对于辨析学术之流变和异同颇有裨益。而作者于每种书下所作的叙录,更进一步对相关文献的作者、版本、真伪、内容、价值等予以考辨,其学术价值亦毋庸赘言。其后班固《汉书·艺文志》即据刘歆《七略》增删改纂而成,既保留了西汉一代文献的概貌,其总序等又对先秦以来的学术思想源流有所辨析。唐代首创四部分类体系的《隋书·经籍志》在继承《七略》和《汉书·艺文志》的基础上,对文献的分类和对文献流变、沿革的阐述也厥功甚伟。

  宋代目录学名著如林,在中国目录学史上有极其重要的地位。举其要者,如我国现存最古老的官修目录学著作《崇文总目》、著名私人提要目录《郡斋读书志》和《直斋书录解题》、特别注重标明版本的目录《遂初堂书目》等无不是中国目录学著述之翘楚。《崇文总目》以“叙”阐述所收各类文献之源流、特色、得失等,而以“释”介绍具体各书之内容,言简而意赅,历来颇受好评。至如《郡斋读书志》和《直斋书录解题》则对各类文献进行或详或略的提要,于作者之生平事迹、学术渊源和书籍的得失短长及版本流传等有着相当精审的评述,嘉惠后学甚多,属于治古代文史之学的必读书目。南宋尤袤所著《遂初堂书目》虽于题解方面有所缺失,但于部分书籍名称前著录版本,且同一种书往往著录数种版本,使得各种版本间可以相互考订,此举颇受后世目录版本学家的称赞。

  虽然在中国历史上,目录学著作并非都这样以“辨章学术、考镜源流”为宗旨,但毫无疑问,“辨章学术、考镜源流”,示人以治学门径,是中国传统目录学的重要功能,自有其不可忽视的价值,也因此受到历代众多学者的高度重视,清代四库馆臣所撰《四库全书总目》即遵循此一规范而更趋完善。

  近代以来,伴随西方目录学的引进和中国目录学的现代化,以实用性为指归,强调索引便捷性的目录学逐渐占据主导地位。笔者以为,随着现代图书数量的急剧增加,向普通公众提供图书借阅服务的图书馆转向方便性、实用性更强的以书名索引为主要内容的现代目录学体系自有其合理性。但是,对于以中国传统文、史、哲为研究方向的传统学术而言,以“辨章学术、考镜源流”为宗旨的传统目录学則更具参考价值。而这一点,正是我们在建设以中国传统文史资料为主要内容的数据库时所必须考虑的。

二、目录学与索引及全文检索之异同

  在信息技术影响于传统学科的进程中,笔者特别重视现代技术与传统学科特点的有机融合,亦即现代信息技术对传统学科的影响,应以更加强化传统学科能够保持学科特点并且能够加速学科发展为前提。笔者所以认为建设中国古代文史资料数据库应参照传统目录学成果和规范,是因为一个面向专业人员,以学科基础建构为宗旨的数据库,必须具备一定的学术水准,符合该学科的学术规范,而借鉴传统目录学的规范和成果,正是建设高水准文史数据库的重要前提。

  如上所述,中国传统目录学的优势之一在于能够通过类的区分和书目的解题示学人以读书治学之门径,通过纲目、细目、解题等方式,提纲挈领,纲举目张,将某一领域的文献属性,包括作者情况、版本流变、内容真伪、后人评价等有条不紊地展示在读者面前。其长处在于能够令人快速掌握相关领域的重要文献线索,不会发生读书治学不得其门的困境。其短处则是传统目录学在文献本身内容的介绍和检索方面功能较弱,难以快速查询文献中的细节。

  快速而准确地检索到文献内容的细微之处则是索引的长处,更是当代计算机技术在书籍文献类数据库中的长项所在。

  索引,又称索隐、引得(Index),是在西方目录学影响下逐步完善的文献检索方式。其编纂方式是将图书、报刊等文献中的字、词、句、人名、地名、书名、篇名、主题词等按照一定的规则(如笔画、拼音)等顺序排列,便于用户快速查询到相关信息。西方的学术传统中,十分重视索引的编纂。除专门的目录学著作外,一个比较规范的专著,其书后也附有详细的内容索引、引文索引等。

  而编制索引正是计算机的优势。具备超强记忆和查询功能的计算机在建立文献索引方面具有远非人工所可比拟的优势,这种优势在大型文献数据库进行全文检索时表现得淋漓尽致。

  同样非常明显的是,传统目录学与近现代以来在西方目录学思想影响下的索引有着很大的不同。尽管索引也可以按照主题类别进行排序,但是索引的长项在细致和快捷,却难以具备传统目录学那种“辨章学术、考镜源流”的功能,在示人以读书治学门径方面与我国传统目录学相比,似颇有不如。显然,二者各有所长,不可偏废。这一点,与现今如何在纷繁复杂的计算机系统中查询目标文件颇有类似之处。

  我们知道,微软开发的操作系统在Windows 95以前,系统中建立任何文件都首先需要确定路径(directory),所有的文件都是按照一定的路径排列的。因此在DOS命令中,显示目录、建立目录、删除目录等操作,都离不开directory 这个词,这个词在中文环境下又译作“目录”。DOS和早期windows中的这个“目录”,便颇有些类似于我国传统目录学中关于图书类别的区分。知晓某一类文件的路径所在,便不难按图索骥,很方便地查询到相关文件的具体位置。随着技术的进步,存储器容量的激增、系统文件和用户文件的几何级增长,原来按路径查询定位文件的方式便力不从心了,所以微软开始发展搜索技术。搜索技术的要点是计算机在后台建立系统内盘符与文件的索引项,用户只要记得文件名、建立日期等要素便可在设定的区域内或整个计算机、局域网内查询到所需要的文件。也因为搜索技术的成熟,微软便将DOS系统下习惯使用的“路径”(directory)一词弃而不用而更改为使用“文件夹”(folder)。

  问题在于,世间万物的属性是很复杂的。搜索技术的成熟固然对海量文件中查询单个文档颇有助益,但是一旦忘了文件名等文件属性,则难免令用户感觉所谓搜索反不如过去根据若干明晰的路径更容易找到需要的文件。因此,微软一方面开发包括桌面搜索在内的各类搜索软件,同时却也在Vista 等操作系统中将用户文档预设各种分类,以便用户可以更方便地管理和使用自己的文件。其目的就是试图把搜索技术和传统的路径管理两方面的优势结合起来。

  目录和索引的异同和优劣短长给我们进行数据库开发以重要启示。我们知道,以当代计算机科学和数据库技术的发展而言,各种类型的数据库多具有强劲的检索和查询功能。因此,检索技术在当前而言不是问题,如何把中国传统目录学那种“考镜源流”、引导初学者以读书治学之门径和巨细无遗的检索功能结合起来才是需要我们认真对待和解决的问题。这个问题在建设与学科发展关系密切的专题数据库和大型古典文献数据库时尤为重要。

三、传统目录学应用于数据库建设之探索

  通过上文的分析我们不难看出,计算机的检索功能固然强大,却并不能代替我国传统目录中那种“辨章学术,考镜源流”的功能,难以示人以治学门径。纵观近年来比较流行的古籍类数据库,也往往是检索功能强,而分类和导引功能较弱。

  在计算机科学和数据库技术产生以前,一般而言,在文史研究领域,学者在从事某一研究课题之前,会根据所研究对象和领域的不同,大多会有选择性地首先查阅《汉书·艺文志》、《隋书·经籍志》、《四库全书总目》这类目录学著作,再通过这些目录进行延伸阅读,找到自己研究领域所需要使用的书籍。这样一条治学路径优点是不至于遗漏本学科需要研读的基本书籍,不会漏掉最重要的基础文献。而其缺点也很明显,即难以快速查询到精确的信息。我们知道,中国古籍浩如烟海,即使将范围限制在某个较小的领域,所阅读的文献也可能相当庞大,比如研究《三国演义》,既需要梳理作为文学作品的小说的各种资料,又需要研究与三国时期那段历史相关的各种文献,同时还涉及宋元以来有关“三国”的戏曲、说唱、曲艺等艺术部类。面对庞杂的各种文献,即使是睿智聪慧、博闻强记的学者也常常望书兴叹。因此,当计算机技术渗透进入中文信息处理领域,专门为文史研究者开发建设的电子版“国学宝典”、《四部丛刊》、《四库全书》、“廿五史”、“中国基本古籍库”等数据库问世后,众多学者大为赞叹。 整日在书海中遨游的学者们此前从未想到,计算机能够在这样短的时间内检索出那么多巨细无遗的资料,其记忆力和反应速度与人脑相比,胜过后者何止千倍!

  问题在于,学术的发展涉及方方面面,既有微观研究,也有宏观研究;既有以探索历史发展规律为指归的理论研究,也有针对某个具体问题或某个研究对象所作的专题研究。举例来说,如果某学者准备就历史上的诸葛亮写一篇论文,他可以在某些古籍数据库中,以“诸葛亮”为主题词将搜索范围限定为史学著作进行检索,所得出的结果当有助于对某些论点的辨证和澄清,或是提出新的见解。但是,如果一个刚刚试图步入学术之门的年轻学者对小说《三国演义》产生了兴趣,想以此作为自己的研究方向,将“三国演义”作为主题词在上述古籍数据库中搜索,他可能得出上万条有关《三国演义》的信息。面对这许多扑面而来的数据,他极有可能会无所适从。这是由于,就目前的数据库开发水平而言,检索出来的这些信息一般会按照数据库中所收古籍的时间顺序递次排列。这种排序对于研究者而言,其实与杂乱无章没什么差别,对于如何进入《三国演义》的研究帮助不大。之所以如此,就是因为基于全文检索技术而产生的这些查询结果并不能按照研究者的意愿进行真正有序的排列,它无法判断那些书籍更重要,那些信息是垃圾。当然,对于信息的价值判断本身正是属于需要学者研究的范围。但是,对于文史研究这种历史悠久的传统学科而言,前人的研究成果已然汗牛充栋,那么在数据库中,根据以往的学术成果对所收文献进行一个初步的学术判断,为初学者给出一个基本的价值评估,似也不算过分要求。

  诚然,凭借技术进步和增加人工干预,可以通过事先标记等手段对所收数据进行预处理,比如标记图书类别、朝代、时间、方位、人名、地名、职官等信息,使用户在查询时能够得到一个按照标记类别排列顺序的检索结果。这当然较之单纯由计算机控制的全文检索结果要好得多,但即便如此,却也并不能给予用户一个纲目清晰、全面完整、系统有序的有关研究对象的资料信息。这一点,却正是传统目录学著作所擅长的功能。

  因此,笔者以为,适用于学科基础建构,推动学术发展的数据库,应该是结合传统目录学和计算机双方长处的结晶。

  之所以说传统目录学而不是现代目录学,是因为如前文所述,现代目录学更侧重于索引,而非传统的目录解题。至于索引功能,计算机较过去人工编制索引已经远为完善,而传统目录学的分类、解题等功能便成为学术数据库需要汲取和完善的地方。现有的某些数据库,在编列数据时虽然也根据朝代、文体等要素对所收录的数据进行排列,亦即数据库除可以全文检索外,也可以按类查找相关书籍进行阅读。但是,这些数据库的分类经常既未严格遵守传统目录学的分类标准,亦难以用现代图书分类法进行规范,往往是根据朝代或文体对所收文献进行粗浅的分类。而在比较规范的传统目录学中,对每种文献其实有着相当严格的区分。例如经部所收文献与子部儒学类是不能相混淆的。而史部文献中又可区分出正史、别史、编年、纪事本末、史钞、史评、传记、政书、职官、地理、杂史等类别。笼统地以冠以所谓历史著作的名称不仅仅显得没有学术水准,更重要的是对于用户而言,也失去了引导学者进入相关领域学术殿堂的功能。

  笔者以为,在建设面向学者,为科研服务的文史类数据时,应审慎、严格、规范地按照传统目录学的相关知识对所收文献进行排列、设置。绝对不能凭借数据库强大的检索功能而疏于对数据按照学术属性进行设置和排列。亦即符合学术规范、对学科建设有更大裨益的数据库应是将目录和索引两方面的功能结合起来,才能达到既能令用户可以清晰地利用文献目录的导引功能,了解数据库收录文献的范围、名称、作者、版本、学术价值等信息,也能够凭借数据库强大的检索功能可以快速查询到任何一个细微的信息单元。

  基于此种考虑,中国社会科学院A类课题“元代文献数据库”在立项之初,便决定遵循传统目录学中关于图书的四部分类法对所收文献进行分类,同时在技术上,则保证数据库有强大的检索功能,包括分类检索、按作者、书名、主题词检索及全文检索等。因为该数据库虽然仅是元代一个朝代的断代文献数据库,但所收经、史、子、集四部文献也十分庞杂。又考虑到这样一个数据库的用户必然涉及史学、文学、哲学等多个学科,所谓术业有专攻,学者的研究方向不同,研究领域不同,所研读的文献便自然有所区别。我们按照学科规范对这些文献条分缕析,对所收文献的属性有明确的、细致的定位,并且在每种文献之前,录入《四库全书总目》等文献中有关元代文献的提要和时人及后人为该文献所作的序跋,这就类似于传统目录学中对文献所作的解题,其目的就是令用户在使用这些文献之初,就能首先对这些文献的属性和价值有较为明晰的了解,并以此确定该数据库中所收录的文献有哪些可以涵容在该学者的研究范围之内。数据库对所收文献所作的这种细致分类显然有助于学者能够更快地利用数据库掌握本学科领域的相关文献。

四、传统目录学应用于数据库建设之意义

  在近年来的学术研究中,学者们在使用数据库时已经习惯了其强大的搜索功能,这在查询某个细小的信息时尤为重要,因为这种检索是人工很难办到的。对于像文、史、哲研究这种传统学科来说,学者们已经庆幸自己拥有了前辈学者做梦也没有想到的便捷工具。

  但是,治学严谨的学者在使用这种功能强大的数据库时,却并不会将数据库提供的信息直接引用在自己的学术论文中。他们满足于数据库给自己提供了一个线索,而为了可靠与严谨,他们一定会再找到原始纸质书籍或其他精良版本,重新校对,才能放心地将检索获得的信息作为自己学术论文的组成部分。

  这样的结果难道是数据库开发建设者所乐意看到的吗?

  之所以产生这样的结果,原因固然有多种,其中,现今文史类数据库的开发还未能完全遵守学术规范,未能切实体察学者的实际需求则是重要原因。

   所以,我们一方面应充分肯定近年来文史类数据库建设的成就,另一方面,则不能故步自封,满足于目前取得的成绩,而应该切实从学术发展和学科建设的角度,仔细审慎地体察学者的需求,将数据库建设推进到一个新的高度。

   而要实现这样一种愿景,笔者以为最重要之处即是汲取传统目录学的长处,利用目录学知识的引导,在全面、专业、精良等方面下功夫,庶几可以逐步满足学者的需求。

   所谓全面是指数据库所收文献的范围而言,应当尽可能巨细无遗地网罗符合数据库建设宗旨的所有文献和数据。就目前的数据库开发情况而言,文史类数据库大体可分为三种类型,其一为将某部或多部大型图书进行数字化,并建成数据库,如众所周知的电子版《四部丛刊》、《文渊阁四库全书》等。其二是试图将中国有史以来的重要文献尽其所能收录于一个大型数据库中,如“国学宝典”、“中国基本古籍库”等。其三是根据某些分支学科建设的需要,建设为某个具体学科服务的专题数据库,如我们正在建设的“元代文献数据库”和“《红楼梦》研究资料数据库”等。前者可用于对元代文、史、哲等方面的研究,后者则仅限于为《红楼梦》研究服务。

  由于中国历史悠久,印刷术发达,因此历代遗留下来的文献数量十分庞大。这既是中华文明宝贵的精神遗产,也是我们今天从事古籍数字化所赖以进行的对象。而因其数量巨大,产生的年代不同,存放的介质不同,或为版刻,或为手抄,其字迹或清晰或模糊,这就使得中国古籍的数字化和数据库建设面临巨大的挑战。

  至少就目前来说,很难有哪一个数据库能够将先秦以来的所有文献都网罗进一个数据库中。即使这种超大型数据库最终能够完成,也会因为存储和运算速度的限制而造成使用效率的浪费。

  《四部丛刊》、《四库全书》那样级别的文献毕竟不是太多。像“国学宝典”、“中国基本古籍库”那样的数据库当然也可以继续增添新的文献。然而,为了学科建设的需要和学者使用的便利,在未来的数据库建设中,笔者以为应该把重点放在那些切合学科建构需要的专题数据库方面。

  而对于一个专题数据库来说,首先考虑的因素就是收录数据必须全面,亦即对于该学科或该专项研究而言,数据库应竭尽其所能将所有能够为该项研究利用的资料悉数收录进来。那么如何才能确保所收数据全面而不至有所遗漏呢?当然是向权威的目录学著作求助。目录学著述已经为我们提供了历代文献的存世数量、版本、存放地点等信息,按书索骥,便不难将相关文献资料全部网罗进来,不会产生重要文献未被纳入的缺憾。而一个有学养的数据库用户,他当然能够判断该数据库所收文献是否足够全面,如果收录的文献没有缺漏,则能够使学者在从事此一领域的研究时别无所求,不必再花费心思到别处查询资料,则此数据库的价值也就不言而喻。

  第二点则是专业性。库中所收录的文献不仅要全面无缺漏,还应该在数据分类、数据排列、属性设置、检索科学等方面符合文史学科本身的特性,特别需要能够根据前人和今人的已有研究成果对数据进行预处理,能够给出像传统目录学那种“解题”式的阐释。其目的在于让用户在使用数据时能够快速把握相关文献的价值、真伪、相关研究成果等信息。这样才能使数据库起到引导用户尽快进入相关研究领域的功能,使学者在前人已有研究成果的基础上更进一步。这也正是传统目录学所具有的功能。当然,配合数据库本身所具备的强大检索功能,数据库的应用应该远比一些目录著作和目录中所著录的书籍具有更大优越性。

  以精良版本的文献为基础开发的数据库才是真正对学者有用的数据库,这是建设专题数据库所需要注意的第三个方面。在中国历史上,越是著名的著作,其刊刻的次数就越多,而每次刊刻,如非出自同一模板,由于校对者水平不一,便难免产生字句不一的现象。有些同一种类的文献,书名相同,但卷数相异,所收录的文献内容差别甚大。更有些文献,没有刻本,只有钞本,钞本中难以辨认字迹者为数不少。凡斯种种,都是源于不同文献版本所造成的差异。版本不同,所记录的信息便可能相差甚远,有些文献是宋元时的版本最好,而有些文献则是清人曾经花费巨大精力进行校勘,清人校本优于宋元刻本。因此,治学严谨的学者往往比较不同版本的差异,而以最可靠版本的记载作为自己论证的依据。这就为我们开发文史类数据库带来了挑战。怎样处理才能最大程度地符合高质量数据库的要求呢?“中国基本古籍库”的做法是对部分文献尽可能收录多种版本。这不失为一种很好的创意和实践。美中不足的是这些版本是以图片形式储存的,不具有检索功能。

  如果某种文献仅有两三种版本,则在建设数据库时将其全部收录也许不失为最优处理方式。但是如果某种文献有十余种版本甚至更多,则又当如何?所以,较好的处理方法还是选择精良版本进行处理,而对相对劣质的版本则忽略不计,不予处置。那么如何才能选择精良版本呢?自然还是向目录学求援。我国传统目录学的基本功能之一就是记录文献的版刻源流,比较不同版本间的优劣短长。而一旦根据目录学所指引的目标得以确立,剩下的就是按照选定的版本进行严格的校勘,力求令数据库中的文献与纸质版本完全相同。只有这样,学者们在使用这一数据库时,才不会出现在数据库中查询信息,再到纸质版上核实的现象。

  传统目录学对专题数据库建设的重要性已如上述。因此,只要我们在开发建设数据之初,多研习相关领域的目录学著述,就能基本保证该数据库是一个收录全面、专业性强、符合学科特点的数据库。这些论点是否成立,还请方家不吝教正。

注释:

[1] 章学诚:《校雠通义》自序。

发布日期:2009-08-18