《宋辽夏金元史数据库》建设构想

  

河北大学宋史研究中心

  史料是历史研究的基础,而古籍的全文检索是文史研究电子化应用最为直接和最为有效的手段。河北大学宋史研究中心的创立者漆侠先生十分重视古籍整理中的新技术应用,自1989年开始,与河北大学电子信息工程学院的汉字信息处理研究室联合开发《宋代文献资料微机检索系统》,采用自己研制的“汉字识别系统D-OCR”进行录入,完成《续资治通鉴长编》(520卷,720万字)的录入工作,后经河北省教委主持鉴定,1995年在河北省第六届发明展览会上获金奖。该成果受到国内外同行专家的重视,曾有多位海内外宋史界学者前来参观试用,并被评价为“中国大陆第一个有组织地利用现代化手段进行的宋代文献资料检索系统。”

  新世纪以来,中国古籍数字化的研究和实践已经摒弃了手工作坊式的简单录入形态,河北大学宋史研究中心中止了此后《夷坚志》以及数十种宋人笔记小说的录入工作,逐步提出建设断代宋史数据库的计划。2006年10月,我中心为早日启动在“宋辽夏金元史数据库”建设工作,当年在北京召开了有宋辽夏金元史专家、文献学专家和文献数字化专家参加的咨询会议,明确了建设该专业数据库的初步构想和功能要求。2007年我中心成立了数据库建设工作工作领导小组,向河北大学申请了“宋辽夏金元史数据库”的专项建设经费。2007年底在原有工作的基础上召开了第三次数据库工作会议,讨论了贾文龙、肖爱民起草的《<宋辽夏金元数据库>建设的几个重要问题》的报告。我们认为建设断代数据库,首先要处理好以下问题:

  1、断代数据库的学术价值定位

  在研制“宋辽夏金元史数据库”之时,通史类古籍全文软件已有相当高的成就,其中迪志公司开发的《文渊阁四库全书》和北京书同文数字化技术有限公司开发的《四部丛刊》已经成为学者检索史料的优先选择,另外还有广西金海湾电子音像出版社和广西师范大学出版社出版的《古今图书集成》对通史史料的检索也有相当帮助。2002年以来,北京爱如生公司研发、刘俊文先生主持了《中国基本古籍库》项目,这是古籍全文数字化的重大工程,并于2005年10月完成。

  我们提出建立断代史料库是建立在宋代古籍存世特点的基础上的。宋代发明了活字印刷,雕版印刷技术臻于完善,宋体字作为印刷业重要字体开始成型,所以胡应麟说:“雕本肇自隋,行于唐世,扩于五代,精于宋人。”宋代科举制度的发达也促进了个人文集的大量出现,据四川大学古籍整理研究所编纂的《现存宋人别集版本目录》,现在宋人文集计739部,作者631人。而书籍的大量印行使许多文集和规模较大的著作都能经印刷而得以存世。同时宋朝灭亡时图书典籍未遭受太大损失,元初编写宋史能参考的图书资料相当丰富。因此宋朝虽存在时间约300年,但保存下来的资料超过了先秦至隋唐的史料之总和。漆侠先生讲:“对宋代文献,一个用功的学者,一辈子才可以读完。”目前还有相当数量的宋代史籍没有数据化,仅《续修四库全书》中就存在相当数量的未经数据化的宋代文献。此外大而全的数据库开发进程缓慢,校对不容易精准,影响了其检索的可靠性。大于数据库对各个朝代文献都择有重要的书籍,而并非各个时期全部文献的集合,如《中国基本古籍库》只收录10000种古籍。目前宋代以前的古代文献因为存世数量不大,其全文数字化工作已经接近完成,而明清文献的全部数字化可能还要持续上百年。因此以宋夏金元(916——1367)约五百年的存世文献为主建立断代数据库既有相当高的难度,又有相当大的价值。

  2、简体与繁体的选择问题

  马克思说,生产工具促进生产力。马克思在经典著作中论述人类历史发展阶段划分时指出:历史发展阶段是以人类采用什么生产工具及相应的生产方法来划分的,所以分成石器时代、铁器时代等。推动历史发展,生产工具的变革是最积极、最首要的因素。人类的生产工具由手动发展到具备动力,马克思认为这是一次人类生产工具的大革命。现在计算机技术的发展,使人类的生产工具具有一定智能性,这是人类生产工具新的又一具有划时代意义的发展。

  对古籍数字化而言,检索手段是这个智能性的主要体现,通过史料的查询可以把原来枯燥的史料翻检工作变为技术性操作。因此衡量古籍数字化成果的重要标准是文献检索的精度与准度,检索结果的精准性下降,就会给学术研究带来片面性。

  目前在古籍数字化过程中,繁简转化过程出现了很多问题,众多专家因此认为繁体优于简体。但是我们认为应该首先考虑简体与繁体是否能达到检索的精度与准度。古籍数字化工作是对文献的又一次整理过程,而整理过程就会有所修正,如中华书局作为国内最主要的古籍整理单位,其总编室在其《古籍校点释例》中就说:“古書中的古今字、通假字、異體字、俗體字等,一律不出校。宋代以前的古書及有關語言文字學的著作,異體字一般不改。元明以後的書,不常見的異體字及不合規範的俗體字,如「島」作「」,「沿」作「」、「惡」作「悪」、「船」作「舡」、「銜」作「啣」之類,可根據實際情况改成通行的繁體字,改了也不出校。版刻中的錯字,如「焰」刻作「熖」、「祇」(只)刻作「秖」、「千」刻作「」、「餐」刻作「飱」,「寤寐」刻作「窹」之類,應改成規範的繁體字。一本書內的用字應力求統一。用簡體字排印的書可另作規定。”可见许多古籍中的异体字与俗体字已经舍弃,读者所见已非古籍原貌。古籍数字化过程中,这些异体字与俗体字都是可能舍弃的。我国目前实行的简化字方案中,多是一一对应关系,此外则是多个繁体合成一个简体,如“里程”的“里”和“里面”的“里”合并,“面孔”的“面”和“面条”的“面”合并,“皇后”的“后”和“以后”的“后”合并,“忧郁”的“郁”和“郁郁葱葱”的“郁”合并。在古籍检索中,关键词检索是最常用的手段,关键词中包含简体字基本不会影响对史料的检索。如果需要单字检索,诸如字频统计一类,简体检索的结果可能多于繁体,但是对检索结果可以设定条件进行再处理。

  如果将检索词整理成工具书,并附在史料库前,可说明整理凡例,作为使用者的参考,那么用简体进行古籍数字化整理也是可行的。

  3、文字与图像的关联问题

  探讨文字与图像的关系,我们从高校教学的需要与实践出发,认为应要充分考虑检索与阅读的关系问题。阅读是学术研究的常态活动,其与检索的关系应该是主辅关系。无庸置疑,数字化后的古籍也具有可阅读功能,高质量的数字化成果可以达到万分之一左右的差错率,完全可以用以满足一般性的阅读要求。但是数字化后的古籍常常是纯文字史料,如电子版《四库全书》则连标点也没有,并不便于学者阅读。此外古籍数字化过程中还会产生录入错误,又不具有原始性质,因而不能成为阅读信本,也不能成为真正的版本。

  对数字化古籍加上现代标点,对方便学者阅读古籍的作用是显而易见的,但是也容易引起版权问题。我们认为数字化古籍将来的出路可能在于实现电子标点,北京大学李铎博士曾设想将来可以利用计算机智能化特点,让计算机自主学习,标点《四库全书》。标点数字化过古籍,并不需要象点校纸本一样严谨无误,能实现基本的句读,即使标点的长一些,也是可以接受的。因为使用者复制史料后,还会有再标点与史料核对的过程。随着数据库技术的进步,计算机对史料进行“粗标点”是可能实现的。当然最好的情况是专家学者抽出时间与精力,对数字化古籍进行点校,则是造福学林之举。

  因为数字化后的古籍不能成为阅读信本,笔者感到在实际学术研究过程中文本阅读(包含文献扫描的图像版)与电子阅读并不是同步的。常见的情况是先读了史料,然后再根据需要检索史料;其次是先检索史料,再去核对文本。一边阅读图像,一边检索复制,在文字与图像间往返切换的情况并不多。

  古籍数字化工作应该考虑如何与前人整理版本的衔接。古籍不同于近现代文本,其中知识与观念的时代差异,是需要专家学者去辨析注释的。从古至今,各个时期都有学者对前人著述进行整理。《四库全书》是清代乾隆年间官修的规模庞大的百科丛书,共收书3400余种,实际也可以看作是一次大规模的版本整理的文化盛事。目前大型数据库都是以图文对照的形式解决这个问题的,即原文与文字是可以显示的,当然是最为完美的解决途径。但是图文对照的成本很高,每个页面都要单独处理,如《四库全书》有79000多卷,页面又数倍于此数,因此对财力提出很高的要求。

  鉴于学术研究过程中阅读与检索可以前后进行,古籍数字化中文字与图像也可以分开,又要借助于一定手段而建立联系。这一点尤其适于高等院校的教学与科研工作。

  从以上考虑出发,我们提出一些《宋辽夏金元史数据库》的建设思路,希望数据库既有资料性,又有学术性;不仅可以用于科研,还要利于教学工作;含有动态建设过程,而在相当时段内保持一定的先进性。下面提出这些思路,借这次大会的机会,以求教于方家。

  一、以时人诗文为数据库主体

  新技术革命的浪潮深刻地消解了历史、文学、哲学等学科间的材料隔膜,古籍数字化更是突破了传统的经、史、子、集的古籍分类方式。而历史学研究对象涉及面广的特性决定了历史学者必须从其他学科查寻资料。历史学者在检索文献时使用综合性数据库,利用计算机所具有模糊查询识别能力,可以通过简单的检索便在自己不熟悉的断代和领域找到相关的资料。因此断代史古籍数字化可以以散漫的古籍分类方式构建数据库,可以以检索词的方式回到以古人个体中心构建文献的模式。而古人的个体创作,基本上只有诗与文两种。因些《宋辽夏金元史数据库》以《全宋诗文数据库》、《全辽诗文数据库》、《全金诗文数据库》、《全元诗文数据库》为主体。

  二、以篇目章节检索为图文对照间的联系

  古籍数字化的最理想的成果形式是能直接引用,图文对照是能达到直接引用的最有效途径。《宋辽夏金元史数据库》计划建立《古籍书影数据库》,首先实现书名章目的检索,并以对照原文制作资料专题的方式,基本达到直接引用的要求。

  三、以工具书库作为检索词的延伸

  史料是历史研究的基础。学术上的突破,往往依赖于新材料的发现。古代典籍浩如烟海,传统的史学研究在某种程度上,就是发掘史料功夫的较量。而数据库能够把原来枯燥的史料翻检工作变为技术性操作,就某种意义而言,数据库建设将引发传统史学研究的革命。为方便史料查询,就要丰富检索词,所以第一届古籍数字化国际会议外,李伟国等多位专家提出建立同位语数据库的倡议。《宋辽夏金元史数据库》似建立《宋人存世著述书目》、《全宋人名资料库》(姓名、字号、籍贯、事迹、生卒、著述)、《宋辽夏金元史地名资料库》、《宋辽夏金元史官名资料库》,以为使用者丰富检索词,并提供查询帮助工具。

  四、以影像资料为文本古籍的补充

  史料包括历史文献与史迹遗存,《宋辽夏金元史数据库》还计划建立《宋辽夏金元史文物考古图片库》和《宋辽夏金元史文物教学资料库》,主要包括这一时期的书法、绘画、书影、兵器、建筑、雕塑、印章、壁画、瓷器、金银器、服饰、车舟等各方面文物考古图片。王国维先生两重证据法之一即为“取地下之实物与纸上之遗书辨证”,进行古史新证。《考古图片库》是影像时代二重史证在教学方面的努力。

  五、以论著索引为学术前沿的反映

  《宋辽夏金元史数据库》计划集资料性与信息性为一体,包含20世纪至今宋辽金史百年论著索引,反映了海内外宋辽夏金元史的最新研究成果,希望成为最全、最新的宋元时期的古籍及研究前沿的数字化成果。目前我们与方建新先生、刘浦江先生已合作完成《二十世纪宋史研究百年论文索引》、《二十世纪辽金史研究百年论文索引》;宋辽夏金元史博士、硕士学位论文索引已有一定成绩。中国宋史研究会秘书处设在河北大学宋史研究中心,会员刊物《宋史研究通讯》每年都要收集当年度的论著索引。

  六、以网络化丰富发展

  作为断代史料数据库,其数字化过程尽量避免毕其功于一役式建设,而应该不断向精细化发展。如果停留在史料录入的初级阶段,必然会被大量通史类数据库所取代,从而失去存在价值,成为重复建设。《宋辽夏金元史数据库》项目设立之初,就是作为教育部省属高校人文社科重点研究基地的标志性成果而开展的,所以承担着为宋史学界提供信息资料中心的责任。因此《宋辽夏金元史数据库》还要与中国宋史研究会的网站相结合,应用系统架构上也要从“C/S”(“客户端——服务器”模式)向“B/S”(“浏览器——服务器”模式)转变,以便于学者通过网页浏览器直接访问数据库,使《宋辽夏金元史数据库》成为治宋史研究者的学术公器。

  小结

  2008年7月,河北大学宋史研究中心与北京国学时代公司签署协议,决定共同投资300万元研制《宋辽夏金元史数据库》。河北大学宋史研究中心与北京国学时代文化传播有限公司双方优势互补、强强合作,《宋辽夏金元史数据库》可以完成对宋辽夏金元时期基本的重要的古籍、碑刻及文物考古图片的数字化使命。《宋辽夏金元史数据库》既注重资料性,也注重工具性和信息性,我们相信《宋辽夏金元史数据库》可以最终建设成具有良好的应用性与专业性、达到国际先进水准的宋辽夏金元史学术研究平台。

  {附记:《宋辽夏金元史电子数据库》后期称为《宋辽夏金元史电子馆》。2010年8月6日,“《宋辽夏金元史电子馆》成果鉴定会”在北京顺利举行,来自中国社会科学院、清华大学、北京大学、中国人民大学、河南大学、首都师范大学、中华书局等单位的多位著名学者,认为本项目成果是教育部重点研究基地与专业古籍数字化公司联合攻关的结晶,该成果的完成和投入使用,对于中国古代史教学科研手段现代化具有重要意义。}

  基金项目:本文为教育部基地项目《宋代地方法制研究》(10JJD770009)、国家社会科学青年项目《宋朝地方司法结构变革与治理效能研究》(11CFX010)的阶段研究成果。

  

Comments are closed.