大陆古籍数字化的现状及存在的问题

杨 琳

内容提要】典籍的数字化是图书未来的发展方向。大陆的古籍电子化工作大约是在20世纪90年代末才起步的,但发展迅猛,至今已有一万多种古籍实现了电子化,为人们利用古籍提供了极大的便利。但也存在不少问题。如僻字不能录入显示、检索程序的技术水平有待提高、与常用字处理软件的兼容性不尽如人意、符合理想标准的电子古籍还不多见、大型网络古籍数据库需要安装专用的浏览软件、不少大型古籍需要制作成电子文本,等等。本文就这些问题提出了改进建议。

关键词】古籍数字化图书

 

  正如纸的出现结束了竹书的时代一样,数字技术的出现必将取代纸书的主流地位。对现代汉语而言,报刊书籍的数字化制作目前已达到了百分之百,只是最终形式还是多采用大家熟悉的纸质印刷品而已。随着著作权法的进一步完善,网络的不断普及,电子阅读器等终端产品的大量出现,方便廉价的电子图书将会越来越多。但对古代典籍而言,数字化的进程相对要缓慢一些,这不仅是由于受市场需求的制约,同时也存在着技术障碍。不过形势还是十分喜人的。下面我们把大陆数字化古籍的现状进行一番盘点,看看发展到什么地步,存在一些什么问题,以促进古籍数字化的深入发展。

一、磁盘数字化古籍

  与港台相比,大陆的古籍电子化工作起步较晚,大约在20世纪90年代末才陆续上马,但发展迅猛,大有后来居上之势。北京书同文数字化技术有限公司研制了文渊阁《四库全书》(与迪志文化出版有限公司合作,2000年完成)、《四部丛刊》(2001年完成)、《历代石刻史料汇编》(2004年完成)、《十通》(2004年完成)、《大清五部会典》(分别编撰于康熙、雍正、乾隆、嘉庆、光绪五朝)、《大清历朝实录》等电子文献。电子版《四库全书》把原文转化为电子字符,有全文(逐字)、分类(经、史、子、集)、书名、著者四种检索模式,每种模式下还可以进行“与”(同现一卷)“或”(可只现其中一项)“非”(排除其中一部分)三种高级检索,电子字符可与图版进行对照。《四库全书》的数字化是古籍数字化进程中具有里程碑意义的一件大事,为古籍的数字化制作树立了标本,积累了经验。《四部丛刊》除了具有与《四库全书》相同的检索功能外,还提供摘要、笔记、纪元换算及简、繁、异体字相互关联查询的功能。《历代石刻史料汇编》全文版采用当代数字化最新技术制作,中、日、韩汉字大字符集文字平台,也有高级检索功能。

  1998年成立的北京爱如生数字化技术研究中心是大陆很有实力的古籍数字化专业公司,它制作完成的数字化古籍总数在3万种以上,是目前大陆制作古籍最多的公司。爱如生有一个庞大的古籍数字化规划,其网站上公布的古籍数据库有:

大型数据库
 中国基本古籍库 中国经典库 中国方志库 中国谱谍库 中国丛书库 中国金石库 中国俗文库
数字古典
 敦煌遗珍 明清实录 永乐大典 道教全书 宋会要辑稿 辑佚书合编 古今图书集成 清帝朱批奏折
 历代笔记汇纂 增订四部备要 全四库 古版画
系列数据库
别集丛编系列  汉魏六朝人别集丛编 唐五代人别集丛编 宋人别集丛编 金元人别集丛编
 明人别集丛编 清人别集丛编 民初人别集丛编
国学要籍系列  易学要籍 诗经学要籍 尚书学要籍 三礼学要籍 春秋学要籍 四书学要籍 小学要籍
断代史料系列  秦汉史料库 六朝史料库 唐五代史料库 宋辽金史料库 蒙元史料库 明代史料库
 清代史料库
古典大观系列  古典散文大观 古典骈赋大观 古典诗歌大观 古典词曲大观 古典戏剧大观
 古典小说大观 古典评论大观

地方文献系列  山东文献 山西文献 河北文献 河南文献 湖北文献 湖南文献 安徽文献 江西文献
 江苏文献 浙江文献 福建文献 广东文献 四川文献 云南文献 陕西文献 台湾文献
 广西文献 贵州文献 甘肃文献 辽宁文献 上海文献 北京文献
诸书集成系列  兵书集成 官箴书集成 法律书集成 典制书集成 邦计书集成 禅宗书集成 医书集成
 农书集成 天算书集成 水利书集成 日用书集成 术数书集成 赏鉴书集成 类书集成
 辞书集成 目录书集成 博物书集成 清真书集成 艺术书集成

  这些数据库有些已经完成,有些正在进行。1998正式启动的“中国基本古籍库”光盘工程是对中国古典文献进行数字化处理的一项宏伟工程。该项目由北京大学中国基本古籍库工作委员会和北京爱如生数字化技术研究中心连手制作,安徽黄山书社出版,共收录上自先秦下至民国初年(公元前11世纪—公元20世纪20年代)的历代典籍1万种,每种典籍均提供1个通行版本的全文和1至2个重要版本的图像,全文约18亿字,版本1万2千多个,图像1千多万页,数据量约400G,内容总量约等于3部《四库全书》。该库将所收典籍分为哲科、史地、艺文、综合4个子库,20个大类,近百个细目。该光盘从2003年开始出版,到2005年10月全部出齐,共10辑。出版后数据库又不断加以完善,最新版是2006年12月推出的5.0版。

  该数据库对三类图书不予收录:1.丛书。因其内容与已收单本重复。2.篇幅超过千卷之书。因其部头太大,占用资源太多。3.图表为主之书。因其难以数字化。

  这套数据库的特色是:

  其一,检索方便快捷。中国基本古籍库开发的ASE古籍专用检索系统提供三种检索方式:一、分类检索,根据内容分为哲科、史地、艺文、综合四类;二、条目检索,有书名、作者、时代、版本、篇目五个选项;三、全文检索,有类目、书名、作者、时代四个选项。这套检索系统是目前最为完备的古籍检索系统,便于筛除无用信息,实现精确检索。

  其二,使用功能众多。例如在浏览原文时,可以加圈加点,加中文、英文或日文批注;可根据需要调阅数个版本,实现全文版与图像版以及图像版与图像版的对照;可按页码翻上翻下,也可点击目录框跳转至所选卷、篇、标题;可自动记录二十条前次浏览的典籍及页码,以便重新检阅;可自由设定竖排或横排、有列线或无列线的版式,以适应不同读者的阅读习惯;可自动收藏并分类管理以前查阅的信息,方便归纳研究;可实现文字的繁简、粗细及色彩的自由转换,并可随意缩放;可复制全文或章节进行校改、标点、注释,并可打印;可通览所收典籍的基本情况及内容提要,并可在选定后查看原书;可通览一万种典籍作者的概况,双击作者可检索所收该作者的著作;可查询所收典籍的现存版本及收藏地点;可利用随机的语音字典查阅所收典籍中难字的发音和释义。

  其三,该程序有两个特别机制:1)纠错机制。凡成品数据有讹脱衍倒之处,在接到用户的举报后,即可通过纠错盘予以更正,使数据焕然一新,日臻完美。2)扩充机制。程序预留了多个接口用于扩充数据。用户可从“使用帮助”窗口提供的数达3万种的“可供添加书目”中选购所需,也可从自己拥有的特色藏书中选择所需,挂在程序之上,实现数据的无限扩张,建设既有基本古籍,又有特色古籍的个性化的数字图书馆。

  其四,数据可运行于中、英、日、韩多语种操作平台。

  “中国经典库”分儒经、佛典、道藏、子书4编。儒经编收录儒家经典3000种,佛典编收录佛教经典4000种,道藏编收录道教经典2000种,子书编收录诸子百家之书1000种,共计1万种。全文总计超过10亿字。

  “中国方志库”计划收录汉魏至民国时期的历代方志1万种,包括全国总志、各省通志、府州县志、村镇里巷志、山川名胜志、风俗乡土志等,覆盖全国近两千个县市。该数据库有分省和分集2种形式。分省即按现行行政区划的32个省市自治区分为32编,分集即按所收方志内容分为5集,其中4集为省府州县志,1集为全国总志和各类专志、杂志、外志。每种地方志均提供全文数据和原版图像,堪称数字化中国地方志的渊薮。“中国方志库”提供分类、区域、条目、全文四条检索路径。区域检索通过中国现行行政区划的省、地、县三级地域查到相关的方志,条目检索限定书名、时代、作者、版本等条件查到相关的方志,全文检索输入任意字、词或字符串进行检索,可检索到所收方志中全部相关资料,并可预览其摘句。如综合各种关联选项进行精确检索,可排除大量无关资料。现已出版浙江、江苏、广东、上海(以上2005年推出)、山东、山西、福建、辽宁、吉林、黑龙江、北京、天津、海南、湖南、安徽(以上2006年推出)15省市自治区的方志初辑。

  “中国谱牒库”收录家谱(宗谱、族谱、世谱、家谱、家乘等)、年谱(年谱、年表、行实、自述等)和日谱(日谱、日记、日录、日札等)三类著作,共精选宋元明清历代家谱类著作8000余种、年谱类著作1000余种和日谱类著作600余种,合计近万种。每种皆据善本制成数码全文,附以原版影像,总计超过20亿字。

  “中国丛书库”分为初集、二集、三集,共精选300部最具文献价值和版本价值的综合类、专门类及地域类丛书,经过汰重取优,从中采录罕见和实用的历代典籍1万种。每种皆据善本制成数码化全文,附以原版影像,全文总计15亿字。

  “中国金石库”收录上古至民国初年历代金石文献,其中金石拓片10万件,金石志书1千种。每种(件)各据善本(原件)详加订释,制成数码全文,附以高度清晰的原版影像和可以360度旋转观察的原件影像。全文总计超过3亿字。

  “中国俗文库”收录千百年来在民间广泛流传的俗文学作品与俗文字数据,如小说、话本、戏文、鼓词、俗讲、宝卷、善书、规约等。俗文中蕴含着雅文化所缺乏的下层社会生活和基层民众心理的丰富信息,是研究中国社会史、生活史、宗教史、文学史的宝贵资源。“中国俗文库”分为初集、二集、三集、四集,初集收录小说和话本,二集收录戏文和鼓词,三集收录俗讲和宝卷,四集收录善书和规约,合共1万种。每种皆据善本制成数码化全文,附以原版影像,全文总计8亿字。

  “全四库”共收录先秦至乾隆的历代典籍8900种,全部采用现存善本制作,其中宋本33种,元本34种,明本2664种,清本6106种,民国本51种,外国本12种,孤本约3成。所收之书包括四库著录书3460种(其中3458种采用《文渊阁四库全书》写本,2种以清刻本补配)、四库存目书4746种,四库禁毁书527种,四库未收书167种,并全文录入《四库提要》及办理销毁奏折原文。

  2003年,北京国学时代文化传播有限公司与商务印书馆联合推出“中国历代基本典籍库”大型数据库系列光盘。全套光盘分“先秦两汉魏晋南北朝卷”、“隋唐五代卷”、“宋辽金元卷”、“明清卷”四辑出版,共收录三千多部古代典籍,总字数达6亿。此套光盘以WINDOWS系统为平台,使用GBK字库。另附有专用图形字库,光盘中收录的古代文献所涉及的全部汉字及图形,在该系统下均可正常显示和打印。所有收录的文献均经过专业校对,并辅以先进的搜索引擎,查询资料非常方便。现已面世的是“隋唐五代卷”,收入公元581年至960年间现存的重要文献,包括诗文总集、唐人注疏、史籍选要、野史笔记、地理文献、艺术著作、诗话、类书等九类,共136部,计8千多万字,涵盖了隋唐五代政治、经济、文化、军事等社会生活的各个方面。每部书都配有提要,便于读者对使用的典籍有一个基本的了解。

  国学公司还制作了《文献目录典》、《地理文献典》(收历代地理著作90种)、《中国古代小说典》等专题光盘。《文献目录典》收入史志目录、官藏目录、私藏目录等有关文献目录方面的古籍40多种,并附历代丛书子目、《国家图书馆善本书目》以及《全上古三代秦汉三国六朝文》、《先秦汉魏晋南北朝诗》、《全唐诗》、《全唐文》、《全宋诗》的篇目、作者索引。《中国古代小说典》光盘收录中国古典小说549种,其中文言小说394种,白话小说155种,总字数约八千万字。附录中收录了《敦煌变文集》、《四库全书总目提要》以及多种小说提要的书目。这些光盘均具有全文检索、复制及打印的功能。

  国学公司还从普及的角度推出了《国学备览》、《国学备要》等价廉物美的电子产品。《国学备要》是一张面向文史哲专业的大学生、研究生及文史研究人员的古籍文献检索光盘,共收录研究人员常用的古籍280部,其中有《二十六史》、《十三经》、诸子(包括《艺文类聚》、《初学记》、《太平御览》等)、诗文集(如《全唐诗》、《敦煌变文集》、《全唐五代词》、《全宋词》、《太平广记》)等,总字数超过1亿5千万字,随文配有3千余幅插图,具有全文检索、打印、复制等功能,并内置了联机字典。

  最近,国学公司又推出了《国学U盘智能图书库》系列U盘图书,有10多种型号供使用者选择,不同型号收书种类有别,其中也包括《国学备览》和《国学备要》。U盘图书配有图片和音乐,还有真人发音字典及人名、书名、地名、帝王年号等专题知识库,数据采用Unicode编码,可在各种版本的Windows下使用。

  我国现存最大的古代类书《古今图书集成》也有电子版,该电子版由广西金海湾电子音像出版社和广西师范大学出版社于1999年联合出版,共27张光盘,只是原文图版。为了便于检索,另编有索引数据库。该索引数据库是在印刷版索引的基础上进一步扩充改进而成的,共有近37万条记录,约1200万字,分为38个子库,是一个编制得相当精细的索引体系。该索引数据库分为“经纬目录”和“索引目录”两大部分。经纬目录是将《古今图书集成》原有的40卷目录改编为电子索引,供熟悉原书检索体系的检索者使用。在编制经纬目录的过程中,编者作了大量增补、校正、注释、参见的工作,并注明了原文在电子版和两种印刷版(1934年中华书局出版的线装本和1985~1988年中华书局与巴蜀书社联合出版的精装本)中的具体卷、册、面、块。索引目录分为37类,即37个子数据库,属主题范畴分类性质。经纬目录和索引目录均提供现代术语与古代术语的对应转换功能和模糊检索功能,并且两个目录之间可以沟通。

  金文资料的数字化也已开发完成。由陕西省考古研究所和西安大东国际数据有限公司合作研制的《金文字库及金文资料全文检索系统》收集金文约2600字,隶定金文4500字,隶定字有宋体、黑体、仿宋、幼圆等字体,输入法有拼音输入法、五笔输入法、仓颉输入法,并建立了部首导入法;金文资料收入自宋代以来传世和出土的商周时期(下限到公元前221年秦始皇统一中国止)青铜器上的金文资料约12000篇,青铜器图像约11000幅,另有相关的简介文字(包括器物名称、出土时间、出土地点、收藏单位、尺寸重量、花纹描述等)约120万字,铭文拓片12000幅,释文180万字。金文全文资料库的操作界面适应一般文史工作者的习惯,实现了多种形式的浏览和输出,解除了金文研究只能在纸上手写不能在电脑上操作的苦恼。但该软件迄今尚未正式出版,人们无从利用。

  不过由华东师范大学中国文字研究与应用中心研制的《金文语料库》已于2003年由广西教育出版社正式出版,该软件收录了目前见到的绝大多数金文资料,可以全文检索任意字、词、句,可以根据时代检索,可以根据器名检索,可以跟图版进行对照,还提供检索词条的出现次数,检索功能相当强大,能够满足多方面的检索需求。华东师范大学中国文字研究与应用中心还研制了《战国楚文字数字化处理系统》(上海教育出版社2003年出版)、《说文全文检索系统》(包含《玉篇》和《万象名义》,广州:南方日报社2004年出版),也是检索功能非常强大的电子古籍。

二、网络数字化古籍

  除了磁盘版的数字化古籍外,还有大量数字化古籍是网络版的。网络版具有易于维护升级、资源利用率高、节省用户电脑资源等特点,应该是电子古籍未来的发展方向。事实上上面介绍的一些大型磁盘数字化古籍也有相应的网络版,如“四库全书”、“中国基本古籍库”等。

  大陆电子文献最丰富的网站是“爱如生”,该网站的“典海”栏目是现今世界上规模最大的以中文古籍为主的数字图书馆,计划收录先秦至民国十年的历代典籍5万种(不收民国十年以后对上述典籍的点校、注释、今译之类著作)。典海下设3个阅读平台:

  (1)快读堂——提供断句本数字典籍,总计5千种。

  (2)拾箐苑——提供全文本数字典籍,总计2.5万种。

  (3)琳琅阁——提供影像本数字典籍,总计5万种(其中3万种为断句本和全文本所据底本)。

  出于传承中华文化、振兴传统学术的考虑,典海目前提供三项免费服务:断句本典籍可免费阅读,免费下载;全文本典籍可免费阅读(但下载须付费);影像本典籍可免费阅读。

  爱如生网站还配有“搜神”搜索引擎,可对站内古籍进行全文搜索。

  龙语瀚堂典籍数据库是古籍数字化制作中涌现出来的后起之秀。传统的计算机二字节编码技术只能处理2万多个汉字,对大量的生僻字无能为力。该数据库采用unicode扩展技术,使计算机可处理的汉字种类的总量达到7万字,基本解决了生僻汉字在计算机平台上无法录入、显示、编辑的难题。这是目前大陆唯一可在微软平台上支持超大字符集、可进行自然语言全文检索、实现编辑功能的古籍数据库,差错率控制在1/10000以内。所收典籍分为“小学工具”、“出土文献”、“传世文献”、“专题文献”四部分,不少典籍还有图版对照,使用通用浏览器即可浏览、检索和复制,无需下载任何客户端软件。下图是龙语瀚堂典籍数据库的总体构架及检索页面:

  可以看出其规划是相当宏伟的,志在将古典文献一“网”打尽。现已上传的典籍中最具特色的是小学类典籍及出土文献,因为这类典籍僻字、俗字成堆,难以实现数字化,大多数古籍数据库不愿收录,即使收录了,很多字也无法录入显示,不能正常使用,龙语瀚堂则解决了这一瓶颈。现已上传的这类典籍有《说文解字》(大徐本)、《龙龛手镜》、《康熙字典》、《尔雅音图》、《集韵》、《广韵》、《五音集韵》、《甲骨文合集》、《甲骨文编》、《小屯南地甲骨》、《殷周金文集成释文》、《金文编》等。

  中国国家图书馆网站的电子文献也比较丰富,有“中文拓片资源库”、“地方志资源库”、“IDP数据库”、“甲骨资源库”、“西夏文献资源库”、“年画资源库”等,另有大量常见古典文献,都可免费查阅。

  “中文拓片资源库”现有元数据23000余条,影像29000余幅。资源库内容以刻立石年月排序,提供单一字段的简单检索、多条件限定组合的高级检索和元数据内容关联检索等查询方式。

  “地方志资源库”由全文影像库、全文文本库、书目库、地名库、作品库、景观库、插图库、事件库和相关文献库等构成,全部建成后可为用户提供方志资源的多样检索,如全文、书目(含卷目)、地名、人物、作品、景观、插图、事件等单项与复合检索,支持并实现与其他数字图书馆资源库的关联检索和跨库连接,最终形成内容丰富、检索便利的馆藏数字方志资源库。

  IDP是英文International Dunhuang Project的缩写,汉语意思是“国际敦煌学项目”。该数据库由英国图书馆于1993年开始开发,计划逐步将世界上各机构收藏的敦煌文献全部数字化。IDP数据库用精密的数码扫描设备将敦煌写卷制成一幅幅高清晰的图像,能展示写卷的全部内容——正面、背面,甚至没有文字的地方,图像的清晰度与看原卷没有区别。学者可以随意地从屏幕上获得高质量的彩色图像,而且放大之后,过去用放大镜不易观察的字的细部、墨的层次、纸张的纤维等问题都可借助新技术迎刃而解。1998年10月,IDP网站正式运行,至今已上传5万幅写卷、绘画、艺术品、丝织品、老照片、地图的图像,还有相关的目录信息,用户可从网上进入IDP数据库免费检索,还可查阅敦煌学研究论著目录。IDP在伦敦、北京、圣彼得堡、京都以及柏林都设有中心,各中心负责数据库和网站的维护、更新及质量监控。

  国学网是一个为国学研究提供资讯的网站,网上有可进行全文检索的大型古籍数据库《国学宝典》。该数据库由北京国学时代文化传播有限公司制作,收录了自先秦至清末的古籍3800多种,总字数超过8亿字。目前仍在不断扩充,其目标是建成一个包含所有重要中文古籍的全文电子数据库。《国学宝典》原为单机版,2005年2月推出了网络版。系统使用unicode大字符集,生僻字及特殊文字如篆文、蒙文等都用图片的方式来处理。古籍中配的大量插图整卷显示时可与文字同屏显示。

  国学网上还有不少中国古代经史子集各类典籍供免费阅览,如《十三经》、《二十五史》、《资治通鉴》、《续资治通鉴》、《全唐文》、《全唐诗》、《全宋词》、《文选》、明清小说、佛教典籍、道教典籍等,这些资料只能按篇名或卷数浏览,没有字词检索功能。网站另有收费会员专区,提供《二十五史》、《十三经注疏》、《全唐诗》、《全唐文》、《全宋词》、《宋辽金元诗歌》、《明清诗歌》等典籍的在线全文检索。

  北京大学中文系研制了《全唐诗》(包含“全唐诗补编”和“唐前诗及乐府诗集”)及《全宋诗》全文检索系统,《全唐诗》全文检索系统在其网页上免费供外界使用,《全宋诗》全文检索系统仅提供试用,试用系统只能检索到部分诗歌。希望这试用期早日结束,让外界能利用到《全宋诗》的全部资源。

  南开大学组合数学研究中心、天津永川软件技术有限公司、中国社会科学院计算机网络中心联合研制了“二十五史全文阅读检索系统”网络版,国内有些单位购买了这一系统,供内部使用。该系统文本差错少(也有差错。如《晋书·甘卓传》的“察孝谦”,“谦”原文作“廉”),正文与注文采用不同的字体及颜色显示,非常醒目。

  佛教典籍以中华佛典宝库网站最为丰富,除《大藏经》外,还有藏外佛典、佛学辞典、佛教图片、佛教音乐等,提供浏览及下载服务。中国数字图书馆已将《中华大藏经》上编(共106册)放到网上,供免费阅览。

  道教的典籍以宁波广播电视大学外语系的网页提供的比较丰富,可以下载《道藏》(36册,文物出版社、上海书店、天津古籍出版社,1988)、《藏外道书》(36册,胡道静等主编,巴蜀书社,1992—1994)等大量道教典籍的PDF文档。

三、存在的问题及改进建议

  从上面的介绍来看,我国重要的古籍大都已有了电子文本,包括传世典籍和出土文献,这给人们利用古代典籍提供了极大的方便,对中国传统文化的学术研究起到了有力的促进作用。如今的学术研究如果不知道充分利用电子文献,那就意味着效率上的少慢差费,成果的创新性及可靠性也要大打折扣。

  不过,目前制作的电子古籍还存在不少缺陷。

  其一是绝大部分电子古籍未能解决僻字的录入显示问题。遇到无法录入显示的僻字,或者用方框、黑块等符号表示空缺,或者用数字代替,链接到字形图片,或者说明偏旁的上下左右内外等,给阅读利用造成障碍。下图是国学网《国学宝典》《尔雅·释鱼》中的一条:

  僻字用编号代替,开头部分还是乱码。最新的全功能试用版也是如此。

  下图是书同文制作的电子版《四库全书》中《集韵·东韵》的一页,□表示不能录入显示的字,一页上就有22个字无法显示。

  这方面作得最好的是龙语瀚堂典籍数据库,大部分僻字都能正常显示。如上面《尔雅?释鱼》的那一条,龙语瀚堂典籍数据库中显示为:

  尽管如此,不能显示的字也仍然存在。如下图中的黑块就是无法显示的字:

  看来解决僻字的录入显示问题仍然是数码技术急需攻克的难题。

  其二是检索程序的技术水平有待提高。一个好的检索程序不但要速度快,还要能满足多种条件的检索需求。比如按朝代(当然更精确的是年代)检索的功能在学术研究上非常有用,可惜目前除中国基本古籍库的检索程序提供这一功能外,大多数检索程序都没有这一功能。最近《国学宝典》的全功能试用版加入了按范围检索(分经、史、子、集、其他)和按年代检索(分秦以前、两汉、魏晋南北朝、隋唐五代、宋辽金元、明、清、近代八段)的检索的功能,这使数据库的利用价值有了较大提到。

  检索的准确性也是衡量检索程序的一个重要标准,但大多数的检索程序的准确性难以令人满意。比如在《四库全书》中检索含有“籑”字的资料时,大量含有“撰”“馔”的资料也一并检索出来;检索“尺子”时,“尺予”、“尺于”、“斥予”、“斥于”、“斥子”等条目混杂其中,而且这些无关的条目还无法排除。另一方面,一些应该同时检出的异体字,程序却视为不同的字而不能检出,出现漏检的情况。如“狼跋”俗体也写作“狼?”,当以“狼跋”为检索词时,“狼?”的资料检不出来。有些关键词明明在所收文献中存在,但检索程序就是检不出来。

  其三是与常用字处理软件的兼容性不尽如人意。检索出来的资料人们一般是要复制到WORD等字处理软件中使用的,然而有些数据库的资料复制粘贴后会发生错误。例如不少古籍带有注文,注文一般是随文用小字表示。当你把《四库全书》中复制的带注文的资料粘贴WORD中时,所有的注文都跑到正文的末尾之后,而不在原句之下,使你分不清楚哪是正文哪是注文。即便知道是注文,也不清楚是哪句正文的注文。不得已,还得跟数据库中的原页面仔细核对。大陆的使用者一般要把复制的繁体字资料转换为简体字,但这种转换会发生错误。如用WORD的繁简转换工具把《四库全书》中复制的“譙國華佗字元化”整体转为简体时,“元”被转换成了“符”,令人莫名其妙。龙语瀚堂典籍数据库中的有些僻字复制粘贴到WORD后会走样,如上例《尔雅》中的字复制到WORD后变成了鰴。

  其四,理想的电子古籍应该用繁体字录入显示,尽可能保存底本文字的原样(如俗体),加上标点,能全文检索,并有相应的图版页面可随时对照,但目前能达到这一标准的电子古籍几乎没有。有的只是图版,只能浏览,不能检索,如《古今图书集成》、《道藏》等。有的只是电子字符,没有图版可供对照。如《国学宝典》使用简体字,没有图版,使用价值为之逊色。国学公司意识到这一缺陷,最近又推出了《国学宝典》的繁体版。但把简体转换为繁体时会出现各种差错,希望能作好校对工作。《四库全书》虽然是繁体,而且有图版对照,但没有标点。有些繁体数据库在检索时只能输入繁体字条目,如果输入简体,或者检索不到,或者不是你想检索的资料。这也需要改进,应该是输入简体繁体均可。爱如生的搜神引擎有“简繁体字转换”和“异体字关联检索”的选项,这种人性化的功能值得各种搜索引擎借鉴。

  其五,数据库使用的便捷性有待提高。不少大型网络古籍数据库需要安装专用的浏览软件,这给使用者造成不便。理想的状态应该是用常用浏览器(如IE)就可浏览,事实上龙语瀚堂典籍数据库也已经做到了这一点,建议其他数据库的研制者借鉴龙语瀚堂的成功经验。当然如果能研制出一个更切合古籍浏览的通用软件也未尝不可,但目前各自为政的做法实不可取。另外,使用者在复制资料的同时需要具体的出处,但绝大多数数据库都不提供直接拷贝出处的服务,需要引用者自己逐项查找,如作者、书名、卷数、篇名等,非常麻烦。《四库全书》数据库倒是提供出处拷贝服务,遗憾的是只有书名和卷数,过于简单。有些数据库对复制原文防范过严,如“中国基本古籍库”不能直接复制,须另外打开“下载编辑”窗口才能复制,而且每次最多只能复制200字,很不方便,建议修改为能复制全部当前页。

  其六,内容方面的缺憾。虽然数字化的古籍已经很多,但大多数是元代以前的典籍,明清典籍所占比重很小。这是因为大多数数据库是在《四库全书》的基础上建立起来的,《四库全书》收书的原则是贵远贱近,明代典籍很少,清代典籍更少,而这两代的典籍加起来至少是此前所有典籍的总和的两倍。而我们今天想检索明清时期的资料时却没有大型数据库可供利用,对学术研究极为不利。那么,哪些古籍可以弥补这方面的缺憾呢?由于目前还没有编纂出明清著述总集,建议先把下面这些大型丛书制作成数字古籍:《续修四库全书》、《四库全书存目丛书》、《丛书集成初编》及《续编》、《近代中国史料丛刊》等,这些丛书的使用价值是很高的,如果把它们制作成了数字版,明清资料检索的困难可以得到很大的缓解。

  另外,宗教文献也亟待数字化。《道藏》目前只有图版,建议把最新整理的《中华道藏》制作成数字版。《大藏经》虽然有数字版,但采用的底本是日本铅字排印的《大正藏》,错误较多,建议把学术价值比较高的《中华大藏经》(中华书局1984—1997)制作成数字版。其他如甲骨文献、敦煌文献也都需要数字化。

  我们期待有志于古籍数字化事业的人士尽早将这些大型文献制作成理想的数字文本,这将是一项利在当代、惠及千秋的功绩,那些化巨额资金打造“金书”以哗众取宠的做法跟这一功绩相比,是不可同日而语的。

作者单位】南开大学文学院