古籍数字化资源整合与导航库建设

  【内容摘要】古籍数字化资源存在着资源分散、建置单位多元、数据格式多样的特点。古籍数字化资源整合宜采用基于导航系统的数字资源整合方式。古籍数字化资源导航库的建设可从数据库类型、建置单位和数据库主题三种途径进行导航设计。

  【关 键 词】古籍数字化;资源整合;导航库

  【作者简介】毛建军(1971-),男,河南潢川县人。河南新乡学院文学院副教授,博士。主要从事古籍电子文献研究。发表学术论文50余篇,出版著作2部。

  1 引 言

  古籍数字化是随着计算机技术的发展而应运而生的一种新的古籍保存和利用方式。近20年,国内外已开发建设了大量古籍数字化资源。由于古籍数字化资源存在资源类型丰富、开发建置单位多元、格式多样等特点,近几年来古籍数字化资源整合问题已成为古籍电子文献理论研究和实践层面亟待解决的关键问题。在2009年召开的“古籍数字化国际学术研讨会”上,与会专家强烈呼吁尽早成立国家级的电子古籍整理委员会,从而彻底结束“群雄割据”的时代。[1]诚然,成立电子古籍整理委员会对古籍数字化的标准制定、项目的规划、审批与协调以及古籍数字化技术上和资源建设分工上的统一与协作将具有重要意义。但是,电子古籍整理委员会的成立毕竟需要时日,未来三、五年甚至十年是否能够有这样的机构出现,也未可知。此外,即便电子古籍整理委员会已经成立,其主要的工作将是规划与协调古籍数字化工作。而具体到资源的整合与利用恐怕也不是指日可待的事情。因此,笔者认为,建立古籍数字化资源导航库将不失为一条方便快捷、切实可行的资源整合与利用方式。

  2 古籍数字化资源建设的特点

  2.1资源类型丰富性

  已开发的古籍数字化资源类型丰富,从数据载体上看,主要包括磁盘类文献和硬盘类文献。从数据库类型上看,主要包括古籍电子索引、古籍书目数据库和古籍全文数据库。经笔者统计[2],近20年来,国内外利用计算机技术开发研制了近500种古籍数字化资源,其中包括81种古籍电子索引,近148种古籍书目数据库和近270种古籍全文数据库。这些古籍数字化资源包含内容也十分丰富,经、史、子、集均有涉及。

  2.2建置单位多元化

  古籍数字化资源的开发建置单位具有参与部门多元化的特征。参与古籍数字化资源开发建置的单位主要有古籍图书收藏单位、科研院所以及数字化企业。公共图书馆是古籍收藏的主体,古籍资源十分丰富,其开发的古籍数字化资源具有系统性、服务性的特点。科研院所开发的古籍数字化资源主要服务于教学和科研,其开发的古籍数字化资源具有智能性和探索性特色。古籍数字化企业主要有出版社和数字化公司,其中,规模较大的有书同文数字化技术有限公司、爱如生数字技术有限公司和国学时代文化传播公司等,古籍数字化企业开发的古籍数字化资源主要根据市场需求来考虑,多选择使用面较为广泛的大型丛书或经典文献作为选题。

  2.3数据格式多样性

  古籍数字化资源的数据格式具有多样性特征。古籍数据库的存储方式主要有两种:一是图像保存;二是文本保存。图像保存的主要格式有:BMP格式、TIFF格式、JPEG格式、Adobe PSD格式等。文本保存的主要格式有:TXT格式、DOC格式、PDF格式、RTF格式、超文本格式以及基于unicode、仓颉码、Big5码或其他字符集,以HTML、TML等为核心的全方位电子文献全文检索格式。许多数字化企业开发的数字化古籍多数采用了自己开发的专用格式,如北京华康信息技术有限公司的Dyna DocReader格式,北京天安亿友公司开发的EDB格式,超星公司开发的PDG格式,国家图书馆的NLC格式等。此外,各数据库的检索平台也不统一,从而形成数据格式差异,给数据兼容及资源整合带来阻碍。

  3 古籍数字化资源整合模式选择

  实现古籍文献资源共建共享是现代图书馆发展的必然要求。古籍数字化资源整合的最终目标就是为了实现资源共享,提高古籍文献的使用效率,从而最大限度地满足文史研究者对古籍文献信息资源的需求。鉴于古籍数字化资源存在着资源分散、建置单位多元化、数据格式多样化的特点,古籍数字化资源整合宜采用基于导航系统的数字资源整合方式。

  3.1基于导航系统的数字资源整合

  古籍数字资源导航系统是指将多种古籍数字资源的检索入口整合在一起,并提供获取数字资源途径的知识库数据集合。古籍数字资源导航系统可以为用户提供一个很好的查询机制,具有建置简单、成本低廉、方便使用等特点,是数字图书馆资源整合的有效方式。

  古籍数字资源导航系统功能主要是帮助用户更加全面了解数字资源,并提供用户浏览使用。数字资源导航系统不但从学科角度出发对数字资源进行管理,同时还从数据库或者文献类型方面进行分类、描述,提供链接和检索等相关服务。古籍数字资源导航系统可以实现文献分离重组、内容主题等再次序化,从而组成多种导航方式。

  为了使古籍数字资源导航系统达到预期的功能,还要确定导航系统揭示的内容。古籍数字资源内容揭示的详细程度决定了古籍数字资源导航系统的功能。古籍数字资源导航系统一般都有以下几个基本功能:音序浏览功能、分类浏览功能、关键词检索功能。这些功能将帮助用户迅速找到数字资源。古籍数字资源导航系统还必须具有网络超文本链接功能,并利用超文本链接提供检索入口,对该古籍数字资源实现知识发现。超文本链接可以将古籍文献数字资源链接在一起,形成一个具有内在联系的有机整体。此外,古籍数字资源导航系统功能设置还应该注意导航系统的易用性、保证链接的有效性、数字资源导航的规范性等问题。[3]

  3.2古籍数字化资源导航库的建设

  古籍数字化资源导航库的建设可从以下三种途径进行设计:

  3.2.1数据库类型导航库

  数据库类型导航库的第一层可命名为“古籍数据库类型导航”。第二层包括三种数据库类型,即古籍电子索引、古籍书目数据库和古籍全文数据库。第三层为具体某一个数据库名称,第三层的数据库名称可按照音序排列。第三层以下可包括资源简介和资源链接地址。数据库类型导航库的优势在于直观地再现了古籍数字化资源的主要类型,便于文史研究者快速查询到所需要的数据库。下面是古籍数据库类型导航设计示例表:

第一层 第二层 第三层 资源简介 链接地址
古籍数据库类型导航 古籍电子索引 《全宋诗》分析系统 北京大学中文系李铎博士研发。具有重出诗提取、格律诗标注、字及字组的频率、分布统计等功能。 http://chinese.pku.edu.cn/songPoem/
《全唐五代词》索引 南京师范大学研发。作者索引、词牌索引、首句索引、字频表;索引按照《全唐五代词》(中华书局版)编辑,共计2,849首。 http://222.16.80.114/viewstaticres/SysContent7
/d0/dd0/ddd138/807813085138/snap/27.6.htm
古籍题记索引 复旦大学图书馆研发。全文、篇目、书名、作者检索等多项检索功能。 http://www.library.fudan.edu.cn:8080/guji/gjtj.htm
…… …… ……
古籍书目数据库 汉籍目录数据库 东京大学东洋文化研究所建置。共有书目数据112,755条。书名、责任者、主题检索。 http://www3.ioc.u-tokyo.ac.jp/kandb.html
台湾地区家谱联合目录资料库 台湾“国家图书馆”建置。共有书目数据14,986条;书名、编著者、收藏者、出版者、主题检索。 http://rarebook.ncl.edu.tw/rbook.cgi/frameset5.htm
古旧文献检索 湖南图书馆建置。60余万古籍书目数据,书名、著者、主题、索书号检索。 http://220.168.54.219/gujiinfo_DB2.html
…… …… ……
古籍全文数据库 珍罕古籍图像数据库 日本国立国会图书馆建置。至2009年已有957 种,51,000古籍图像数据。 http://rarebook.ndl.go.jp/pre/servlet/pre_com_menu.jsp
甲骨文全文影像数据库 台湾成功大学图书馆建置。系统收录 41,956 笔甲骨文书目及影像数据,可利用分类、关键词及拓片影像等进行检索。 http://muse.lib.ncku.edu.tw:8080/SSO/ResourceStation/pages/index.jsp
明清小说全文库 大连图书馆建置。共收藏明清时小说150种,全文影像阅读。 http://www.dl-library.net.cn/book/list.php?id=4
…… …… ……

  3.2.2建置单位导航库

  建置单位导航库的第一层可命名为“古籍建置单位导航”。第二层可按照国外地区、台湾地区、大陆地区进行导航,其中国外地区可按照日本、韩国、欧美进行导航,台湾地区可按照图书馆、研究机构、高等院校、数字化企业进行导航,中国大陆可按照行政区域进行导航。第三层为具体某一个数据库名称,第三层的数据库名称可按照音序排列。第三层以下可包括数据库类型、资源简介和资源链接地址。建置单位导航库的优势在于全面客观地展示了各个区域的古籍数字化资源的建设成就,便于管理部门进行古籍数据库开发的规划和协调,当然也可为文史研究者提供数据检索。下面是古籍建置单位导航设计示例表:

第一层 第二层 第三层 数据库类型 资源简介 链接地址
古籍建置单位导航 国外地区 汉籍目录数据库 书目数据库 http://www3.ioc.u-tokyo.ac.jp/kandb.html
珍罕古籍图像数据库 全文数据库 http://rarebook.ndl.go.jp/pre/servlet/pre_com_menu.jsp
…… …… …… ……
台湾地区 台湾地区家谱联合目录资料库 书目数据库 http://rarebook.ncl.edu.tw/rbook.cgi/frameset5.htm
甲骨文全文影像数据库 全文数据库 http://muse.lib.ncku.edu.tw:8080/SSO/ResourceStation/pages/index.jsp
…… …… …… ……
大陆地区 古旧文献检索 书目数据库 http://220.168.54.219/gujiinfo_DB2.html
明清小说全文库 全文数据库 http://www.dl-library.net.cn/book/list.php?id=4
…… …… …… ……

  3.2.3数据库主题导航库

  主题导航库是按照古籍数据库的数据内容进行导航的。主题导航库的第一层可命名为“古籍主题导航库”。第二层可按照甲骨文献、金石文献、简帛文献、敦煌文献、明清档案、科技文献、综合数据库等进行导航。第三层为具体某一个数据库名称,第三层的数据库名称可按照音序排列。第三层以下可包括数据库类型、资源简介和资源链接地址。主题导航库的优势在于分门别类地展示了各个研究领域的古籍数字化资源,大为便利于文史研究者进行数据检索。下面是古籍主题导航设计示例表:

第一层 第二层 第三层 数据库类型 资源简介 链接地址
古籍主题导航 甲骨文献 甲骨文拓片数据库 全文数据库
甲骨文全文影像数据库 全文数据库
…… …… …… ……
金石文献 石刻拓本数据库 全文数据库
殷周金文数据库 全文数据库
…… …… …… ……
简帛文献 …… …… …… ……
敦煌文献 …… …… …… ……
明清档案 …… …… …… ……
科技文献 …… …… …… ……
…… …… …… …… ……
综合数据库 …… …… …… ……

  当然,以上三种导航模式仅仅是为参考性质。古籍数字化资源导航模式的选择可以是多样性的,各图书馆和研究机构可根据本单位实际选择导航模式。

  4 结语

  古籍数字化资源导航库的建设是一种既切合实际又经济的古籍数字化资源整合方式。不过,其前提是,必须对国内外已经开发建设的古籍数字化资源进行准确调查。多年来,国内外学者一直呼吁有关部门整合相关人力对古籍数字化资源进行全面调查,统计出一个较为完整的古籍数字化资源的数据资料,但这一理想至今也未能实现。笔者于2009年出版有《古籍数字化理论与实践》一书,书中的附录部分统计并罗列出近500种古籍数字化资源。不过这个数字的截止统计时间为2007年12月。最近三年,国内外又开发出近300种古籍数据库。当然,凭一人之力所做的统计肯定是挂一漏万,很多古籍数据库由于种种原因必然为笔者所不能统计,其中甘苦与哀叹自是无法言表。希望这篇小文能够起到一定的抛砖引玉功效。

参考文献:

[1]李桃.专家呼吁成立国家级电子古籍整理委员会[N].中国社会科学报, 2009-09-10:02

[2]毛建军.古籍数字化理论与实践[M].北京:航空工业出版社,2009:99-149

[3]黄晓斌,夏明春.数字资源整合方式的比较与选择[J].情报科学,2005(5):690-695

Construction of Navigating Database and Resources Integration on Digitization of Ancient Books

Mao Jian-jun
(Literature institute Xinxiang University, Henan Xinxiang, 453000)

  Abstract: It is characteristics to digitization of ancient books that resources is scattered, build units is multiple, and the data format is diverse. Navigating database is better mode resources integration on digitization of ancient books. There are three mode resources integration, i.e. database type mode, build units mode and theme mode.

  Key words: digitization of ancient books; resources integration; navigating database

(作者单位:河南新乡学院)

  

Comments are closed.