古籍数字资源库的规范化建设

  

  【内容提要】规范化建设是推动古籍数字资源共建共享的重要基础,更是促进古籍数字化快速、经济和可持续发展的重要保证。本文在分析古籍数字资源库规范化建设重要性的基础上,研究古籍数字资源库规范化建设的相关内容。

  【关 键 词】古籍数字化;古籍数字资源库;规范化建设;

  【作者单位】葛怀东,金陵科技学院人文学院(江苏南京  210038)
        徐清华,南京航空航天大学图书馆(江苏南京  210016)

1 引言

  我国自上世纪80年代开始开展古籍数字化工作,经过几十年的建设与开发,取得了较为显著的成果,一些大规模、具有代表性的古籍数据库陆续投入使用,并形成较为成熟的古籍数字化加工技术。在取得成绩的同时,古籍数字化建设中的问题仍然凸显,表现为缺乏统一规划、重复建设严重,缺乏统一标准、阻碍资源共享,区域发展不均等。

  当前,正值国家古籍保护中心及相关文化机构大规模开展古籍数字化之际,而规范化建设能够推动古籍资源库的开发在数据采集、加工等各个环节走上科学化、专业化的发展轨道,更是推动古籍数字化工作可持续发展的内在动力。

2 古籍数字资源库的建设

  古籍数字化资源是数字图书馆资源中重要的组成内容。在各类文献中,古籍独具特色,蕴含着独特的文献价值、艺术价值,彰显着古老文明的魅力。而古籍的数字化服务能够有效解决古籍保护和利用的矛盾,是传承文明、服务社会最重要的方式之一。

  古籍数字资源库是对古籍及古籍内容的再现,是古籍再生性保护的重要途径。开发古籍数字资源库,就是将古籍的特点与信息技术的优势相结合,让经过加工后的古籍数字资源保持原有的文化特征与内涵,实现从古籍影像的数字再现到古籍内容的分析、聚类,从单一古籍内容的处理到海量文献的信息重组,从简单的文本转换到知识挖掘。可以说,建成后的古籍数字资源库是基于内容整合、有序的数字资源集合,从而帮助研究者更好地进行古籍文献资源的知识建构。

  作为基于网络环境提供数字资源和服务的系统平台,古籍数字资源库的建设需要遵循有关数字化加工、资源描述、资源组织、资源互操作和资源服务等方面的规范及作业指南,以推动古籍数字资源的共建共享并形成规模效应。因此,古籍数字资源库的建设应着眼以下三个方面:

  ⑴ 可使用性 即古籍数字资源库所提供的资源或服务能够在广泛的网络环境和复杂的技术条件下可以为用户方便地使用;

  ⑵ 互操作性 即古籍数字资源库所提供的资源或服务能够在更大系统范围上、能与其它资源或服务方便、有效的交换、转换、整合,从而为用户提供逻辑上的集成服务。

  ⑶ 可持续性 即古籍数字资源库所提供的资源或服务能够在不断发展的技术与运行机制下长期保存和使用,并与未来的资源与服务环境相融合。

3 古籍数字资源库规范化建设的重要性

  作为保护与传承珍贵古籍的重要手段之一,古籍数字化可以真实、清晰地反映古籍原貌,并借助网络等媒介提供大众使用,从而促进古籍传播,开创古籍利用与服务的新模式。从我国现已完成的古籍数字化成果来看,由于最初采取的是封闭式建设模式,各单位多执行自己的标准及规范,以至于所开发的古籍数据库在著录格式、数据格式、文字编码等方面均存在差异,且互不开放,造成众多古籍数字资源不能资源共享。因此,迫切需要加快古籍数字化规范化建设进程,以便增强古籍数字资源库的通用性和共享性。

  2007年国务院办公厅在《关于进一步加强古籍保护工作的意见》(国办发[2007]6号)中就明确指出,要“规范古籍数字化工作,建立古籍数字资源库”。古籍资源库的规范化建设是针对古籍数字资源的采集、加工、保存等开发过程,所提供的一套规范、合理、科学的建库支撑体系,以提高古文献数据的有效利用率和可整合性。在古籍数字化的过程中,规范化建设能够为古籍资源库的开发在质与量两方面提供技术规范和共同遵守的准则,使古籍数字化项目在各个环节做到“有章可循”,从而实现数据加工业务的流程化,技术实现的标准化,质量控制的工程化,共享与服务的系统化。推进规范化建设,可以引导古籍数字化尽快适应当今对古籍资源开发利用的共享趋势,并朝着专业、科学开发的方向迈进。

  2011年,文化部发布《关于进一步加强古籍保护工作的通知》,要求加快古籍的数字化建设。目前,国家古籍保护中心和各省级古籍保护中心正着手进行“中华古籍数字资源库”建设,第一阶段拟从《国家珍贵古籍名录》入手,在5年内完成1万种国家级珍贵古籍名录数据和影像数据的建库工作。为保证数字化古籍资源及服务在整个信息环境中的可利用、可互操作和可持续发展,迫切需要加快古籍数字化工作规范建设的进程,以便增强古籍数字资源库的通用性和共享性。

4 古籍数字资源库规范化建设的内容

  随着古籍数字化工作的不断深入,古籍数字资源库的规范化建设已不再仅局限于对单个标准的研究与应用,而是从整个数字资源生命周期的角度,围绕数字资源的创建、描述、组织、服务、长期保存来建立完整的系统框架,并按照整个框架体系规范、组织各方面的加工及作业环节,从而保障古籍数字资源的开放建设与集成服务。因此,当前古籍数字资源库应注重数字资源内容创建、古籍元数据、系统服务、长期保存等规范化建设环节。

  4.1 古籍数字内容创建过程中的规范化建设

  作为一种非常有效的再生性保护手段,古籍数字内容的创建实现了古籍存储和使用的分离,将古籍作为一种数字信息资源,动态地展示在人们面前。在古籍数字资源库建设中,古籍数字内容的创建过程包括数字资源采集、对象数据创建、数字资源加工、数字资源转换等加工环节,而实施其规范化建设的支撑单元为内容编码、内容对象格式、内容对象标识等。其中内容编码涉及数据内容的计算机编码形式和标记形式,是制约数字信息可使用性乃至可持续性的最基本条件。

  以汉字字符集编码为例,古籍文本中的汉字数量约有十万左右,其中常用字三四千,绝大多数字都属于生僻字、避讳字、异体字等。因此,汉字处理规范就是要解决古文献在数字化中面临集外字的问题。Unicode与国际标准ISO10646同步,且满足跨语言、跨平台进行文本转换、处理的要求。它所涵盖的汉字目前已超过7万个,并且还在不断扩充,因此在古籍数字化时绝大多数机构都采用了Unicode字符集。

  同时,在古籍数字资源库建设中,要分析并确立应采用的数字编码与内容标记标准,并针对保存格式、浏览格式和预览格式提出需要采用的数字内容格式标准,确立数字资源加工标准和程序的选择原则,编制数字资源建设指南的基本操作规范和加工操作规范。目前,国家古籍保护中心组织已编制了《古籍数字化工作手册》,对即将开展的珍贵古籍数字化工作进行规范性指导。

  4.2 古籍元数据的规范化建设

  元数据作为描述数字对象的数据,是所有数字信息资源建设项目的重要基础。而古籍元数据标准主要解决的是物理实体古籍和数字化古籍的著录和描述问题。元数据具有资源发现与确认、资源著录描述、资源集合组织、资源及其服务的利用和管理、资源长期保存以及资源与服务系统功能与过程描述等广泛的用途。

  古籍元数据基于DC构建,在吸收了DC核心元素的基础上加入了部分古籍专门元素而成。由北京大学图书馆牵头,联合CALIS管理中心、上海图书馆等8家单位完成的《我国数字图书馆标准规范专门数字对象描述元数据规范》项目中,将古籍元数据结构分为描述元数据、结构元数据、管理元数据三个部分。其中:⑴ 描述元数据包括了记录扫描或拍照过程的信息,创建的存储文件的信息,以及有关组成单个对象的各个不同块的信息;⑵ 结构元数据可帮助重新组合数字对象的各个部分以及通过结构标识进行导航获取数字对象。如建立古籍子目(丛书分目信息)、卷序号、卷名和页码关联结构;建立古籍印章信息结构,记录印章名称、所在位置等;⑶ 管理元数据是记录数字主文件的创建,派生文件的处理过程,标识数字图像的使用环境,建立数字图像各个部分或示例之间的链接等信息。

  在古籍数字资源库建设中,可参照的古籍元数据标准的规范文件有:《古籍描述元数据规范》(2004.06.07);《古籍描述元数据著录规则》(2004.06.07);《古籍元数据规范》(2006.11.22)等。

  4.3 古籍数字资源系统服务的规范化建设

  随着网络化的发展,古籍数字资源库的信息服务不再局限于本地化。通过规范化建设推动古籍数字资源库的服务机制,能够有效保障古籍信息资源的可使用性和各数据库之间的互操作性。古籍数字资源系统服务工作内容包括了数字资源发布、数字检索、数字资源服务管理环节,其规范化建设体现在网络服务协议、数据传输和数据应用条件、检索服务、分布数字信息服务机制与知识产权等方面。

  古籍数字资源库的目标在于能够实现多功能、多层次的资源服务模式。对古籍数字资源库的资源服务模式,包括了个性化信息检索、基于超文本链接阅读环境、智能辅助支持功能及知识发现服务等。其中:⑴ 个性化信息检索功能是利用计算机技术实现古籍资源数据库的全文检索、条件检索、关联检索、超链接反馈检索等;⑵ 基于超文本链接阅读模式的设计,是通过超文本链接技术实现古籍原本中相关内容的信息单元之间链接,以一个信息需求点为中心,汇聚出所有相关信息单元,建立多功能阅读环境,为读者提供信息的非线性表达方式;⑶ 智能辅助支持功能,就是利用计算机技术,为读者提供有关古籍内容本身的、科学准确的统计与计量信息,并提供与古籍内容相关的参考资料和辅助工具,如字数、字频、词频的统计数据,异体字的汇聚显示等;⑷知识发现服务,即通过数据挖掘技术和结果可视化实现古籍信息的深层次挖掘与提取研究,为古籍整理提供有价值的参考和支撑。

  4.4 古籍数字资源长期保存需求的规范化建设

  为了确保古籍信息资源存储的稳定性及可获取性,还应针对古籍数字资源建立相关的长期保存机制,并通过规范的管理机制和技术机制来保证长期保存过程的可靠性。

  古籍数字资源在长期保存方面将面临的挑战主要有以下三方面:一是由于信息科技的发展造成技术的淘汰或是储存媒体容易损坏的特性,促使古籍数字化资源必需面临转换、重置或迁移;二是数字转换、重置或迁移的过程中,如何避免数据损失,维持数字资源的完整性;三是如何保持数字资源变更的纪录,维持数字数据的真实性。因此,必要建立一套行之有效的数字资源长期保存设施和机制。

  数字信息长期保护涉及保存数字比特流、信息格式、信息处理环境、信息内容验证管理机制、信息组织机制等相关内容和机制等一系列任务。美国空间数据系统咨询委员会曾提出过开放档案信息系统参考模型(OAIS),目前已被普遍接受为数字信息长期保存系统基本构架。即参照OAIS模型,建立长期保存系统的功能框架和信息框架,包括摄取模块、长期存储模块、数据管理模块、检索传递模块、系统管理模块、保存计划模块和检索传递模块。(注:数字图书馆标准规范发展趋势)

参考文献:

[1]梁爱民,陈荔京.古籍数字化与共建共享[J].国家图书馆学刊,2012,05:108-112.

[2]龙伟.以“中华古籍保护计划”为契机推进文献典籍资源数字化[J].数字与缩微影像,2012,03:36-39.

[3]张晓林等.数字图书馆建设的标准与规范[J].中国图书馆学报,2002,06:6-15.

[4]《我国数字图书馆标准与规范建设》项目[OL].http://cdls.nstl.gov.cn/.

  

Comments are closed.