基于内容的古籍检索技术研究

(北京师范大学信息科学与技术学院)

  古籍数字化是伴随信息技术的进步发展起来的一个新领域,与古籍整理、文献保护、文化传承紧密相关,对古籍的数字化是文化产业与信息产业结合的核心内容。古籍数字化是指采用现代化技术,对古籍文献进行加工处理。具体而言就是借助计算机对古籍进行保护、整理、加工和传播,将古籍通过数字代码的形式存放。

  随着信息技术特别是网络技术的发展,用数字化手段对现存的古籍进行数字化加工处理,给传统的古籍研究带来了生机和新的机遇,对于实现古籍资源共享,保护珍贵的古籍资源具有极其重要的意义。它会使以往繁重的古籍保护工作变得更加便利、快捷,利用信息技术、网络技术,也能使我们的古籍保护、展示和研究手段达到一个新的层次。
  
  古籍检索是古籍数字化研究为古籍使用者提供的一种古籍使用方式,就是对海量的数字化古籍进行快捷、精确、多维特征的查询、展示等,从而大大提高古籍使用的效率,是一种直接面向用户的古籍数字化服务。

  在接下来的内容中,本文将就古籍检索技术研究的现状、技术探索及制约检索质量的几个因素进行探讨。

一、古籍检索技术现状

  我国的古籍数字化经历了数据库版、光盘版、网络版三个建设阶段。数据库版古籍包括书目数据库和全文数据库两种形式。光盘版古籍一般有图像版、全文版和图文版三种类型。网络版古籍主要是将数字化的古籍资源在网络上有偿或无偿发布,供互联网用户使用,这是目前古籍数字化的主要目标。

  目前,数字化古籍检索的核心技术仍然是传统的全文检索方法。全文数据库检索系统主要采用逐字标引形式,基于读者输入的检索字或词,在数据库中查找完全匹配的结果以返回给用户。但这种检索技术只是单纯基于关键词的检索,不论是单词检索,还是组合检索,都只能检索到与输入的词语严格匹配的资料,一是不可避免地带来检索效率低的问题,二是忽视了古籍文献中具有不同形式的内容间潜在的语义关联。

  由于古籍文献对历史研究、文化探讨领域是非常珍贵的资源,有的甚至属孤本,大都具有非常重要的保存和利用价值,因此对这些古籍实施信息化的管理和网络共享,有利于对古籍知识的有效积累和应用,从长远来说,也是古籍研究发展的重要推动力。但目前,数字化古籍的检索领域仍然存在一些技术问题:

  1.古籍数字化工作缺乏统一标准,制作时使用不同的格式和分辨率等,获得的古籍数字化文件格式多样,阅读器不同且不兼容,造成多数据来源下数字化古籍信息集成、数据交换困难;

  2.未充分考虑古籍数字化的领域特点,对异形同义、异形近义、同形异义等问题未做深入探讨,其根本是未解决古籍检索技术中的关键性技术——古汉语词典切分技术,影响了古籍自动标引、名称主题检索及专有名词检索等的实现;

  3.古籍数字化的工作仍局限将古典文献扫描形成电子出版物,并非建立在正确理解原文基础上的文字转化,这样的数字化方式只适用于保存,既不利于学者检索,也不利于传统文化的传播,但扫描只是数字化工作的预处理部分,并不能代替面向古籍保护领域的前期考证、标引以及字体转换、排版等;

  4.仅提供基于关键词检索的查询、展示方式,缺乏智能化的、个性化的、多元化的关联检索方式。

  基于上述介绍,我们认为古籍数字化在检索方面的技术处理同用户的使用需求之间仍然存在很大距离。

二、基于内容的古籍检索技术探索

  通过古籍数字化及检索系统建设,可以将多数据来源下的海量古籍文献资料(如文本、图片、报表等)在统一的管理平台上进行科学的组织、分类和管理,并通过有效的手段发布分享,使之成为群体知识和共享成果,提供古籍研究互动交流的平台,实现古籍资料收藏数字化、操作电脑化、传递网络化、信息存贮自由化和资源共享化。

  通过多种信息采集手段得到的海量古籍数字化信息存储在古籍数据库中,除了通过各种手段展现给用户外,提供高效、方便的检索功能也是十分重要和必不可少的。对于古籍的检索,除了普通的关键字检索、分类检索外,还应该提供具有特色的检索方式—-基于内容的检索。

  基于内容的检索基本思路是:先通过对古籍内容的分析,自动或半自动的从中抽取古籍文献的特征,并利用基于这些特征定义的相似度量函数计算特征之间的相似性,从而将最相似的古籍文献作为检索结果返回给用户。

  基于内容检索的目的不是去理解或识别古籍文献目标,它所关注的是能否基于内容快速发现信息,并在一定的响应时间内从古籍数据库中查询到符合要求的文献。

  基于内容的古籍检索,由于内容表达的不精确性,必然是一种近似的检索,结果中往往出现误检和遗漏,同时还需要注意以下两点:

  1.大型数据库的快速检索。在实际的古籍数据库中,不仅数据量巨大,而且种类和数量繁多,因此要求检索技术能够快速、准确的完成对古籍文献信息的检索。

  2.作为一种检索技术,它具有很强的交互性,以相关反馈作为检索的有效手段。通过用户的相关反馈,检索系统学习用户的意图和准则来指导古籍检索过程,能够有效提高古籍检索的效率。

  完整有效的古籍信息检索系统应该包括常规的基于客观属性(关键字等)的检索、基于内容的检索、对象关联检索及在这些检索之上的概念查询。对象关联检索以古籍对象之间的潜在关系和古籍对象之间的语义关联为线索进行检索,检索结果可能是满足查询要求的关联所构成的语义网络。概念查询以这些检索技术为基础,针对用户提出的查询概念要求,对古籍数据库(集)进行检索。上述描述及典型用户的需求表明,基于内容的古籍检索技术研究涉及以下几个方面:

  ·基于内容的智能化检索

  要实现智能化的检索,数字化古籍检索系统必须能自动识别出我们所需要的、与关键词相关的资料。简言之,即将传统的数字化古籍检索由单一检索转换为多元检索、由定向检索转换为关联检索、由静态检索转换为动态检索。

  建立智能化古籍检索系统的基础是多维、多属性的古籍数据库建设,即将古籍数字化、信息化的同时,在古籍数据库建设初期就抽取出古籍资料的众多特征,将简单的古籍存储形式扩展为多维的、多属性的古籍–特征模式,为后来的关联检索提供接口。这样,在进行古籍检索时,输入一个关键词后,不仅能检索到与关键词匹配的资料,也能检索到与关键词语义或语用关联的资料,还可以动态地生成相关资料和数据。

  目前,大量古籍资料的数字化过程是将其进行扫描,同时以图片及文本形式存储。考虑到图像数据库的索引方式区别于传统的文本数据库,可以将二者分开进行存储、管理,但保持两个数据库中存储内容在语义、语用等方面的关联,以此为基础进行多维信息上的深度挖掘,获得多个古籍资料在属性或特征上的潜在相关性,从而为用户提供更全面的、更准确的检索结果。

  ·个性化检索

  根据用户自己的个性化需求,支持检索条件、展示方式等的自主订制。

  由于古籍检索系统用户的研究目的、方向、领域等各不相同,因此即使利用相同的数据库,用户需要的信息或希望了解的内容也不尽相同。古籍检索系统提供的个性化检索功能支持用户访问数据的个性化设置,提供个性化的信息挖掘及个性化输出等,从而更好地满足不同用户的研究需求。

  ·自动化的统计及对比功能

  古籍检索系统在提供基本检索功能的同时,还需支持对古籍资料的深入分析及信息挖掘,最典型的手段是资料的统计及对比功能。

  通过对古籍资料某些属性或特征的定量分析,由检索系统自动统计并生成用户需要的统计数据,从数字的角度说明古籍资料在时间、空间等维度上的描述一致性、连续性等。

  基于古籍特征的比较及相关统计数据的比较,可以发现古籍资料间的内在联系,也可以减少人工完成的繁复劳动,降低人工统计的错误可能。

  完整的古籍检索系统在为用户提供更多的名称主题及专题检索等研究支持功能以外,也需要在格式转换工具、版本转换工具等方面得到进一步拓展。

  基于内容的古籍检索系统由两个子系统构成,即数据库生成子系统和查询子系统,每个子系统均由相应的功能模块和部件组成。

  1.对象标识

  为用户提供一种工具,以全自动或半自动(需用户部分干预)的方式对数字化古籍文献中用户关注的属性及特征进行标识,以便针对古籍对象进行特征提取、描述和查询。如果检索是针对整体数据库内容进行的,则检索可以利用全局的内容特征,而不采用对象标识功能,也就是说,对象标识是可选的。

  2.特征提取

  针对数字化古籍数据,自动或半自动地提取用户感兴趣的、适于检索的特征或属性。特征提取可以是全局性的,如针对整篇古籍文献的,也可以是针对文献当中某个具体研究对象的,如古籍的作者、古籍的年代等。

  3.数据库

  数据库由古籍库、特征库和知识库组成。古籍库包含多数据来源下的数字化古籍数据,并且这些古籍数据可能包括多种存储形式,如文本、图像、视频、音频等;特征库包含用户输入的客观特征和预处理自动提取的内容特征;知识库包含古籍研究的领域知识和通用知识,其中的知识表达可以随用户需求进行更换,以适应不同领域的应用要求。

  4.用户查询和浏览接口

  主要以示例查询和模糊描述等可视查询形式向用户提供查询接口。查询允许针对古籍数据、完整的古籍数据库、古籍数据属性以及任意属性或特征的组合形式进行。由于古籍数据的视觉特性,不仅查询时需要通过浏览扫描的数字版本确定查询要求,在查询后返回结果时也需要提供古籍浏览的功能。

  5.检索(匹配)引擎

  检索是利用特征之间的距离函数来进行相似性匹配,模仿人类的认知过程,近似得到数据库的认知排序。对于不同来源、不同领域的数字化古籍,需采用不同的相似性测度算法,即在检索(匹配)引擎中包括一个较为有效、可靠的相似性测度函数集。

  尽管用户向系统提供了自己认为很重要或很有代表性的古籍资料,系统也有可能无法精确地满足用户所希望的相似性需要。“相似性”对系统而言是一些特征值的相似,虽然系统尽可能地用特征值相似来模拟语义或语用上的相似性,但这两者之间总不可避免地存在一些差异。

  6.索引/过滤器

  检索引擎通过索引/过滤机制来达到快速搜索的目的,从而可以应用于大型古籍数据集。过滤器作用于全部数据,过滤出的数据集合再用高维特征匹配来检索。索引用于低维特征,可以利用R*树以加快检索速度。古籍的基本索引信息至少包括:古籍名称、创作时间、作者、资料类型、全文文本、全文图片等。

  上述系统不能仅实现对古籍资料的目录查询和检索,还必须提供古籍资料的全文浏览功能,因此系统开发过程中应添加全文浏览、下载、批注等功能,实现通过网络进行古籍文本资料、图片资料及其它文件等资料的全文浏览、下载及共享等功能。

  基于内容的查询和检索是一个逐步求精的过程,即一个不断进行特征调整、重新匹配的循环过程:

  1.初始查询说明。用户查找一个对象时,最初可以用QBE或查询语言形成一个查询。系统提取该示例的特征或把查询描述映射为具体的特征矢量。

  2.相似性匹配。将查询特征与特征库中的特征按照一定的匹配算法进行相似匹配。

  3.满足一定相似性条件的一组候选结果,按相似度大小排列后返回给用户。

  4.特征调整。对系统返回的查询结果,用户可以通过遍历(浏览)来挑选,直至得到满意的结果,或者从候选结果中选择一个示例,经过特征调整后,形成一个新的查询。

  5.利用上述过程逐步缩小查询的范围,直到用户对查询结果满意为止。

三、古籍检索技术发展的前提

  古籍数字化工作中目前仍然存在不少问题,制约了古籍检索系统的发展,严重影响古籍检索的性能,如生僻字的录入、显示问题,数字化古籍的不规范性,浏览软件不通用等等。因此,要提高古籍检索的效果及效率,首先要从数字化阶段的工作入手,规范古籍加工整理的电子数据格式及浏览手段,研究简、繁体转换及古籍切词问题,运用现有成果解决古籍数字库中的字形处理等。

  要保证古籍检索的性能,追本溯源应着重研究古籍资料的全息无损清晰扫描。由于所有的古籍资料都是历史上遗留下来宝贵的档案,所以数字化工作不能对原始文档实行拆订扫描整理,只能采用全息无损清晰扫描。纸质文档资料无损扫描最关键的问题是遇到一些页数较多的资料时,会出现书页的装订线一侧无法清晰扫描或出现孤度的问题。为保证扫描图像的平整,确保页数较厚的资料装订线一侧能够扫描清楚、平整,必须使用全息书刊扫描技术及设备,实现零边距扫描。

  之后,还需进行扫描成果去噪。扫描的图片歪斜,不清晰以及污点、折痕、噪点等,对以后OCR识别的影响都会很大,所以在扫描识别后要使用专业的图象处理软件对图片进行纠偏和清晰度调整,包括图文纠编、去黑边、去噪声、任意旋转、影像增强等,以确保较高的识别率。

  三是古籍图像的压缩存储。通常一页文档按300dpi分辨率扫描后的图像大小是900多K约1M,相对来说体积比较大。采用高倍的图像压缩比,以及二值化处理可对图文对象进行有效消肿,减小图文对象的存储空间,大大提高在线阅览和下载的速度。

  

Comments are closed.