书同文公司典籍数字化的新进展

  两年一度重聚首。衷心感谢国学网提供这样的平台,让国学界的专家们和我们从事典籍数字化的工作者有一个良好的面对面交流的机会。

  前不久,两位巨星几乎同时陨落了:任继愈和季羡林,他们不仅是公认的大师,也是曾经给予过我们的典籍数字化事业谆谆教导和热情鼓励的恩师,所以特别地悲痛。

  我们要记住的是,我们这一行,方向就是要“嘉惠学林”(任继愈题字)、就是要让更多的学者“如虎添翼”(季羡林语),我们本身不是文史专家,我们只是文史工作者的内容提供者(ICP)和服务提供者(SP)。

  我们的服务做得好不好,就要看我们是否满足使用者的需求,踏踏实实地向用户提供了高质量的(数字化)内容,以及服务到位的数字化技术功能。

  下面就典籍数字化的内容和技术两方面做一汇报。

  一、从上一届国学会议到现在,书同文公司在典籍数字化内容方面,完成了这样几个规模较大的项目:

  1.日本《汉方医书大成》(2007年完成结项)
  
  2.国家第一历史档案馆数字化第二期工程
  
  继“全文数字化清代档案文献据库第一期建设成果”合作后,双方进一步深入组织开展了档案文献信息资源建设。建设项目自2007年上半年启动,历时2年多时间完成。近期即将鉴定全文数字化《军机处上谕档》。
  
  3.故宫博物院陈设档等数字化工程(正在进行中)

  故宫博物院院藏《清宫陈设档》记载了明清两朝紫禁城皇家陈设档案,是迄今为止最为完整故宫文物档案,具有极其珍贵的文物历史史料价值。

  故宫博物院图书馆针对当前形势的发展趋势,通过长期慎重考察,决定采用走社会化合作的方式,委托专业化企业实施项目项目开发,探索了一条专业化制作开发、高效、低成本的历史档案数字化之路。经过双方详尽细致的洽商,凭借故宫博物院图书馆丰富的馆藏,专业研究水平以及长期积累的丰富经验,在朱赛虹馆长精心的策划指导下,在院领导的全力支持下,在双方工作人员共同努力下使该项目得以顺利开展,即将在今年60年国庆后正式在院内上线使用。

  相信全文数字化《清宫陈设档》上线,将为有关学者专家提供更加快捷便利的查询手段,为开展相关业务的研究提供强大的利器。

  4.《四部丛刊》09网络增补版(2009上线,PPT发言将重点介绍)。在内容上,在《四部丛刊》2002年电子版的基础上,开放了全部张元济校勘记百余篇,同时,增加了中华书局《四部备要》的全部内容(一亿三千万字,作为“增补”)。至此,书同文公司有幸完成了古籍文献的三个大部头“四”(文渊阁四库全书[注]、四部丛刊、四部备要)的数字化。
  
  二、在数字化技术方面,我们开发了几项颇受用户欢迎的新功能,他们几乎全都渗透在每个数字化项目中了。下面我将结合上面的数字化内容的展现特色和新技术功能作一介绍。
  
  1.鉴于文献的重要性,坚持原文与全文并存对照的模式,在可能范围内实现保真。与此相关,必须坚持原版面竖排格式:
  
  随着古籍数字化工作的进展,发现除古籍善本版式特点外,明清历史文献档案样本也愈加丰富和复杂。这些文献档案表现出与古籍善本不同的特点。例如:“上谕”、“旨”、“硃批”、“圣祖”、“御笔”等字样出现时,这些文字书写都高于其他文字之上,以体现皇权的至高无尚;同样的原因,大臣在个人名字落款前,也会用小字写“臣”。
  
  这在现代横排版方式下是无法体现其历史信息的.这样,保持原版竖排(XML)就显得极其重要了。
  
  同时,确保图象数据与XML数据的完整性
  
  我们无法保证数字化后的数据几十年后,有多少数字化软件可以永久通用/适用。但是图象数据、XML数据则可以确保这些经过精心制作的信息,长期留存下去(一定会有相应的各种转换工具诞生)。
  
  2.彻底的网络展现,从C/S版过度到B/S。用户无需安装任何客户端软件。
  
  3.提供基于Web的手写识别系统(书同文“巧笔”),用户无需记忆任何汉字书写和拆分的规则,特别有利于输入、查询罕用字或不明发音的汉字;同时还可以顺藤摸瓜地检索和输入各种关联字。汉字识别在服务器端实现-云计算的概念的初步实现。

  4.维护目录的完整性

  古籍善本、历史文献档案不同于通常的搜索(无MetaData)。目录完整反映了其中分类和时序关系。读者通过浏览目录可以很快清楚地了解一套完整丛书或档案的全貌;而且有了这个目录信息,搜索/检索结果可以清晰地标明命中的出处。

  5.跟踪与适应各类浏览器:选用B/S的代价

  B/S给读者带来的便利是不言而喻的,同时也附带了维护成本。市场竞争的结果必然迫使浏览器不同厂家不断升级改版。如何使B/S产品适用这些变化,做到兼容是不可回避问题。

  6.多维助检 支持人名、地名、职官以及关联字检索。

  7.全文检索自动关联简繁异

  8.其他技术特点不再一一赘述。(见PPT)

  书同文公司所制作的典籍数字化产品,均属于珍本或善文献资料,利用它们进行文史研究,求本溯源有着特别的意义。迄今为止,无论是Google还是百度,在这方面还是个空白或弱项。

  下面,我利用PPT和联机演示谈谈几个感悟:

  1.源与流:保真的重要性;利用数字化珍本,进行求本溯源的研究。

  2.C/S到B/S的演进的必要。

  3.从“多维助检”和关联检索谈数字化工具与内容的结合。

  4.在数字化典籍中如何实现“云计算”的理念。

  诚恳地希望与会专家批评指导。

  

Comments are closed.