国学网--数字文献实验室成立

数字文献实验室落成万寿阁

  2014年7月1日,适逢中国共产党建党93周年之际,首都师范大学数字文献实验室在北京艺术博物馆(万寿寺)举行了隆重的揭牌仪式。数字文献实验室由首都师范大学电子文献研究所与北京艺术博物馆联合创立,是我国首家针对古籍数字化而建成的科研实验室,设于长河北畔万寿寺的中心建筑万寿阁三层。在大数据时代的背景下,兼得首都深厚的文化底蕴,实验室的成立可谓占尽天时地利人和。

  数字文献实验室的宗旨在于通过数字化技术对古籍文献进行加工、存储和整合,进而建成国际一流水平的古籍数据资源中心。具体言之,即要具备强大的处理古籍善本、书札手稿、字画碑帖、拓片印谱、舆图档案、旧报老刊等文献资料的能力,将原始形态转化成数字资源,进而建立超大规模数据库以存储海量的数据信息,并在这些信息之间建立多元联系,进行分类管理和深度挖掘,以随时根据学术研究需要将数据输出为数字化产品。(详情

首都师范大学电子文献研究所

  首都师范大学电子文献研究所于2003年成立,是高校系统第一个古籍数字化专业研究机构,成功研发有大型中华古籍全文检索数据库《国学宝典》,在古籍数字化实践方面积累了丰富经验。所长尹小林是数字文献实室的发起人和主导者。

北京艺术博物馆

  北京艺术博物馆为全国重点文物保护单位,馆址为明清皇家禁苑万寿寺,有“京西小故宫”之誉,1987年正式建馆。收藏有各类古代艺术品近五万件,以及上自宋代下至民国的古籍图书十余万册。数字文献实验室座落在博物馆中万寿阁内。


《頖宫礼乐全书》
清顺治官刻本

  我国存世古籍总量在20万种以上,众多的古籍面临两个问题:一是大多收藏在博物馆、国家省市以及各高校的图书馆内,借阅极为不便。二是古籍的保护问题。

  古籍保护主要有两种:一是原生态保护,二是再生性保护。原生态保护是指不改变原件载体情况下,对古籍进行修复、加固及改善藏书环境。

  再生性保护是指通过现代技术、数字化手段将古籍内容复制或转移到其他载体,以达到对古籍长期保护与有效利用之目的。数字化是古籍再生性保护的重要手段。“古籍数字化”是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质保存和传播。

  数字文献实验室以保存和传播中国优秀传统文化为基本目的,以中国古典文献学与相关计算机信息处理技术为依托,并在具体实践中完成对以中文古籍为主的中国古典文献的储存、整理与利用的一个新型实验室,有教学、科研、示范三大功能。

  自动标点、自动比对和自动排印,是首都师范大学电子文献研究所历经多年研发成功的三大核心技术,可谓大型古籍数据库从量变到质变的飞跃,不仅具有很高的科技含量,更具有巨大的应用价值。借助此三大技术,得以免除许多繁琐的重复劳动,将古籍整理出版的效率和质量提升数倍,这无异于延长了学者的生命。

  自动标点——基于对大规模带标点文本的分析统计,以句型为基础,辅以语法分析和字词切分技术,通过模糊查找和分段比对,对无标点的古籍文献自动加上合适的标点符号,可用于大规模古籍整理等领域。理想状态下自动标点准确率在90%以上,机器无法完全识别的情形下会自动提示专家进行人工干预。

  自动比对——能自动进行多种版本古籍的逐字比对,完成后还可在古籍中标示出文字和符号任何差异,既节省了宝贵的人力,而且有超人的效率和正确性。

  自动排印——依托于大型古籍全文检索数据库《国学宝典》,可以将数据库中的任意文字转换为方正排版文件,可直接出片、打样、印刷。版式设计任意可选,多种格式自动排版 ,疑难僻字一次补齐,目录索引自动生成。该技术较好地解决了古籍生僻字造字、简繁体转换、横竖版式等多项技术难点,较好地满足了出版社在信息时代对古籍整理出版项目的高水准需求,可极大地降低出版成本,提高出版效率。更为个性出版,尤其是难度较高的古籍个性出版提供了广阔的空间。运用该技术,排印速度极快,可在一刻钟排完《红楼梦》,一小时排完《鲁迅全集》,一天排完《二十四史》,一周排完《四库全书》。