探索中国古籍数字化的可持续发展
——第七届中国古籍数字化国际学术研讨会综述

  日前,由首都师范大学电子文献研究所、中国诗歌研究中心、清华大学中国古典文献研究中心联合主办的“第七届中国古籍数字化国际学术研讨会”在北京召开。来自海内外高校及科研、出版机构、文博系统的60余名专家学者就“大数据与人工智能对中文古籍数字化的影响”“移动终端环境下古籍数据库应用开发与设计”等议题展开研讨,以期为中国古籍数字化探索出一条可持续发展的创新之路。

  古籍数字化的多层次探索

  12年来,首都师范大学在古籍数字化领域进行了多层次、多角度的尝试和探索,取得了不少成果。首都师范大学副校长李小娟表示,首都师范大学2003年成立的电子文献研究所是全国高校系统第一个专门从事古籍数字化的专业研究机构,2008年创立的“数字文献学”与出土文献学、文学文献学共同构成了首师大中国古典文献学的主体,在全国高校中独树一帜。

  大型古籍全文检索数据库《国学宝典》已经被全球200多所高校和科研机构选用、约2亿字的《中华传世藏书》去年由浙江人民出版社正式出版、数字文献学三届硕士研究生顺利毕业并参加工作……近两年来,首师大在古籍数字化人才培养、科研手段和成果形态方面取得了诸多成果。首都师范大学特聘教授詹福瑞指出,首师大古典文献学基础雄厚,数字文献学是学科中最具特色和发展潜力的新学科,它在一定程度上代表了未来文献学的发展方向,“在人工智能如火如荼的今天,AI(人工智能)技术为古籍数字化带来了新的发展动力,传统古籍整理将出现翻天覆地的变化。也许在不久的将来,许多古籍整理专业工作,诸如标点、校勘、翻译,甚至考证、分析、研究等,都有可能被机器逐一取代”。

  首都师范大学电子文献研究所所长尹小林提出,在AI时代,古籍数字化将越来越体现出专业化、精细化和规模化的特点,期待与各专业、各机构共建、共享、共同发展。中华书局编审刘尚慈以古籍数据库在出版工作中的应用为例,肯定了尹小林所提出的“三化”,表示古籍整理者要依靠数据库,而古籍数据库建设也要与学者结合,依靠学者的专业知识,提高数据库的专业性。如其点校的《公羊义疏》一书,76卷近200万字,引文多是篇章名,需要找到书名才能核对原文,依靠《国学宝典》等数据库,两年多时间点校完毕并质检合格。

  古籍数字化的多角度应用

  “基于大数据技术的古典文学经典文本分析与研究”课题,是清华大学教授刘石正在主持的一项工作。清华大学整合中文、计算机、统计学三个学科的力量,围绕“基于人工智能技术的古典诗歌分析系统构建”“基于文献知识库的历代作家生平事迹研究”“基于计算风格学的小说研究”“基于复杂网络的文本与人物研究”“基于文本深度挖掘的文体与文论研究”五个方向开展研究,构建适用于文学文本研究的(如比对查重、定量分析、人物网络关系等)统计分析、数据挖掘与算法模型。针对古代文学文本的特点,研发具有针对性和适用性的分析工具,并在此基础上构建相应的文本分析平台。

  日本广岛大学教授本田義央与突尼斯、越南、马来西亚青年学者阿哈莱姆、易世安、刘勤分别以“谈谈日本汉译佛典的数字化”“电子信息化是阿拉伯文化传承、发展、交流的重要载体和必然手段”“越南古籍数字化的现状及意义”“中文书籍数字化在马来西亚的运用”为题,对本国的古籍数字化情况进行了介绍。首都师范大学教授李均洋针对5G时代海外中国古籍数字化,提出结合学科专业的数字化,有助于方法论上的创新、语言学上的分词断句等;古籍教学文献的数字化,如日本汉籍文献丰富,汉学教育、训读、多媒体数据库带动了日本的中小学教学,值得借鉴。

  立足于“互联网+”的传播趋势,“MOOC+”(大型开放式网络课程)的教学手段用新形式与新载体让中国古典文献、中国传统文化焕发出新生机。中央民族大学教授曹立波以古籍版本异文比对在MOOC建设中的应用为例,指出古籍版本书影在MOOC视频中出现次数多,且有种类之别,加深了学生对古代竖排版典籍的印象,比如《〈红楼梦〉经典章回评讲》在引用前80回的原文时用的是庚辰本书影,后40回用的是程甲本书影,从抄本到刻本的过渡,也是在提醒早期80回本与后期120回本的不同之处;古籍版本中版本异文的图片呈现,有益于推动古籍数字化文献在MOOC教学的使用;古籍版本书影的动态展示,成为MOOC教学新的应用模式。

  中国民间文艺家协会分党组书记邱运华介绍了民间文学数据库的建设情况,中国民间文艺家协会从2004年开始发起中国传统文化的抢救工程,目前正在开展《中国民间文学大系》的编纂工作。“大系”将按照神话、史诗、民间长诗、民间说唱、民间小戏、谚语、民间传说、民间故事、民间歌谣、民间文学理论等12个类别编选,以省立卷,计划出版1000卷本,并同步建立数据库。

  浙江师范大学教授黄灵庚针对“古籍整理与数据建设专题化”,以正在做的150卷本《宋濂全集笺注》为例,表示很多材料都是从地方志、家谱中找到的,如《送东阳马生序》中“马生”是谁?宋濂在《题马氏图谱后》,提到了马生鉉,查找马氏家谱后,从马鉉确定宋濂写作《送东阳马生序》的时间及背景,由此看出家谱整理与研究对文化研究的重要性。他建议学术界开发家谱数据库,实现更多家谱的在线检索。中国传媒大学教授姚小鸥以《十三经注疏》《二十四史》版本里的错误为例,指出急需古籍数字化的全面普及以及数据库用户反馈功能、途径的完善等。

  中国中医科学院研究员王凤兰以“对中医古籍知识的评价思考”为题,围绕基于“知识元知识体系表示方法”的建立与运用进行阐述,古籍数字化的发展基于“知识元”的加工与检索,解决了中医古籍数字化与快速获取中医知识的难题,使中医古籍数字化获得长足进步与发展。

  

Comments are closed.