关于古籍电子化的一些思考

  古籍电子化正在改变中国文史哲古代研究的局面,这一点已经越来越清楚了。这里仅就自己在使用有关成果时的一些想法草成此文,由于长期从事汉语史的研究,所以不免于偏向语言学,这可能是一些片面之词,不揣冒昧写出来以就正于广大古籍电子化的专家学者。

  汉字随着时代的发展有越来越多的趋势,笔者在《汉语新论》中曾经指出:“据说,最早的字书是《史籀篇》,可惜已经亡佚了。小篆李斯有《仓颉篇》、赵高有《爰历篇》、胡毋敬有《博学篇》,是当时的字形规范及识字课本,可惜都已亡佚了,据《汉书·艺文志》记载,汉人所增订的《仓颉篇》“断六十字为一章,凡五十五章”,共有小篆3300字。许慎统计自《仓颉》到《训纂》等14种字书,共收字5340字。现存的有关小篆的字书是《说文解字》,有9353个字(不计重文,如计重文1163,则有10516个字)。反映汉代一般用字的有西汉元帝时的《急就篇》,流传至今的不同本子字数各异,如34章本就有2144个字,不过其末尾的128字为后人所加。也就是说,当时的最常用字不过两千字左右,常用字则为三千字左右。”“中国学者按数理语言学的齐普夫定律计算过汉字容量应该是12366个。但是实际上汉字的总数自秦以后是不断增加的。三国魏张揖的《广雅》收字18154个,晋吕忱的《字林》收12824个,梁顾野王的《玉篇》收16817个,隋陆法言的《切韵》收12158个,宋陈彭年的《广韵》收26194个,而丁度的《集韵》收字53525个,为以前工具书之最(《康熙字典》收字47073个,《中华大字典》收字48000多个,都不及《集韵》,但是《集韵》往往一个字收了许多的异体字,有的七八个,有的甚至超过十个)。《汉语大字典》收字54678个,还有一本《中华字海》,据说收字超过8.5万。当然这里绝大多数是极其罕用的字(有的其实只是个别人、特殊的社会集团所写的‘错字’或‘异体字’,有的则是早已‘死亡’的字)。实际运用的只是其中的一小部份,比如传统的十三经,只使用了6544个汉字,《红楼梦》则仅使用了4462个汉字。据新华社技术研究所的统计,1986年全年90627篇稿件中,使用了6001个汉字。看来,在任何一个共时阶段,一般用字都不会超过7000的(这也是国家语委等单位所颁布的《现代汉语通用字表》的字数)。当然,从历史的积淀来研究,我们就必须考虑到古今字、异体字、繁简字、正俗字等等问题并由此出发进行论证。”计算机汉字库的不断变更也说明了中文信息处理的进步。而有关字频研究的成果也证明了本文前述说法。

  现代汉语字频词频的研究成果很多,而古代汉语则相对较少。《国学宝典》据约十亿字的语料推出了前5000字的汉字使用次数资料,书同文公司则据《四库全书》和《四部丛刊》约八亿字的语料出版了《古籍汉字字频统计》一书,书中对30136个汉字的使用次数、使用频率等进行了统计。笔者在自己的科研项目中也对十三经的6536个汉字使用情况做过统计,现将其中的前50词使用情况列在下面(《国学宝典》仅以前5000字的出现次数为总数)。

国学宝典前50字字频

汉 字 字 数 占总字数的百分比
4919015 1.7833
325%1693 1.284
2551477 .925
2378126 .8622
2305774 .8359
2280907 .8269
2193204 .7952
1881838 .6822
1824822 .66616
1745517 .6328
1629565 .5908
1504830 .25%56
1443096 .5235
1442580 .523
1437511 .5212
1380053 .5003
1356877 .4919
1196329 .4337
1193504 .4327
1147590 .416
1142691 .4143
1078124 .3909
1072444 .3888
1033983 .3749
1033057 .3745
993623 .3602
966202 .3503
942913 .3418
94150%6 .3414
931698 .3378
921094 .3339
905197 .3282
901350% .3268
898950 .3259
883723 .3204
882562 .32
875973 .3150%
25%5960 .3103
25%2833 .3092
817310 .2963
811009 .294
79825%1 .2895
793101 .2875
789282 .2861
787022 .225%3
783283 .284
50%0271 .2756
739983 .2683
739051 .2679
737863 .2675
  275832419 23.95156

书同文前50字字频

汉字 出现次数 万分之 累计覆 盖率 序号
19891628 252.2099 2.5221 1
09733996 123.4193 3.7562 2
09486560 120.2059 4.9583 3
07881524 99.9314 5.9576 4
07697614 97.5996 6.9336 5
06896797 87.4458 7.8087 6
06750929 85.5964 8.6640 7
06625021 83.8731 9.5028 8
06209740 78.7345 10.2901 9
05587903 70.8501 10.9986 10
05279990 66.9460 11.6681 11
05235232 66.3785 12.3319 12
04979575 58,0653 12.9125 13
04305732 54.5932 13.4585 14
04185422 53.0678 13.9891 15
03590583 45.5257 14.4444 16
03516804 44.5902 14.8903 17
03437197 43.5809 15.3261 18
03338241 42.3262 15.7494 19
03184692 40.3793 16.1532 20
03175745 40.2659 16.5558 21
03166824 40.1528 16.9573 22
03163339 40.1686 17.3584 23
03054578 38.7156 17.7456 24
02960595 37.5379 18.1210 25
02919091 37.0117 18.4911 26
02887089 36.6059 18.8571 27
02834051 35.9335 19.2169 28
02754461 34.9243 19.5657 29
02619030 33.2072 19.8978 30
02602664 32.9997 20.2278 31
02576421 32.6669 20.5545 32
02519440 31.9444 20.8739 33
02480552 31.4514 21.1884 34
02428095 30.7863 21.4963 35
02422115 30.7104 21.8034 36
02368329 30.0285 22.1037 37
02344512 29.7265 22.4009 38
02342263 29.6980 22.6979 39
02338972 29.6563 22.9945 40
02325150 29.4810 23.2893 41
02299699 29.1583 23.5809 42
02293069 29.0742 23.8716 43
02268200 28.7589 24.1592 44
02232019 28.3002 24.4422 45
02204117 27.9464 24.7217 46
02194105 27.8195 24.9999 47
02190762 27.7771 25.2776 48
02172369 27.5439 25.5531 49
02106107 26.7037 25.8201 50

十三經前50詞語頻率表

1 22979 3.619817552
2 14356 2.261460498
3 12036 1.895997391
4 11986 1.888121031
5 10740 1.691842139
6 9856 1.552588093
7 9764 1.538095591
8 9641 1.518719745
9 8621 1.691842139
10 6601 1.039837054
11 6392 1.006913869
12 6036 0.950834185
13 5830 0.918383582
14 5424 0.854427538
15 4988 0.785745679
16 4480 0.705721861
17 4411 0.694852484
18 3916 0.616876519
19 3728 0.587261405
20 3617 0.569775886
21 3408 0.536852701
22 3350 0.527716123
23 3289 0.518106964
24 3117 0.491012286
25 3035 0.478095055
26 2808 0.44233638
27 2625 0.413508903
28 2520 0.396968547
29 2506 0.394763166
30 2467 0.388619605
31 2462 0.387831969
32 2454 0.386571751
33 2441 0.384523898
34 2378 0.374599684
35 使 2227 0.350813077
36 2220 0.349710386
37 2151 0.338841009
38 2142 0.337423265
39 2125 0.334745302
40 2119 0.333800139
41 2110 0.332382394
42 2107 0.331909813
43 2024 0.318835055
44 2020 0.318204946
45 2014 0.317259783
46 1996 0.314424293
47 1991 0.313636657
48 1963 0.309225896
49 1916 0.301822117
50 1854 0.292055431

  《国学宝典》前50字的覆盖率是23.95156%,书同文公司的是25.8201%,而十三经的则是37.70571083%。估计是因为十三经都是上古语料,且使用字数较少,而《国学宝典》与书同文公司的语料则时代跨度相对较大,用字更多。所以覆盖率相对较小。

  前50字对比如下:

  《宝典》有而《十三经》没有的汉字是(汉字后面的数字是该字在《十三经》中的序数):中68、所58、此109、年66、得116、道106、书150、日78、生157、自62、来87、时152、文140、至81、在61、行60、见113、云408(另有雲1390,合计其序数当在352或353)、知108、四56。

  《寶典》有而《十三经》與書同文都没有的汉字是:道106、生157、来87、見113、云408(353)、知108。

  书同文有而《十三经》没有的是:所58、中68、丨、年66、此109、書150、自62、在61、至81、五70、日78、山244、四56、文140、又178、得116、時152、行60。

  书同文有而《十三经》與《寶典》都没有的汉字是:丨、五70、山244、又178。

  我们看到,其实三处差别不算太大,其他则基本只差几位或几十位,只有几个字相差才有一百多位(相差最大的是云字,相差了287位)。这说明几千年所使用的文言文其常用字还是比较稳定的,与先秦变化不大(另外书同文公司所统计的字符“丨”其他两处均未见不知何故。)。

  从发展来讲,我们希望能按照语料的不同时代以及其性质进行统计,比如按照上古、中古、近古,或者更详细一点来划分,如先秦、两汉、魏晋南北朝、隋唐、宋、元明清。而且要分清是文言文还是古白话或者近代汉语(如一些翻译的佛经、 和尚以及道学家的语录、一些笔记小说以及话本、戏曲等等)。当然,即使是文言文也有不同的文体,而且还有骈文、赋、诗词。诗也要分古体、近体等等。只有这样我们的字频统计才会更有意义。

  如果我们要做一个古今对比,也很有意思。下面是现代汉语使用频率前50字的表:

ID 频度%
1 3.235992
2 1.386861
3 1.055654
4 1.052022
5 1.00115
6 0.9439352
7 0.865377
8 0.772002
9 0.7666595
10 0.7550798
11 0.7341573
12 0.6876276
13 0.6010425
14 0.5645136
15 0.5436964
16 0.5385381
17 0.4849027
18 0.4707702
19 0.4635855
20 0.453611
21 0.4523478
22 0.4295567
23 0.4058709
24 0.4055287
25 0.3971071
26 0.3925278
27 0.3864221
28 0.3853957
29 0.3852641
30 0.3833956
31 0.3710789
32 0.3550251
33 0.3527355
34 0.3506827
35 0.3476299
36 0.3384976
37 0.3297075
38 0.3248914
39 0.3196016
40 0.3164961
41 0.3096009
42 0.2837833
43 0.283678
44 0.2811252
45 0.276967
46 0.2749405
47 0.2743352
48 0.2721508
49 0.2708613
50 0.2704929
    27.6048753%

  如果我们以更多的汉字来进行比较,就可以发现同西方传统的语言年代学不同的结论。

  关于汉语有没有“词”以及如何划分语素、词、短语,这是一个争论问题。,我们不想在此进行阐释。我们主张以单字、骈字、三字串、四字格来进行划分统计。所谓骈字,就是经常出现在一起的两个字,清代的《骈字类编》就是很有名的工具书。只要是经常连用就没有必要去区分词还是短语。同样三字串就是经常在一起连用的三个汉字的字符串,四字格则是成语、俗语、惯用语最常见的格式。这需要我们建立相应的字符串库以便统计。

  对于骈字,2011年初,网友yixuan统计了《全宋词》中的高频词语,并在自己的博客上列出了一个特别的排行榜:

  1  空 1485    2  东风 1382   3  何处 1230   4  人间 1202   5  风流 857
  6  归去 812   7  春风 802   8  西风 779   9  归来 771   10  江南 765
  11 相思 753   12 梅花 732   13 千里 676   14 回首 656   15  明月 651  
  16 多少 648   17 如今 642   18 阑干 630   19 年年 613   20  万里 590  
  21 一笑 582   22 黄昏 550   23 当年 542   24 天涯 537   25  相逢 528 310 
  26 芳草 527   27 尊前 516   28 一枝 512   29 风雨 505   30  流水 472 
  31 依旧 472   32 风吹 471   33 风月 461   34 多情 457   35  故人 451 
  36 当时 450   37 无人 445   38 斜阳 438   39 不知 430   40  不见 429 
  41 深处 422   42 时节 403   43 平生 398   44 凄凉 398   45  春色 394 
  46 匆匆 383   47 功名 383   48 一点 378   49 无限 377   50  今日 369 
  51 天上 368   52 杨柳 362   53 西湖 356   54 桃花 354   55  扁舟 353 
  56 消息 351   57 憔悴 344   58 何事 339   59 芙蓉 338   60  神仙 334  
  61 一片 334   62 桃李 333   63 人生 332   64 十分 331   65  心事 329    
  66 黄花 328   67 一声 325   68 佳人 324   69 长安 321   70  东君 319    
  71 断肠 316   72 而今 315   73 鸳鸯 314   74 为谁 313   75  十年    
  76 去年 309   77 少年 308   78 海棠 307   79 寂寞 306   80  无情 306    
  81 不是 305   82 时候 304   83 肠断 303   84 富贵 303   85  蓬莱 303   
  86 昨夜 303   87 行人 302   88 今夜 301   89 谁知 300   90  不似 299    
  91 江上 298   92 悠悠 296   93 几度 295   94 青山 295   95  何时 294    
  96 天气 293   97 惟有 293   98 一曲 291   99 月明 291   100 往事 290

  于是一些网友便以各种各样的数字带入这个“密码”来填词。比如网友“达芬奇的鸡蛋”将圆周率的数字,与“宋词”的高频词表序号一一对照,“创作”出一首《清平乐·圆周率》:“回首明月,悠悠心事空,西湖何事寂寞中,风吹斜阳匆匆,芳草平生斜阳,风吹寂寞今日,一枝富贵年年,断肠长安不知。我们发现,这些网友的所谓“词”只是灵活地利用了这些常用骈字,再加上一些自己选择的单字而成的。尽管不够地道,但是究竟有那么一些味道。

  关于句子,如何定义同样是众说纷纭。印欧语言所谓简单句是一个主语与一个谓语组成的,谓语必须要有一个动词作核心,即S=NP+VP,一个句子只能有一个谓语动词,而且必须跟主语保持一致。但汉语并非如此。连动句的动词没有任何形态上的差异,而且一个句子中的多个动词其施事很可能并不一样。如《左传》“谏而不入”这个句子谏与入(=纳)的施事就不相同。更不用说“鸡声茅店月,人迹板桥霜”这样纯粹由名词组成的句子了。汉语句子的任何成分都可以省略。因此相关的争论时时可见。中国第一部语法著作《马氏文通》的作者在《例言》中说,“是书本旨,专论句读”。但正如吕叔湘、王海棻在《马氏文通读本》中所说的那样,“句读可以说是全书中最不容易弄懂的部分”。我们同样不想对此置喙,我们知道,国学网为了制作辅助标点系统已经建立了一个非常庞大的句库,在进行时代、文体辨析与分类后我们可以对独词句、两字句、三字句……等进行研究,并确定相应的句型、句类,并说明其功能。我们相信这将有巨大的意义,因为许多汉语语法学者,如王力先生,正是在对句型的分析中发展出自己的体系,做出其巨大的贡献。

作者单位:黑龙江大学古籍所

  

Comments are closed.