与老伴摄于大连棒棰岛
频率词典
冯志伟
按照单词在实际文本中出现频率的高低排列的词典叫做频率词典。
目前,世界上的频率词典已有许多种,分述如下:
I.普通频率词典:可以分为单语频率词典和多语频率词典。
⑴ 单语言频率词典: 又可以分为语义频率词典,成语频率词典和后缀频率词典。
①语义频率词典:维斯特 (M.West)编写了《通用英语词表》(《A General Service List EngIish Words》,1953年,London),该词典收集了2,000个最常用的英语词,对于每一个多义词,统计了它的每一个意义的频率。例如:
GAME这个多义词的意义如下:
ⅰ.开玩笑 9%
如:It’s not serious,it's just a game
(这不是严肃的事,只是一个玩笑)
ⅱ.赛足球、游戏 38%
如:A game of football(足球赛)
Indoor games(户内游戏)
0utdoor games(户外游戏)
ⅲ.田径比赛 8%
如:Olympic Games(奥林匹克比赛)
……
这种语义频率词典,对于了解多义词语义的分布情况,显然是很有帮助的。
②成语频率词典:在桑戴克 (E.L.Thorndike)的倡议下,美国外语教学委员会于二十世纪二十年代出版了一系列外语成语频率词典。
例如,切依德勒 (F.D.Cheydler)的《法语成语词表》(《French Idiom List》,1929年,1930年,1940年,New York)。下面,列举出一些成语的绝对频率和序号:
成语 序号 频率faire:il fait (batir une maison) 84 1140
(他叫人盖了一间房子)
avoir:il y a (des plumes sur la table) 26 1638
(桌子上有一些钢笔)
avoir:il a peur de (tomber) 47 173
(他害怕跌倒)
……
③后缀频率词典:如桑戴克的《英语后缀的教学》(《The Teaching of English Suffixes》,1941年,New York),在每一个后缀的后面,都注明由该后缀构成的词的数量,从而表示该后缀在英语中出现的频率。
⑵ 多语言频率词典
如伊彤 (H.S.Eaton)的《英语、法语、德语、西班牙语语义频率词表》(《Semantic Frequency List of English,French,German and Spanish》,1940年,Chicago)。在这部词典中,英语词的频率以Thorndike的《教师二万词词书》为依据,由于各语言所选的样本不一样,样本容量也不尽相同,因此,各语言中词的频率的相对误差是各不相同的。
Ⅱ.专业性频率词典。例如,别列斯涅夫(С.Д.Вереснев),索洛维耶娃(А.И.Соловьева)的《德语畜牧学频率词典》(Зоотехничесний частотный словарь немецкого языка,1968年,Москва),其样本容量为151,000个词,收单词2,050个,这些词按频率递减的顺序排列,最低的词的相对频率为0.00006(绝对频率为9),其排列形式如下:
词目 相对频率 相对频率积累 序号 die(f) 0.02765 0.02765 1 und 0.02751 0.05516 2
在这样的频率词典中,因为计算相对频率一般都用了四舍五入,这样,根据相对频率来计算绝对频率时将会产生小数。
远在1898年,德国语言学家凯定 (F.W.Kaeding)就编写了世界上第一部频率词典《德语频率词典》(Häufigkeitswörterbuch der Deutschen Sprache)。这部频率词典的样本容量为110万个词的文本,统计出每一个词在110万个词的样本中的出现次数。
本世纪初年,美国教育学家兼心理学家桑戴克先后编写了《教师二万词词书》(《Teacher's Word Book of 20,000 Words》)、《教师三万词词书》(《Teacher's Word Book of 30,000 Words》),做了大量的英语词汇的频率统计工作。
第一部汉语频率字典是我国教育家陈鹤琴先生编写的。解放前他在南京高等师范任教的时候,与助理员“足足做了两年艰苦工作,……,从554,478字中分析得4,261个单字”。不过,他编写的是汉语频率字典,不是汉语频率词典,汉语书面语言不是像印欧语那样分开词来书写的,词的切分是一个相当困难的问题,编写汉语频率词典,首先需要把汉语的单词从汉语书面文本中切分出来,而陈鹤琴当时不可能做到这一点。
1979年,北京语言学院(现在改名为“北京语言大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。
他们选取的语料可以分为如下四类:
1. 报刊政论:44万字,占语料总量的24.4%。
2. 科技和科普文章:29万字,占语料总量的19.8%。
3. 口语材料:20万字,占语料总量的11.1%。
4. 文学作品:89万字,占语料总量的48.7%。
整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。
根据统计语言学的原理,所统计的语料(corpus)的总体个数必须达到一定足够的数量,才能保证统计结果符合客观实际。《现代汉语频率词典》的编者认为,如果常用词的出现频率不低于百万分之一,也就是在一百万次的场合,常用词的出现机会至少应该有一次,就可以保证统计结果的客观性。《现代汉语频率词典》实际上统计了182万个汉字的语料,因此,其抽样是合理的、经济的、适度的。
但是,国外在1971年进行英语词频统计时,所用语料量有5,088,721个词,包含不同单词86,741个,统计规模比《现代汉语频率词典》大得多。
由于语料库语言学(corpus linguistics)的发展,语料库的容量不断扩大,现在,数千万词甚至于数亿词的语料库已经不算少见。
与当前语料库的容量比较起来,《现代汉语频率词典》所依据的语料规模是小了一些。不过,尽管这样,《现代汉语频率词典》在词频统计方面取得的成绩仍然是很大的。
这次词频统计得出了如下词表:
① 按字母音序排列的频率词表:共列出常用词16,593个,按音序排列,从中可以看出:
n 汉语中以Z、S、J、Y开头的词较多:以Z开头的词有1457个,占8.78%;以S开头的词有1327个,占7.99%;以J开头的词有1243个,占7.49%;以Y开头的词有1205个,占7.26%。
n 汉语中以E、O开头的词很少:以E开头的词只有64个,占0.38%;以O开头的词只有13个,占0.07%。
② 按频率递减的顺序排列的词表:在词表中,最常用词的使用频率相当高,前100个词占了语料总量的40%以上,前500个词占了语料总量的70%以上,前2562个词占了语料总量的85%,词表共有不同单词31,159个,这些词占了语料总量的100%。从前100个词到前500个词,不同的单词数增加了400个,百分比就增加了30%,而从前2562个词到前31,159个词,不同单词数增加了30,597个,百分比材增加了15%。由此可见,高频词对于百分比的增加有着很大的作用,而低频词对于百分比的增加,其作用是微乎其微的,往往要大量的低频词,才能使百分比增加一点点。
③按使用度递降顺序排列的词表:
根据优兰德(Juilland) 和罗德西盖(Chang-Rodsiguez) 在计算西班牙语的词汇频率时提出的使用度公式并加以适当改进来计算汉语单词的使用度,可以综合地反映单词在出现频率和分布率两方面的情况。例如,在《现代汉语频率词典》中,“提纲”和“哨棒”都出现了13次,出现频率相同,但是,但是,“提纲”出现在3类8篇中,分布均匀,使用度高,而“哨棒”只出现在《武松打虎》一篇文章里,分布集中,使用度低。考虑使用度就可以把“提纲”和“哨棒”的重要程度区分开来。
他们根据使用度的计算公式,计算了单词的使用度,并给出了按使用度递降顺序排列的词表。这个词表又分为两个表:使用度较高的前8000词的词表,使用度较低的词语单位表。
在使用度较高的前8000词的词表中,使用度在20以上的词共4186个,其词次累计占了全部语料(314,404词次)的90.1%。这说明,《现代汉语频率词典》所统计的语料中,有十分之九是用这4186个词写成的,这些词可以成为“常用词”的候选对象。
在使用度较低的词语单位表中,收入了使用度为5及小于5的词22,446个,这些词一般也都是低频词。在这种情况下,如果有的词的使用度和频率相匹配,则说明这些词的分布还是比较均匀的,这些词可以作为“通用词”的候选对象。
④按语体分类的高频词表,又可再分为4个表:
a. 报刊政论语体的前4000词的词表:本表共统计34种语料,29万词次(44万字),有不同词条数12,107个。前4000个词累计频率94.77%。其中一些政治词语,如“唯心、党派”等,在本表中出现频率都比较高,反映了政论语体的特点。
b. 科普语体的前4000词的词表:本表共统计21种语料,20万词次(29万字),有不同词条12,364个。前4000个词累计频率92.27%。其中一些科技用语,如“纤维、合成”等,在本表中出现频率都比较高,反映了科普语体的特点。
c. 生活口语中前4000词的词表:本表共统计18种语料,16万词次(20万字),有不同词条8263个。前4000个词的累计频率为96.65%。从统计数字可以看出,口语语体的用词量比前两种语体要少三分之一,但高频词出现的词次却相当多,前1000个高频词的出现频率比a表高出6%,比b表高出12%。这意味着,口语语体的用词量虽然不大,但是它们的出现次数对语料的覆盖面却相当大。
d. 文学作品类前4000高频词的词表:本表共统计106种语料,66万词次(89万字),有不同词条23,622个。前4000个高频词累计频率为90.63%。这说明文学作品的用词量大,但是为了追求用词的多样化,即使是高频词的出现频率也比较低,这反映了文学作品词汇丰富多采的特点。
