Quantcast
Channel: 冯志伟文化博客
Viewing all articles
Browse latest Browse all 562

八十老翁,平生无悔(5)

$
0
0

八十老翁,平生无悔(5)

冯志伟



7.从事术语数据库的开发,提出了术语形成的经济律。术语是科学知识在自然语言中的结晶,计算机自然语言处理离不开术语研究。我一直关注术语研究,多年从事术语数据库的开发。在术语数据库研制中,我证明了,在一个术语系统中,术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值,并提出了FEL公式来描述这个定律。根据FEL公式可知,在一个术语系统中,提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下,增加单词的术语构成频度。这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。FEL公式从数理语言学的角度,正确地解释了为什么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理,它反映了语言中的省力原则和经济原则,这种原则叫做术语形成的经济律这是我国学者对于数理语言学中齐夫定律(Zipf's law)的新发展,也是我国学者对于现代术语学理论的贡献。

8..提出了生词增幅递减律我通过仔细的观察研究后指出,在一个术语系统中,每个单词的绝对频度是不同的,经常使用的单词是高频词,不经常使用的单词是低频词,随着术语条目的增加,高频词的数目也相应地增加,而生词出现的可能性越来越小,这时,尽管术语的条数还继续增加,生词总数增加的速率却越来越慢,而高频词则反复地出现,生词的增幅有递减的趋势。这生词增幅递减律仅适用于术语系统,也适用于阅读书面文本的过程。人们在阅读一种用自己不熟悉的语言写的文本时,开始总有大量不认识的生词,随着阅读数量的增加,生词增加的幅度会逐渐减少,如果阅读者能够掌握好已经阅读过的生词,阅读将会变得越来越容易。在生词数与文本容量之间存在着如下的函数关系:

W=Φ(T)

随着文本容量T的增大,生词数目W的增幅逐渐减少,反映这种函数关系的曲线也就越来越平滑,整个曲线在直角坐标系内呈现上凸的抛物线形状。这条函数曲线也同时反映了阅读书面语时生词增加的过程,它实际上就是人们阅读过程中生词变化规律的数学描述,可以称为阅读曲线


 

Viewing all articles
Browse latest Browse all 562

Trending Articles