Quantcast
Channel: 冯志伟文化博客
Viewing all articles
Browse latest Browse all 562

Zipf定律

$
0
0

Zipf定律


冯志伟


20世纪初,随着不同语言中有关词的资料的大量积累以及频率词典的编纂,学者们便试图从理论上把这些语言材料中的事实从数学的角度加以总结。

在频率词典中,词的出现频率与词的序号是两个最基本的数据,它们刻画出了一个单词在词表中的性质,因此,学者们着重地研究了词表中着两个基本数据之间的相互关系,提出了词的频率分布规律。

J. Estoup(艾思杜),E. Condon(贡东),G.K. Zipf(齐夫),M. Joos(朱斯)和B. Mandelbrot(曼德布罗特)等学者先后对于这个问题做了探索。

1916年,法国速记学家J.Estoup 在从事速记文字体系的改善的研究中,观察到如下的规律:

假设有一个包含N个单词的文本(N应当充分地大),按这些单词在文本中出现的绝对频率的顺序n递减的顺序,把它们排列起来,并且按照自然数的顺序从1(绝对频率最大的单词)到L(绝对频率最小的单词)编上序号,造出这个文本中单词的词表。单词的频率用n表示,单词的序号用r表示,r可以取区间 内的全部自然数的值。频率词表的形式如下(图2-3):

 

单词的序号 1  2     ……………   r   ……………    L

单词的频率  n1 n2     ……………   nr   ……………   nL

 

 

 


 

                  频率词表

J. Estoup发现,单词的绝对频率nr与它相应的序号之间r的乘积大体上稳定于一个常数k,即

                       

1928年,美国贝尔电话公司物理学家E.Condon在研究提高电话线路通信能力的工作中发现了一个有趣的规律。

他根据单词的频率统计资料,做出了如下的函数图表(遗憾,公式和图表都不能显示):

 


 

横坐标记录单词的序号的对数log r,纵坐标记录单词的绝对频率的对数log nr,之所以采用对数,是为了使比例适当。例如,当r=1时,n=104,而当r=LL很大)时,nr=1,在坐标图上画起来很不方便,但是如果用对数表示,两者的悬殊就不太大,便于在坐标图上画出来。

    E.Condon发现,log rlog nr的分布关系接近于一条直线AB

    x = log r, y = log nr,

    OB = log kk是一个常数)

    直线与x轴在反方向上的夹角为α,

    tgα=γ,则有

根据直线的截距式方程,显然有

       

     

因而有

经过多次试验,发现α=45º,即

故上式变为  

用所考察的文本的总长度N除以等式两边,得到:

乃是常数,令

则得到

                         (2)

ECondon说明,公式(2)中的c是作为一个常数来处理的,但是,c是否为一个常数,还需要更多的试验来检验它。

1935年,美国哈佛大学教授、语言学家G.K.Zipf1902-1950)首先来检验E. Condon的结果。他根据M. HanleyJ. Joyce的中篇小说《尤利西斯》(Ulysses)一书所编的频率词典,文本容量为260,432个词,词典中收不同的单词29,899 [1],他在比E. Condon的文本规模大得多的基础上,来检验E. Condon的结果。

                        

                                 

G.K. Zipf根据有关的数据做出了类似于E. Condon所画的那种函数图表(图2-6

            

             

G. K. Zipf的结果与E. Condon的结果相同,即

                

当试验次数 时,频率fr变成了概率pr, 故有公式

                

接着,G. K. Zipf来测定c的值,开初,他指出,在上面的公式中,当r-1时,

可见,c就是序号为1的单词的概率,也就是在文本中出现频率最高的那个单词的概率。G.K. Zipf测出了c=0.1,因而认为c是一个常数。这样,他得出的结论与E. Condon的结论几乎是完全一致的,因为E. Condon也认为c是一个常数,他与E. Condon不同之处在于,他使用的语料规模比E. Condon大,而且他具体地测出了c的数值应该等于0.1

然而,后来大量的事实说明,大多数欧洲语言,序号为1的单词的相对频率一般都小于0.1,几乎没有一种欧洲语言的序号为1的单词的相对频率为0.1。因此,后来Zipf对他原来的说法做了修正,他指出,c不是一个常数,而是一个参数,它的值的区间为

          0

对于r = 1, , n, 这个参数c使得

        

这个单参数频率分布定律,在大部分的计算语言学和自然语言处理的文献中,被称为“Zipf(齐夫)定律”(Zipf’s law)。

1936年,就在G.K. Zipf发表其成果不久,美国语言学家M. Joos就对Zipf的公式进行了修正。

M. Joos指出,在Zipf公式

中,不仅c是一个参数,而且r的负指数-1中的1也是一个参数γ。这是因为,当词典收词多的时候,γ会增大,即图象中的α角会增大,当词典收词少的时候,γ会减少,即图象中的α角会变小,可见,γ并不永远等于1,α角并不永远都是45º,也就是说,γ并不是一个常数而是一个参数,若令这个参数γ=b,则有

           (3)

其中,b>0, c>0, 对于r = 1, , n, 参数b, c要使

                                                

这就是M. Joos的双参数频率分布定律。

M. Joos的公式中,当b=1时,公式变为

                                  

这就是Zipf的公式,因此,Zipf公式只不过是Joos公式当b=1时的一种特殊情况,所以,Joos 公式也可以叫做双参数Zipf定律。

20世纪50年代初期,英籍法国数学家B. B. Mandelbrot利用概率论和信息论方法来研究词的频率分布规律。他把单词看成是以空白为结尾的字母的随机序列,又把句子看成是用单词来编了码的单词的随机序列,把文章看成是由句子的增消过程而形成的句子的随机序列。从这样的观点出发,B.B. Mandelbrot通过严格的数学推导,从理论上提出了三参数频率分布定律,其形式是:

                             (4)

其中,0a<1, b>0, c>0 ,对于 r = 1,, n, 参数a, b, c要使

               

a, b, c三个参数的含义如下:

-- 参数c与出现概率最高的单词的概率的大小有关;

-- 参数b与高概率单词的数量的多少有关,对于r<50的高概率单词,b是非减函数,随着r的增大,参数b并不减小;

-- 参数a与单词的数量 N有关,由于a的选择自由较大,因而公式的灵活性很大,更能在各种条件下适应测定的数据。

B.B. Mandelbrot的公式中,

a=0时,公式形式为

                           

这就是Joos公式,它是双参数的Zipf定律。

a=0, b=1时,公式形式为

                           

这就是Zipf公式,它是单参数的Zipf定律。

可见,Joos 公式和Zipf公式,只不过是Mandelbrot公式的特殊形式。Mandelbrot公式就是三参数的Zipf定律。

       当然,关于词的频率分布问题是比较复杂的。上述公式并不能完全地反映其分布规律。例如,从公式看来,一个r的值只能对应于一个pr的值,因此,公式本身的性质决定了文本中不能存在频率相同的单词,这与语言的客观事实显然是不符合的。试验证明,当15的时候,频率相同的词群容量不大,但是,当r>1500时,也就是当单词的频率比较小的时候,频率相同的词群的容量就大大增加了。这时,就会出现数据稀疏的问题。可见,上述各个公式都不能用来描述低频率的单词的频率分布情况,事实上,前面的函数图象应该为如下的形式(图2-7):

 

                   2-7  AB实际上是一条破碎折线

 

实际上,AB并不是一条直线,而是一条阶梯形的破碎折线。从图中可看出,序号高的低频率单词,不同的序号很可能具有相同的低频率,因而这些低频率单词,序号不同而频率相同的很多,而序号低的高频率单词,频率相同的词随着序号的增高越来越多。越是频率低的单词,序号相同的越多,越是频率高的单词,序号相同的越少。这种事实,用上述各个公式都不能很好地描述。可见,词的频率分布规律尽管为频率词典的结构建立了一个初步的形式模型,但是,这个形式模型还不完善,还有必要进一步加以研究。

Mandelbrot公式

 

中,如果通过试验测得某种语言的a=0, b=1, c=0.1,则得

                                  

我们来计算频率最高的头1000个单词在该语言文本中占全部单词总数的百分比:

                           

可见,对于这种语言来说,频率最大的头1000个单词占了该语言文本的中全部单词总数的74.8%。也就是说,只要认识了这1000个使用频率最高的常用词,就可以读懂这种语言文本中的绝大部分内容。根据Zipf定律得出的这个结论,对于语言学习和外语教学是很有参考价值的。

当然,要真正读懂一篇文章,除了认识单词之外,还需要具备语法、语义、语用和其他背景知识,语言学习仍然是一件很不容易的事情。语言不是轻而易举就可以学好的,非下苦功不可。

冯志伟早在80年代就注意到Zipf定律,并于1983年写文章介绍这个定律 [2]。这是中国学者关于Zipf定律的最早的论文。

遗憾,这里不能显示公式和图标。

[1] M. Hanley《詹姆斯·裘易士的“尤利西斯”词汇索引》(Word index to James Joyce’s Ulysses)。

[2] 冯志伟. 齐普夫定律的来龙去脉. 情报科学.1983, (2).

 


 

Viewing all articles
Browse latest Browse all 562

Trending Articles