计量语言学研究的意义
冯志伟
我国学者多年前就关注到计量语言学的研究。冯志伟估测了汉字熵值[1],提出了术语形成经济率和生词增幅递减率[2],改进了国外学者篇际英语词汇增幅率的公式,周有光提出了汉字效用递减率,刘海涛和冯志伟提出了概率配价模型[3],并利用汉语语料库的数据来计算依存距离[4],范凤祥研究了英语文本的随机词汇覆盖率[5],他们都使用计量的方法,来探索汉语或英语的某些数学特性。这些研究与自然语言处理中面向工程应用的研究截然不同,都是对于语言本身内在规律的探讨。
19世纪初叶,施莱赫尔(A. Schleicher)把生物学中的分类方法用于语言发展过程的研究,提出了印欧系语言发展的谱系树,从而大大地推进了历史比较语言学的发展。20世纪初叶,雅可布逊(R. Jackbson)把物理学中关于物质由基本粒子构成的理论用于音位研究,提出了音位的区别特征学说,把音位学的研究发展到一个新阶段。在信息网络时代的今天,把数学的计量方法用于语言研究,必将使语言学适应当前新的技术革命的需要,进一步促进语言学的现代化。正如乔姆斯基所指出的:“生成语法的研究之能实现,乃是数学发展的结果,……普遍语法的数理研究,很可能成为语言理论的中心领域。现在要确定这些希望能否实现还为时过早。但是,根据我们今天已经懂得的和正在逐渐懂得的东西,这些希望未必是不合理的。”他乐观地预言:“普遍语法的某种数学理论与其说是今日的现实,毋宁说是未来的希望。人们至多只能说,目前的研究似乎正在导致这样一种理论。在我看来,这是今天最令人鼓舞的研究领域之一,如果它能获得成功,那么,将来它可能把语言研究置于一种全新的基点上。”[6]
现代语言学正在不断地开辟着新的领域,它在内容、方法和应用等方面都发生了深刻的变化,它越来越多地带上了自然科学的色彩,越来越多地采用计量的方法。我们语言学工作者应当进行更新知识的再学习,努力改善自己的知识结构,敢于创新,勇于探索,以回答新时代对我们的要求。
显而易见,计量语言学必定会给计算语言学的研究提供坚实的语言学基础,推动计算语言学的进一步发展,使语言学重新回到计算语言学中来。
参考文献
1.W.Plath,Mathematical linguistics,in Trends in European and American Linguistics 1930—1960,1961,p21~57.
2. ShulyWintner,What Science Underlies Natural Language Engineering? Computational Linguistics, Volume 35, Number 4, 2009 Association for Computational Linguistics.
3. B. H. Partee等,Mathematical Methods in Linguistics,冯志伟导读,世界图书出版公司,2010年。
4.冯志伟:数理语言学简介,《计算机应用与应用数学》,1975年第4期,第34~51页。
5.冯志伟:现代信息科学对语言学的影响,《外语学刊(黑龙江大学学报)》,1986年第1期。
6.冯志伟,胡凤国:《数理语言学》(修订本),商务印书馆,2013年。
7.冯志伟:《数学与语言》,湖南教育出版社,1991年。
8.冯志伟:信息时代的语言观,《语文现代化论丛》,第二辑,语文出版社,1996年。
9. 刘海涛:基于类比的计算语义处理机制. 《语言工程》,清华大学出版社,1997。
[1]冯志伟,汉字的熵,《文字改革》,1984年,第4期。
[2] 冯志伟,《现代术语学引论》,语文出版社,1996年版
[3]刘海涛,冯志伟:自然语言处理的概率配价模式理论,《语言科学》,2007年第3期,p.32-41。
[4] Haitao Liu, Richard Hudson, Zhiwei Feng, Using Chinese Treebank to Measure Dependency Distance, Corpus Linguistics and Linguistic Theory, 2009: 5-2, pp161-174.
[5] Fengxiang Fan, A corpus-based Study on Random Textual Vocabulary Coverage, Corpus Linguistics and Linguistic Theory, 2008: 4-1, pp1-17.
[6] M.Gross, A.Lentin, Introduction to Formal Grammars ,乔姆斯基的序言,Berlin , Springer –Verlag ,1970.

