Quantcast
Channel: 冯志伟文化博客
Viewing all articles
Browse latest Browse all 562

计量语言学是数理语言学的一个分支学科

$
0
0

             


                  计量语言学是数理语言学的一个分支学科

                         冯志伟

 

用数学来研究语言的想法,早在19世纪末叶到20世纪初年就有人提出过了。例如,1847年,俄国数学家布良可夫斯基(B.Я.Буляковский)认为可以用概率论来进行语法、词源及语言历史比较的研究。1894年,索绪尔指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来。后来,他在《普通语言学教程》中又指出,语言学好比一个几何系统,它可以归结为一些特征的定理。他认为,“语言可以说是一种只有复杂项的代数”[1]1904年,波兰语言学家博杜恩·德·库尔特内认为,语言学家不仅应该掌握初等数学,而且还要掌握高等数学。他表示坚信,语言学将日益接近精密科学,语言学将根据数学的模式,一方面更多地扩展量的概念,一方面将发展演绎思想的新方法。1933年,布龙菲尔德提出了一个著名的论点:数学只不过是语言所能达到的最高境界。当时,人们不仅仅提出了这些想法,并且还有人用数学方法对语言进行了实际的研究。英国数学家德莫根(A.de Morgan)在1851年曾把词长作为文章风格的一个特征进行过统计研究。苏格兰学者加贝尔(L. Campbell)在1867年、德国学者迪丁贝尔格(W. Dittinberger)在1881年曾分别用统计方法来确定柏拉图著作的执笔时期,美国学者梅登荷尔(T.C.Mendenhall)在1887年曾对不同时期英国文学著作进行过统计分析,特别是研究了莎士比亚的作品。俄国数学家马尔可夫(A.A. Markov)在1913年曾采用概率论方法研究过《欧根·奥涅金》中的俄语字母序列的生成问题,提出了马尔可夫随机过程论。

然而,无论是布良柯夫斯基、索绪尔、博杜恩和布龙菲尔德的想法和信念也好,还是德莫根、加贝尔、迪丁贝尔格、梅登荷尔、马尔可夫的实际研究也好,都没有对当时的语言学研究发生显著的影响。这是由当时的社会实践的要求决定的。因为当时的语言学,主要是为语言教学、文献翻译、文学创作和社会历史研究服务的。在这样的实践要求下,语言学没有多大的必要与数学接近。

进入20世纪后,随着用数学方法对语言学各个层面的深入研究,产生了数理语言学mathematical linguistics)这个新兴学科。

1955年,美国哈佛大学首先创办了数理语言学讨论班,1957年正式开设了数理语言学课程。接着,麻省理工学院、密歇根大学、宾夕法尼亚大学、印第安纳大学、加利福尼亚大学都相继开设了数理语言学课程。同年,日本成立了计量语言学会,创办了数理语言学杂志《计量国语学》,德国的波恩大学也开设了数理语言学课程,前苏联在莫斯科大学、列宁格勒大学及莫斯科国立第一外国语师范学院也进行了数理语言学的研究工作。1958年,莫斯科大学、高尔基大学、萨拉托夫大学、托姆斯克大学,分别给数学系及语文系的学生开设了数理语言学的选修课,并在列宁格勒大学设置了数理语言学专业。

此外,罗马尼亚、匈牙利、捷克、英国、法国、挪威、波兰、瑞典、中国、日本等国,都先后开展了数理语言学的研究工作,有的国家还创办了专门的刊物,成立了专门的研究机构。

近年来,数理语言学成了语言学、数学、计算机科学、人工智能等学科所共同关注的重要领域。在有关上述学科的国际学术会议上,数理语言学经常是中心议题之一。

数理语言学的研究应该从语言的内部结构和语言的交际活动两方面来进行,也就是说,我们可以把数理语言学的研究分为对作为符号系统的语言的数学性质的研究和对作为交际活动的过程及结果的言语的数学性质的研究两个部分。

作为符号系统的语言,本质上是由一些离散的单元构成的,可以采用集合论、数理逻辑、算法理论、图论、格论等离散的、代数的方法来研究它,这方面的研究就叫做代数语言学(algebraic linguistics)。

在言语中,在用语言进行交际的活动中,有的语言成分使用得多些,有的语言成分使用得少些,各语言成分的使用有一定的随机性,而交际过程本身,又是一个信息传输的过程,可以使用概率论、数理统计和信息论等统计的、非离散数学的方法来研究它,这方面的研究就叫做统计语言学(statistical linguistics)。

当然,在语言与言语、语言能力与语言运用之间也是有联系的。因此,在代数语言学和统计语言学之间也是有联系的:我们要研究作为符号系统的语言的数学性质,就要注意到各语言成分的统计特征,而在对言语作统计研究时,也必须考虑到整个语言符号系统的总体。

在数理语言学中的语言统计研究的基础之上,诞生了一个新的分支,叫做“计量语言学”(quantitative linguistics)。

1964年,英国统计学家赫丹(Gustav Herdan)首次使用了“计量语言学”这个术语。他出版了《计量语言学》[2]、《语言作为选择和机会的理论》[3]等著作,产生了广泛的影响。

当代计量语言学的主要代表人物来自德国和东欧地区,其中最著名的是德国波鸿大学(Bochum University) 的阿尔特曼(Gabriel Altmann)教授和德国特里尔大学(Trier University)的柯勒(Reinhard Köhler)教授。目前有两本计量语言学的国际学术刊物《Journal of Quantitative Linguistics》和《Glottometrics》,前者为International Quantitative Linguistics Association (IQLA,国际计量语言学协会,http://www.iqla.org/)的会刊,是SSCI的国际检索刊物。通过IQLA的网站,可以发现一些非常有用的关于计量语言学的网上资源。国际著名的语言学出版社Mounton de Gruyter正出版一个Quantitative Linguistics图书系列,已出60多种。

计量语言学以真实的语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的关系作为研究对象,使用概率论、随机过程、微分方程、函数论等统计的、非离散的数学定量方法,对其进行精确的度量、观察、模拟、建模和解释,以探索语言现象中隐藏的数学规律,刻画语言的数学面貌,揭示语言系统的自适应机制以及语言演化的动因,从而发现自然语言中存在的各种定律,如分布定律、函数定律、演化定律等。因此,计量语言学是以真实语料为基础、用计量的方法来研究语言的结构和发展规律的一门语言学科。

计量语言学和代数语言学的研究是有区别的。代数语言学的研究一般采用代数、集合、逻辑等方法对语言的结构特征进行描述,是一种对语言的定性描述,这种研究基本上是静态的,例如,乔姆斯基的形式语言理论、库拉金娜(О.С.Кулагина)的语言集合论模型[4]、巴希勒(Bar-Hillel)的范畴语法[5],这些理论的目的在于建立自然语言的形式模型,包括生成模型、分析模型、辨识模型。而计量语言学关注的是语言的定量特征,这些特征对于描述和理解语言系统及其组成成分的发展和运作是至关重要的,这样的研究往往是动态的,这些研究的目的在于建立自然语言的分布定律、函数定律、演化定律。例如,齐普夫定律、蒙采拉特-阿尔特曼定律、毕奥特洛夫斯基-阿尔特曼定律等,这样的研究是数理语言学中统计语言学的进一步完善和发展;所以,计量语言学可以看成是数理语言学的一个分支[6]

因此,我们认为,在语言学的学科体系中,计量语言学是数理语言学的一个分支学科。在以后的博文中,我们将介绍计量语言学的一些重要的成果。



[1] 索绪尔:《普通语言学教程》,中译本,第169页,商务印书馆。

[2] G. Herdan, Quantitative Linguistics, 1964.

[3] G. Herdan, Advanced Theory of Language as Choice and Chance, 1966.

[4] O. C. Kyлaгинa O6 oдном cΠoco6e oΠpeдeлeния ґpaммaтичecқих Πoнятий нa 6aзe теории Множеств, Πpo6лемы қи6еpнетиқи, 1958.

[5] L. Bar-HillelDecision procedures for structure in natharl languageLogique et analyse2-eanneéNo51959

[6]关于数理语言学的进一步知识,请参看冯志伟的《数理语言学》一书。


 青春就应该这样绽放  游戏测试:三国时期谁是你最好的兄弟!!  你不得不信的星座秘密

Viewing all articles
Browse latest Browse all 562

Trending Articles