用计量方法研究语言--计量语言学(1)
冯志伟
1. 引言
我曾经在《外国语》2011年第1期的“计算语言学的历史回顾和现状分析”[1]一文中,详细介绍了计算语言学的历史和现状,特别强调了计算语言学的工程应用,呼吁“大哉计算语言学之为用”。
但是,在我的这篇文章发表之前,计算语言学家列文(Lori Levin)在欧洲计算语言学会(EACL2009)的语言学与计算语言学互动专题讨论上却提出了一个发人深省的建议。他建议计算语言学要关注语言学的基础研究,在计算语言学学会(Association for Computational Linguistics,简称ACL)里设置一个语言学专委会。当列文提出这个问题时,计算语言学的学者们都感到尴尬,觉得这个建议很怪异:这岂不是有点像在美国儿科学会下面设立“医学专委会”或者“儿童专委会”这样一样滑稽可笑吗?然而接下来一想,学者们才意识到这个建议的合理性:因为从本质说来,在当前的自然语言处理工程里,已经把语言学置于非常次要的地位了,大家整天考虑的几乎都是程序技术或者算法问题,很少关注自然语言处理工程背景后面隐藏着的语言学问题,因此,计算语言学事实上已经成为了没有语言学支持的语言学科,在计算语言学研究中,语言学在整体上是缺位的!
于是,在2009年的《计算语言学》杂志第35卷第4期上,以色列海法大学计算机科学系高级讲师舒丽•维茵特讷(ShulyWintner)发表一篇题为“什么是自然语言工程的科学支撑?”(What Science Underlies Natural Language Engineering?)的文章(Wintner2009),强烈地呼吁“语言学重新返回到计算语言学中(“I want to call for the return of linguistics to computational linguistics”)。
她指出,二十多年来,我们完成了计算语言学研究范式的整体转型。由于语言学知识在数据规模扩张到真实世界的需求后仍然无法应用而带来的沮丧,以及由于形式语言占统治地位的理论带来的沮丧,我们转向了语料库,转向了把语言的使用作为我们知识的潜在源泉。与方法论的转型相伴生的,是计算语言学整个行当的目标的微妙变化。在二十年前,一个计算语言学家或许既对开发自然语言处理的应用系统感兴趣,也对语言学过程的形式化以及自动推理感兴趣。而在如今,他们只对开发自然语言处理的应用系统感兴趣,而对于语言学过程的形式化以及自动推理的研究嗤之以鼻。计算语言学领域主要会议上的文章,绝大多数都是工程型的,讨论的都是实际问题的工程解决方案,几乎不再有人讨论那些基础性的语言学问题。
她认为,并不是说工程性的研究有什么错。因为每个大学都设有工程类的系,其领域之广泛已经涵盖诸如化工、机械工程、航空工程,生物医学工程等等。没有理由说不该在大学里设一个自然语言处理的工程学科。但是,就大多数已经设立的学科来看,工程类的系所进行的研究,都是在科学领域里一个非常成熟的理论分支的指导下进行的:化学工程师研究化学,电气工程师研究物理学,航空工程师研究动力学,生物医学工程师研究生物学、生理学和生命科学,如此等等。但是,自然语言处理的工程师居然不研究语言学。岂非咄咄怪事!
究竟什么才是给自然语言处理工程作后盾的学科呢?什么才是我们建立应用时所依赖的理论基础支撑呢?当然应当是语言学。自然语言处理的工程师怎么能够不研究语言学呢?
考察一下面向数据的革命以来在自然语言工程领域的重大成果就可以清楚地看到这一点。比如宾州树库,1992年第一版本问世以来,它的标注体系被用来对众多的词类标注器进行训练。这套标注体系的背后是什么理论?在什么意义上这个标注体系是“正确的”?会不会有其他某个标注体系也是同样好的?我们凭借什么准则对这样一套资源的质量进行评估?这准则又该嵌入科学的哪一个分支?-- 显然应当是语言学。
再看半个世纪以来自然语言处理领域的“皇冠上的明珠” ——机器翻译。现在的统计机器翻译系统已经做得足够在很广泛的一类应用场合下使用了,Google推出了超过40种语言两两之间的免费互译服务。这恐怕算是自然语言处理领域最伟大的成就了吧,但是它到底基于哪个学科?受到哪个理论的支撑?-- 显然也是语言学。
类似的例子举不胜举。词汇歧义消解、随机句法分析、文本分类、自动问答、语义角色标记、语音识别、知识本体开发,随便什么你感兴趣的自然语言处理的应用,都可以同样追问:基于什么学科?受到哪个理论的支撑?它的理论支点在哪里?-- 显然都应当是语言学。
因此,舒丽•维茵特讷得出结论:没有明确的语言学知识作为基础的自然语言处理系统的应用领域是走不远的。
目前的经费投入机构主要由短期实用目标所驱动,在基础性的研究方面缺乏足够的耐心,对于基础性研究的经费投入不足,也是造成自然语言处理工程忽视语言学的一个原因。
但是还有更深层的原因。语言学作为一个学科,目前正在走向迷失——它只关注句法,而且又以英语的句法为主;语言学的理论变得如此晦涩难懂,如此华而不实,如此自以为是,以至于其他领域的研究者事实上无法跨学科参与进来。伊万斯(Evans)和雷文森(Levinson)说,“相关的语言学文献对于圈外人士来说是难以逾越的屏障”,托马塞洛(Tomasello)说,语言学理论“用特殊术语来描述语言,导致我们很难把它与心理学的其他研究领域中关于认知的成果相联系。”至少对于计算机实现而言,是这个原因。因此,计算语言学家们对语言学感到沮丧,在沮丧中彻底放弃了语言学,剩下的就只有统计学和概率论了。
然而,计算语言学肯定不是应用统计学的一个分支。假如真是应用统计学的话,那自然语言处理系统就和其他非语言的字符串处理系统,比如DNA序列、乐谱、棋谱等非语言学的处理系统没有什么区别了。我们的系统所处理的字符串肯定有某种唯一的特性,有某种可以从理论角度加以概括、在科学意义上加以研究的东西。
维特茵讷最后指出,决定我们的系统的特殊性的,正是在于它处理的是自然语言,而能给我们以指导的唯一的科学领域就是语言学。实际上,在语言学的世界里新东西越多,计算语言学能从中受益的就越多。
维特茵讷是一个计算机背景的计算语言学家,我认为,她的建议是高瞻远瞩的。
因此,我们在进行计算语言学工程性应用系统开发的同时,千万不要忘记使用数学方法,从计量的角度来进行语言的基础研究,使得计算语言学有坚实的语言学基础。正是出于这样的理由,我们来讨论一个更加带有基础性研究色彩的语言学新学科--计量语言学(Quantitative Linguistics,简称QL)。
在20世纪中叶,现代语言学中就出现了计量语言学这个学科。计量语言学以真实语料为基础,用计量的方法来研究语言的结构和发展规律。这门新学科与计算语言学不同,它的目的不在于建立各种自然语言处理的应用系统,而在于使用计量的方法来探索语言的数学面貌,发现隐藏在语言现象中的内在的数学规律。
从学科分类的角度看,我认为计量语言学应当属于数理语言学,它是数理语言学中与代数语言学并驾齐驱的一个分支学科。计量语言学使用计量方法对于语言结构和发展规律的探讨,将会给计算语言学的工程应用提供坚实的理论基础,推进计算语言学的发展、
在本文中,我拟对计量语言学这个新学科的历史和现状做一个鸟瞰式的介绍。

