计算语言学超学科研究中基于规则的方法和基于统计的方法
-- 计算语言学超学科研究之六
冯志伟
随着计算语言学超学科研究的发展,一系列的形式模型开始建立起来。冯志伟曾经把这些形式模型归纳为基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于格语法的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、语用自动处理的形式模型等7种(冯志伟 2009)。这些形式模型基本上都是使用数学或计算机科学的方法对于语言学规则建模的结果,它们融合了不同学科的知识和技术,具有明显的超学科性质,其突出特点在于这些形式模型都是基于规则(rule-based)的,这是计算语言学超学科研究的重要成果。
这种基于规则的超学科研究十分重视语言学规则在形式模型构建中的作用,它是以语言学规则作为基础的。这种基于规则的超学科研究不仅推动了计算语言学理论研究的进步,而且还开发出一些应用系统,在某些受限“子语言”的应用系统中,曾经获得一定程度的成功。
但是,要想进一步扩大这些应用系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为在大规模的真实文本的处理中,从自然语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的;而且,随着系统拥有的知识在数量上和质量上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,都感到力不从心,逐渐地陷入了困境,不得不探索新的途径。
就在这些基于规则的超学科研究人员试图探索新的途径的困难时刻,一些来自统计学专业和电子学专业的研究人员使用贝叶斯方法(Bayesian method)来解决最优字符识别的问题,建立了用于文字识别的贝叶斯系统,一下子就把文字识别的研究提高到了实用化的水平。
与此同时,在语音识别和语音合成算法的研制中,这样的统计方法也发挥了重要的作用,从而把研究成果提高到实用的水平,很快走出实验室进入市场,实现了语音研究成果的商品化。
统计方法在文字识别、语音识别和语音合成研究中的巨大成功,使那些试图采用基于规则方法的计算语言学家在进退维谷的困境中受到极大的鼓舞,他们也开始采用统计方法来进行研究,从而另辟蹊径,摆脱困境。这样的研究就当然也具有明显的超学科性质,其突出特点在于这些形式模型都是基于统计(statistics-based)的。
这样一来,在计算语言学的超学科研究中,就开始借助于文字识别和语音技术中的统计方法,从大规模真实文本中获取语言的信息,提出了大规模真实文本的自动处理问题,这里所说的“大规模真实文本”就是“语料库”。在计算语言学中,基于规则的超学科研究逐渐走向了基于统计的超学科研究。除了上面所述的7种形式模型之外,又建立了一些基于统计的形式模型,这些形式模型十分重视统计在模型构建中的作用,语言学知识主要使用概率和统计的计算通过语料库去获取,语言学家根据内省或调查得出的那些语言学规则逐渐退居到次要的位置。
目前,这种基于统计的超学科研究方法几乎成为了计算语言学的标准方法,占据了研究的主流地位,而上面所述的7种基于规则的形式模型则处于次要地位。
从哲学的角度来看,基于规则的超学科研究方法实质上是一种理性主义方法,而基于统计的超学科研究方法实质上是一种经验主义方法,从基于规则的理性主义方法到基于语料库的经验主义方法的转变,计算语言学的超学科研究正在经历着一场史无前例的战略目标的转移(冯志伟,2011b)。
当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。要从语料库中挖掘和获取语言知识,就必须使用来自数学的统计方法和来自计算机科学的大数据(big data)处理的技术,进行基于统计的超学科的研究。
