2015年摄于福州。
《语料库语言学研究从书》序言
冯志伟
语料库(corpus,复数形式是corpora或corpuses)是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。
语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。
语料库一般可分为如下类型:
n 按语料选取的时间划分,可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus)。
n 按语料库的结构划分,可分为平衡结构语料库(balance-structure corpus)和自然随机结构的语料库(random-structure corpus)。
n 按语料库的用途划分,可分为通用语料库(general corpus)和专用语料库(specialized corpus)。专用语料库又可以进一步根据使用的目的来划分,例如,又可以进一步分为语言学习者语料库(Leaner Corpus)、语言教学语料库(Pedagogical Corpus)。
n 按语料库的表达形式划分,可分为口语语料库(spoken corpus)和文本语料库(text corpus)。
n 按语料库中语料的语种划分,可分为单语种语料库(monolingual corpora)和多语种语料库(multilingual corpora)。多语种语料库又可以再分为比较语料库(comparable corpora)和平行语料库(parallel corpora)。比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例。
n 按语料库的动态更新程度划分,可分为参考语料库(reference corpus)和监控语料库(monitor corpus);参考语料库原则上不作动态更新,而监控语料库则需要不断地进行动态更新。
早在1897年,德国语言学家Kaeding就使用大规模的语言材料来统计德国单词在文本中的出现频率,编写了德语频率词典[1]。但是,当时还没有计算机,Kaeding使用的语言材料不是机器可读的(machine readable),他的这些语言材料还不能算真正意义上的语料库。Kaeding的工作使用大规模的语言资料来编写频率词典,具有开创性。
1959 年,英国伦敦大学教授Randolph Quirk提出建立英语用法调查的语言资料库,叫做SEU(Survey of English Usage),当时由于技术条件的限制,SEU是用卡片来建立的,也不是机器可读的,后来Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》[2] 。
1964年,A. Juilland和 E. Chang-Rodriguez根据大规模的西班牙语的资料来编写西班牙语单词的频率词典[3] ,在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。
1979年,美国Brown 大学的Nelson Francis 和Henry Kucera 在计算机上建立了机器可读的BROWN 语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的标准语料库,规模为100 万词次,并用手工做了词类标注(Part-of-speech tagging),BROWN 语料库是一个代表当代美国英语的语料库[4] 。
接着,由英国Lancaster 大学的Geoffrey Leech 教授倡议,由挪威Oslo 大学的Stig Johansson 教授主持完成,最后在挪威Bergen 大学的挪威人文科学计算中心联合建立了LOB 语料库(LOB 是London,Oslo 和Bergen 的首字母简称),规模与Brown 语料库相当,这是一个代表当代英国英语的语料库。
欧美各国学者利用BROWN和LOB这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行词性标注(part-of-speech tagging)的研究。
Greene 和Rubin 设计了一个基于规则的自动标注系统 TAGGIT 来给BROWN语料库的 100 万词的语料做自动词性标注,正确率为 77%。Geoffrey Leech 领导的 UCREL (University Centre for Computer Corpus Research on Language)研究小组,根据二元语法和成分似然性理论,同时考察两个相邻标记的同现频率,设计了 CLAWS(Constitute Likelihood Automatic Word-tagging System)系统来给 LOB 语料库的100 万词的语料做自动词性标注,根据统计信息来建立算法,自动标注正确率达 96%,比基于规则的 TAGGIT 系统提高了将近 20%[5]。他们又采用三元语法,同时考察三个相邻标记的同现频率,使自动语法标注的正确率达到 99.5%。这个指标已经超过了人工标注所能达到的最高正确率。
20 世纪60 年代初,英国伦敦大学 Randolph Quirk 教授主持的英语用法调查研究课题组曾经收集了2000 个小时的谈话和广播等口语素材,并把这些口语素材整理成书面材料,后来,瑞典Lund 大学教授 J. Svartvik 主持,把这些书面材料全部录入计算机,在1975 年建成了London-Lund 英语口语语料库,收篇目87 篇,每篇5000 词,共为43.4 万词,进行了详细的“韵律标注”(prosodic marking)[6] 。
以上这三个语料库都储备在挪威Bergen 大学的国际现代英语计算机档案(International
Computer Archive of Modern English,简称ICAME)的数据库中。
20 世纪80 年代以后,陆续建立了一些以词典编纂为应用背景的大规模语料库。在John Sinclair 教授的领导下,英国伯明翰大学(Birmingham University)与Harper Collins 出版社合作,建立了COBUILD 语料库(Collins Birmingham University International Language Database,首字母缩写就是COBUILD)。1987 年,Collins 出版社出版了建立在COBUILD语料库基础上的英语词典,词条选目、用法说明和释义都直接来自真实的语料,由John Sinclair 教授担任总编辑,COBUILD 词典出版后,得到读者的广泛好评,影响很大,现在又出版了各种用途的COBUILD 词典,并编写英语课程教科书(COBUILD English Course)。2003 年这个语料库的规模已经达到5 亿词次,其中包含1500 万词次的口语语料库。这个大规模的COBUILD 语料库,又可以叫做“英语银行”(Bank of English)。
20 世纪80 年代还建立了Longman 语料库,也应用于词典编纂。这个语料库由 LLELC(Longman Lancaster 英语语料库)、LSC (Longman 口语语料库)和LCLE (Longman 英语学习语料库)等三个语料库组成。这个语料库主要用于编纂英语学习词典,帮助外国人学习英语。规模为2000 万词次。
由于这些语料库可直接用于词典编纂,在商业上获得了成功,语料库语言学的研究开始从纯学术走向实用,词典编纂是语料库语言学发展的一个重要的推动力。
美国计算语言学学会(The Association for Computational Linguistics,ACL)发起倡议的数据采集计划(Data Collection Initiative,DCI),叫做ACL/DCI,这是一个语料库项目,其宗旨是向非赢利的学术团体提供语料,以免除费用和版权的困扰,用标准通用置标语言SGML(Standard General Mark-up Language,ISO 8879,1986 年公布)和文本编码规则TEI(Text Encoding Initiative)统一地对语料库进行置标,以便于数据交换。这样的工作是很有价值的,它为语料库在不同计算机环境下进行数据交换奠定了基础。ACL/DCI 的语料范围广泛,包括华尔街日报语料库、Collins 英语词典、Brown 语料库,还有双语和多语的语料。
80 年代末90 年代初,美国Pennsylvania 大学开始建立“树库”(Tree bank),对百万词级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的树库。这个项目由Pennsylvania 大学计算机系的M. Marcus , B. Santorini 和M. Marcinkiewich主持,到1993 年已经完成了300万词的英语句子的深加工,进行了句法结构标注[7] 。
在美国Pennsylvania 大学还建立了LDC 语言数据联合会 (Linguistic data Consortium),实行会员制,有163 个语料库 (包括文本的以及口语的)参加,共享语言资源。
20世纪90年代初、中期开始,语料库逐渐由单语种向多语种发展,建立了多语种语料库。目前多语种语料库的研究正朝着不断扩大库的容量、深化加工和不断拓展新的领域等方向继续发展。随着从事语言研究和机器翻译研究的学者对多语种语料库重要性的逐渐认识,国内外很多研究机构都致力于多语种语料库的建设,并利用多语种语料库对形形色色的语言现象进行了深入的探索。
在建设或研究语料库的时候,应当注意语料库的代表性、结构性和平衡性,还要注意语料库的规模,并制定语料的元数据规范。下面我们分别说明这些问题。
首先讨论语料库代表性。
语料库对于其应用领域来说,要具有足够的代表性,这样,才能保证基于语料库得出的知识具有较强的普遍性和较高的完备性。
由于真实的语言应用材料是无限的,语料库的样本有限性这个特点,是无法回避的。承认语料库样本的有限性,建设语料库时,在语料的选材上,要尽量追求语料的代表性,要使有限的样本语料尽可能多地反映无限的真实语言现象的特征。语料库的代表性不仅要求语料库中的样本取自于符合语言文字规范的真实的语言材料,而且要求语料库中的样本要来源于正在“使用中”的语言材料,包括各种环境下的、规范的或非规范的语言应用。语料库的代表性还要求语料具有时代性,能反映语言的发展变化,能反映当代的语言生活规律。只有通过具有代表性的语料库,才能让计算机了解真实的语言应用规律,才有可能让计算机不仅能够理解和处理规范的语言,而且还能够处理不规范的但被广泛接受的语言、甚至包含有若干错误的语言。能否处理未经编辑或非受限的真实文本以及处理真实文本的数量,是衡量语料库系统究竟是实用化系统还是实验性系统的试金石。
再来讨论语料库的结构性。
语料库是有目的地收集的语料的集合,不是任意语言材料的堆积,要求语料库具有一定的结构。在目前计算机已经普及的技术条件下,语料库必须是以电子文本形式存在的、计算机可读的语料集合。语料库的逻辑结构设计要确定语料库子库的组成情况,定义语料库中语料记录的码、元数据项、每个数据项的数据类型、数据宽度、取值范围、完整性约束等。
在语料库建设中,提倡采用通用的扩展标记语言XML(eXtensible Markup Language)来组织语料文件。采用XML语言组织语料库,可以减少程序和数据的依赖性,提高语料库的数据独立性,从而提高语料库的共享性。使用XML语言组织语料库时,一个语料库的文件是一个或多个XML格式的文件集合,可用DTD(Document Type Definition,文件类型定义)或者XML模式(XML SCHEMA)来定义它们的结构,使得通用的软件(如IE5.0)可依据DTD来检查每个语料文件的结构的规范性,提高语料数据和程序的独立性以及语料库系统的共享性。语料文件的形式可以是纯文本文件、XML格式的文本文件、关系数据库文件等,以便用户既可以利用语料库管理系统已提供的功能研究语料库,也可以在自己熟悉的软件环境下使用语料库。
我们还有必要来讨论语料的平衡性。
在平衡语料库中,语料库为了达到平衡,首先要确定语料的平衡因子,平衡因子是影响语料库代表性的关键特征。影响语言应用的因素很多,如,学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、语料的用途(公函、私信、广告)等等。不能把这所有的特征都作为平衡因子,只能根据实际需要来选取其中的一个或者几个重要的指标作为平衡因子。最常用的平衡因子有学科、年代、文体、地域等。应该根据平衡语料库的用途来评测语料库所选择的平衡因子的恰当性。
在建设语料库时,还应当考虑语料库的规模。
大规模的语料库对于语言研究,特别是自然语言处理研究具有不可替代的作用。但随着语料库的增大,垃圾语料带来的统计垃圾问题也越来越严重。而且,当语料库达到一定的规模后,语料库的功能并不会随着其规模同步地增长。因此,我们应根据实际的需要来决定语料库的规模,语料库规模的大小应当以是否能够满足其需要来决定。
我们还应当考虑语料库的元数据问题。
语料的元数据对语料库研究具有重要的意义,可通过元数据了解语料的时间信息、地域信息、作者信息、文体信息等各种相关信息;也可通过元数据形成不同的子语料库,满足不同兴趣的研究者的研究需要;还可通过元数据对不同的子语料库进行比较,研究和发现一些对语言应用和语言发展可能有影响的因素;元数据还可记录语料的知识版权信息、语料库的加工信息和管理信息。
制定语料库的元数据应当注意如下原则:
n 简易性原则:语料库元数据应简单明了,便于一般用户掌握和使用,要尽量接近日常的语言习惯,满足一般用户的要求。
n 灵活性原则:语料库的篇头标注信息除语料的知识版权信息、语料创建者的背景信息、语料载体的发行信息、语料的内容信息、语料的采样方式信息(书面语料或者口头语料)、语料的管理信息等共同项外,不同的语料库还有其各自特殊的要求,语料库的元数据需要定义共同的数据项、命名规则、数据类型、数据宽度。在具体标注时,设计人员可以选择其中的一些项目,这些项目要遵守规范的约定,设计人员另外还可再增加一些别的项目。
n 罗马化原则:有些软件在解读数据时不支持中文的变量名,元数据项命名时,最好采用单一的罗马字母,使用罗马字母来表示元数据的“名称”,以便计算机软件识别和国际交流,简写最好不要根据汉语拼音而根据英文单词。罗马化的名称作为保存信息时使用。这样的元数据名称应该有中文名称作为“长名”,在显示信息时使用。
n 机读性原则:标注后的语料库的元数据应当是机器可读的,而且这些元数据要能被通用的计算机程序解读,而不应专门编写程序来解读,这是实现语料库可共享、可集成的关键。用目前流行的文本标记语言XML来标注语料,可以部分达到这个目标。
n 规范化原则:语料库元数据应该遵守元数据定义的国际标准,并以之作为共同的规范标准。应该提倡使用国际通用的XML语言来组织语料库中的语料。
国际通用的“都柏林核心”(Dublin Core,简称DC)元数据是国际文献管理领域推行的一个元数据标准,主要用于管理网络信息资源。DC数据元格式是在1995年3月由美国在线计算机图书馆中心(Online Computer Library Center,简称OCLC)的国家超级计算机应用中心(National Center for Supercomputer Application,简称 NCSA)联合召开的第一次专题研讨会上产生的,其目的在于研制一套简洁的、有弹性的、非专业人员也可以掌握和使用的信息资源著录格式,以提高网络信息资源的开发利用效率。DC数据元已被开放语言文档联盟(the Open Language Archives Community,简称OLAC)采用。
由于汉语书面文本是不分词的,词与词之间没有空白,不便于计算机处理,因此,汉语书面文本的语料库一般都要做切词和词性标注。下面是国家语委现代汉语语料库切词和标注语料的样例:
鸟/n的/u世界/n
杨栋/nh
鸟/n是/v1[大/a自然/n]n的/u歌手/n,/w鸟语/n[就/d是/v1]v1[大/a自然/n]n的/u音乐/n和/c诗歌/n了/u。/w
山村/n里/nd的/u鸟/n除了/p麻雀/n,/w就/d数/v燕子/n多/a了/u。/w[村/n人/n]n对/p燕子/n很/d爱护/v,/w说/v它/r吃/v庄稼/n的/u害虫/n,/w常/a吓唬/v[孩子/n们/k]n不要/vu去/v玩/v燕子/n,/w会/vu坏/v自己/r的/u眼睛/n。/w有时/r光/a屁股/n的/u小/a燕/n掉/v下来/vd,/w也/d要/vu送回/v[燕/n窝/n]n里/nd去/vd。/w[8]
汉语书面文本经过切词和词性标注之后,带有更多的信息,更加便于使用。不过,关于语料库的标注(annotation)问题,学术界还存在不同的看法。有的学者主张对语料进行标注,有的学者则对于语料库标注提出批评。标注过的语料库具有开发和研究上的方便性、使用上的可重用性、功能上的多样性、分析上的清晰性等优点。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的,带有标注者对于语言的主观认识;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性[9]。我们认为,不论标注过的语料库还是没有标注过的语料库都是有用的,其中都隐藏这丰富的语言学信息等待着我们去挖掘,语料库有助于语言学的发展。
近年来,在语料库的建立和开发中逐渐创造了一些独特的方法,提出了一些初步的原则,并且对这些方法和原则在理论上进行了探讨和总结,逐渐形成了一门新的学科 — 语料库语言学(corpus linguistics)。由于语料库是建立在计算机上的,因此,语料库语言学是语言学和计算机科学交叉形成的一门边缘学科。在目前的研究水平下,语料库语言学主要是利用语料库对于语言的某个方面进行研究,是一种新的研究手段,同时也逐步建立了自己学科的理论体系,正在迅速的发展中。
目前语料库语言学的理论还不十分完备,它还不能跟语言学中的其他成熟的学科(如计算语言学、社会语言学、心理语言学)相提并论。尽管这样,这个新兴的研究领域一出现,就引起了语言学界的普遍关注,越来越多的语言学家愿意采用语料库作为他们的工具来研究语言,并取得了令人可喜的成绩。《语料库语言学研究丛书》的出版,可以帮助读者了解这门新兴学科的发展概貌,扩大读者的语言学视野,吸引更多的读者来关注这门新兴的学科。
语料库语言学的理论基础是哲学中的“经验主义”(empiricism)。为了深入地了解语料库语言学的理论基础,我们在这里简单地说明一下语料库语言学与哲学中的经验主义的关系。
哲学中的经验主义以Francis Bacon(培根, 1561-1626)、Thomas Hobbes(霍布斯,1588-1679)、John Locke(洛克, 1632-1704)、David Hume(休谟, 1711-1776)为代表,他们都是英国哲学家,因此,经验主义也被称为“英国经验主义”。Bacon批评理性派哲学家,他说,“理性派哲学家只是从经验中抓到一些既没有适当审定也没有经过仔细考察和衡量的普遍例证,而把其余的事情都交给了玄想和个人的机智活动”[10]。他提出“三表法”,制定了经验归纳法,建立了归纳逻辑体系,对于经验自然科学起了理论指导作用。Hobbes认为归纳法不仅包含分析,而且也包含综合,分析得出的普遍原因只有通过综合才能成为研究对象的特殊原因。Locke把理性演绎隶属于经验归纳之下,对演绎法作了经验主义的理解,他认为,一切知识和推论的直接对象是一些个别、特殊的事物,我们获取知识的正确途径只能是从个别、特殊进展到一般,他说,“我们的知识是由特殊方面开始,逐渐才扩展到概括方面的。只是在后来,人心就采取了另一条相反的途径,它要尽力把它的知识形成概括的命题”[11]。Hume运用实验推理的方法来剖析人性,试图建立一个精神哲学体系,他指出,“一切关于事实的推理,似乎都建立在因果关系上面,只要依照这种关系来推理,我们便能超出我们的记忆和感觉的见证以外”[12],他认为,“原因和结果的发现,是不能通过理性,只能通过经验的”[13],经验是我们关于因果关系的一切推论和结论的基础。
现代自然科学的代表人物Isaac Newton(牛顿, 1642-1727)建立了经典力学的基本定律即牛顿三定律和万有引力定律,使经典力学的科学体系臻于完善。他的哲学思想也带有明显的经验主义倾向。Newton认为自然哲学只能从经验事实出发去解释世界事物,因而经验归纳法是最好的论证方法。他说:“虽然用归纳法来从实验和观察中进行论证不能算是普遍的结论,但它是事物本性所许可的最好的论证方法,并随着归纳的愈为普遍,这种论证看来也愈有力”[14]。他把经验归纳作为科学研究的一般方法论原理,认为,“实验科学只能从现象出发,并且只能用归纳来从这些现象中推演出一般的命题”[15]。正是由于Newton遵循经验归纳法,才在物理学上取得了划时代的伟大成就。
法国启蒙运动的代表人物Voltaire(伏尔泰,1694-1778)也有明显的经验主义倾向。他以Locke的经验主义为武器去反对教会至上的权威,否定神的启示和奇迹,否认灵魂不死。他赞美经验主义哲学家Locke:“也许从来没有一个人比Locke头脑更明智,更有条理,在逻辑上更为严谨”[16]。他积极地把英国经验主义推行到法国,推动了法国的启蒙运动。
现代语言学的发展明显地受到这些经验主义哲学的影响。无论是规范语言学、历史语言学或是描写语言学,都注重语言事实,都提倡经验主义。
20世纪初年,描写语言学(descriptive linguistics)的研究的经验主义色彩变得更加浓厚。描写语言学主张从具体的语言材料出发,以替换和分布为手段,以辨别语素分析层次为目的,建立了一套完整的语言描写方法,通过语言学家对于语言材料的细心观察和描写,来发现自然语言现象的规律性。描写语言学的这种经验主义方法取得了很大的成功。
然而,描写语言学这种明显的经验主义倾向到了Noam Chomsky(乔姆斯基)那里出现了重大的转向。于是,语言学中的经验主义几乎完全被理性主义所代替了。
1956年,Chomsky从Shannon(香农)的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言,建立了自然语言的有限状态模型。Chomsky根据数学中的公理化方法来研究自然语言,采用代数和集合论把形式语言定义为符号的序列,从形式描述的高度,分别建立了有限状态语法、上下文无关语法、上下文有关语法和0型语法的数学模型,并且在这样的基础上来评价有限状态模型的局限性,Chomsky断言:有限状态模型不适合用来描述自然语言。这些早期的研究工作产生了“形式语言理论”(formal language theory)这个新的研究领域,为自然语言和形式语言找到了一种统一的数学描述理论,形式语言理论也成为了计算机科学最重要的理论基石。
Chomsky在他的著作中明确地采用理性主义的方法,他高举理性主义的大旗,把自己的语言学称之为“笛卡儿语言学”,旗帜鲜明地反对经验主义的描写语言学,充分地显示出Chomsky的语言学与理性主义之间不可分割的血缘关系。Chomsky完全排斥经验主义的统计方法。在1969年的Quine's Empirical Assumptions一文中,他说:“然而应当认识到,‘句子的概率’这个概念,在任何已知的对于这个术语的解释中,都是一个完全无用的概念”[17]。他主张采用公理化、形式化的方法,严格地按照一定的规则来描述自然语言的特征,试图使用有限的规则描述无限的语言现象,发现人类普遍的语言机制,建立所谓的“普遍语法”(universal grammar)。转换生成语法(transformation generative grammar)在20世纪60年代末到70年代时期在国际语言学界风靡一时,广为传播。
转换生成语法的研究途径在一定程度上克服了描写语言学的某些弊病,推动了语言学理论和方法论的进步,但它认为统计只能解释语言的表面现象,不能解释语言的内在规则或生成机制,远离了描写语言学的经验主义的途径。
这种转换生成语法的研究途径实际上全盘承继了理性主义的哲学思潮。这种理性主义的方法认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,因此,他们认为,思维就是符号运算。
著名语言学家J. A. Fodor(弗托)在《表达》(Representations)一书中说:“只要我们认为心理过程是计算过程(因此是由表征式定义的形式操作),那么,除了将心灵看作别的之外,还自然会把它看作一种计算机。也就是说,我们会认为,假设的计算过程包含哪些符号操作,心灵也就进行哪些符号操作。因此,我们可以大致上认为,心理操作跟图灵机的操作十分类似。”[18] 弗托的这种说法代表了语言学中的基于符号运算的理性主义观点。
这样的理性主义观点受到了学者们的批评。J. R. Searle(舍尔)在他的论文《Minds, Brains and Programmes》[19] 中,提出了所谓“中文屋子”的质疑。他提出,假设有一个懂得英文但是不懂中文的人被关在一个屋子中,在他面前是一组用英文写的指令,说明英文符号和中文符号之间的对应和操作关系。这个人要回答用中文书写的几个问题,为此,他首先要根据指令规则来操作问题中出现的中文符号,理解问题的含义,然后再使用指令规则把他的答案用中文一个一个地写出来。比如,对于中文书写的问题Q1用中文写出答案A1,对于中文书写的问题Q2用中文写出答案A2,如此等等。这显然是非常困难的几乎是不能实现的事情,而且,这个人即使能够这样做,也不能证明他懂得中文,只能说明他善于根据规则做机械的操作而已。舍尔的批评使理性主义的方法受到了普遍的怀疑。
正是在语言学中的理性主义观点受到普遍怀疑的背景之下,BROWN语料库、LOB语料库、London-Lund 英语口语语料库如雨后春笋般地相继建立,并且取得了突出的研究成果,借着语料库建立的这股东风,语言学又回归到了50年代末到70年代的20多年的时期内几乎被完全否定的经验主义方法上去,不过,这次回归不是回归到描写语言学而是回归到语料库语言学,而描写语言学和与语料库语言学都是以经验主义作为自己的哲学基础的。
然而,语料库语言学与描写语言学在获取语言知识的方法上有着本质的不同。描写语言学基本上是通过语言学家用手工方法或“内省”的方法,从有限的语料资料中归纳总结个别的语言数据来获取语言知识的,由于人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的全部的语言数据,因此,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不仅效率极低,而且带有很大的主观性。我国一些语言学家啧啧地称道的所谓“例不过十不立,反例不过十不破”的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就轻而易举地来决定语言规则的取舍,难以万无一失地保证这些规则的可靠性。语料库语言学提倡建立语料库,在计算机的辅助下,使用科学的统计方法,自动地或版自动地从浩如烟海的语料库中获取准确的语言知识。随着因特网日新月异的发展,因特网上有无比丰富的文本语言数据,有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从因特网上的这些大量的语言数据中自动地或半自动地获取语言知识。这是语言学获取语言知识方式的巨大变化,我们应该注意到这样的变化,努力学习语料库语言学的理论和方法,逐渐改变获取语言知识的手段。
语料库语言学为语言研究人员提供了一种新的思维角度,辅助人们的语言“直觉” (intuition)和“内省”判断,从而克服研究者本人的主观性和片面性,这样,语料库方法就逐渐成为语言学研究的主流方法,受到语言学研究者的普遍欢迎。
语料库语言学还为语言研究的现代化提供了强有力手段。我在30多年前曾经使用手工方法测试过汉字的熵(即汉字中所包含的信息量),这是中文信息处理的一项基础性研究工作。为了计算汉字的熵,首先需要统计汉字在文本中的出现频率,由于20世纪70年代还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,我只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频率表,最后根据这些不同的汉字频率表,逐步地扩大汉字的容量,终于计算出了汉字的熵。这是一件极为艰辛而烦琐的工作。如今我们有了机器可读的汉语语料库,完全用不着进行手工查频,频率的统计可以在计算机上进行,只要非常简单的程序就可以轻而易举地从语料库中统计出汉字的频率并进一步计算出汉字的熵。语言研究工作的效率成百倍、成千倍地提高了!当然,做学问是需要下苦功的,学问是从苦根上长出来的甜果,做学问要不怕吃苦,才有可能得到苦尽甜来的快乐;但是,如果能够少吃一些苦而获得更好的结果,也是应当受到欢迎的。语料库这种现代化的手段不仅可以帮助我们少吃很多的苦,而且也还能把学问做得更好,我们又何乐而不为呢?手工查频犹如赶着老牛破车在崎岖的山路上跋涉,使用语料库犹如乘宇宙飞船在广阔的太空中翱翔。这是我在语料库出现之前根本不敢想象的。语料库把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家可以集中精力来研究和思考那些更加重要的问题,这对于促进语言学研究的现代化具有不可估量的作用。
目前,语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、自动切分、词性标注、语义标注、句法语义分析,并研究具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编纂、语法研究、多语言跨文化研究、法律语言研究、作品风格分析、自然语言理解和机器翻译等领域中的应用,已经初步展现出这门新兴学科强大的生命力。
《语料库语言学研究丛书》收了6本国外有关语料库语言学研究的论文集和专著,力求反映当前语料库语言学的研究成果和发展动向。
《通过语料分析来教学》(Teaching and Leaning by doing corpus analysis)是第四次教学与语言语料库国际会议文集(2000年7月19-24日在Graz举行),该文集反映了在语言教学中应用语料库取得的进展,不论把语料库作为一种资源还是作为一种方法,它对于语言的教学或研究都有积极的作用。文集强调了“发现式学习”(discovery learning)的重要性,指出了发现式学习在课堂教学和课外研讨中都有很好的效果。文集还强调了在使用中学习口语和书面语的重要性,提出要充分地利用现代的语料库来学习、翻译和描述语言。文集主张以学生为中心,以基于语料库的语言调查为手段来进行语言教学。文集所收的文章既有回顾性的,也有前瞻性的,在这些文章中,作者们描述了他们使用语料库来教学的实践与担心,成功与失败,让读者来分享他们的教学经验。
《超句法表示结构的形式与功能》(Form and function of parasyntactic representation structure)根据真实的语料数据,从功能的视角来研究韵律-句法的相互作用。作者介绍了Halliday关于声调是一个信息单位的解释,Halford关于从韵律方面和句法方面定义“谈话单位”(talk unit)的思想,Esser关于抽象表达结构的概念,在这里理论的基础上,作者建立了一个“修正的谈话单位模式”(modified talk unit model)。这种谈话单位模式是一种“超句法的模式”(parasyntactic unit),既要进行定量的分析,也要进行功能的分析,并在声调单位的边界处来研究韵律状态和句法状态的相互作用。这项研究的数据是从London-Lund 英语口语语料库中采集的,样本包含50,000个单词。研究结果表明,使用韵律-句法的相互作用,可以更有效地对语言信息进行结构化的描述。本研究应用了语料库语言学的方法来分析谈话单位在风格和语用方面的潜在特征,对于英语口语进行功能主义和经验主义的分析,具有开创性。
《语料库语言学进展》(Advances in Corpus Linguistics)是第23届基于计算机化语料库的英语研究国际会议文集,包括22篇论文,反映了语料库语言学的最新进展。论文中心内容是讨论理论、直觉和语料的关系以及语料库在语言学研究中作用。大多数论文是关于英语的某个特定方面的经验研究,从词汇和语法到话语和语用,涉及面很广泛。此外,论文还讨论了语言变异、语言发展、语言教学、英语与其他语言的跨语言比较、语言研究软件工具的研制等问题。论文的作者中有许多是著名的语言学家,如M.A.K. Halliday、John Sinclair、Geoffrey Leech和Michael Hoey等。本文集既注意理论,又注意方法,清楚地显示了在经验主义方法论的影响下语料库语言学这个新兴学科正在稳步地发展中。
《应用语料库语言学:多维视角》(Applied Corpus Linguistics: A Multidimensional Perspective)是美国印第安纳大学跨文化交流中心第四届北美研讨会的文集(2002年11月在Indiananpolis举行),作者来自美国、比利时、中国、法国、德国、爱尔兰、荷兰、西班牙等8个国家,内容涉及基于语料库的课堂教学、口语的话语分析、书面语的话语分析、网络话语分析等。整个文集分为两部分。第一部分是语料库语言学在口语的话语分析和书面语的话语分析中的应用,第二部分是语料库语言在直接教学法中的应用。
《拓展基于语料研究的范围》(Extending the Scope of Corpus-based Research)是北亚利桑那大学现代英语和中古英语计算机文档国际会议文集(2001年在Arizona举行)。这次会议的主题是“对语料库语言学的新挑战”。这种新挑战包括:改进语料库语言学的方法论标准,划清基于语料库的研究与理论语言学之间的界线,进一步探讨语料库语言学在语言教学中的应用。文集中的文章清楚地显示了基于语料库的研究正在迎击这样的挑战。
《应用语言学中的语料库》(Corpora in Applied Linguistics)以丰富而有趣的实例说明了语料库在应用语言学中的作用,本书广泛地使用了COBUILD “英语银行”(Bank of English) 语料库中丰富的语言材料,把应用语言学与语料库密切地结合起来,对于如何在应用语言学中发挥语料库的作用,提出了许多独到的见解。本书还讨论了语料库对于应用语言学的重要性和它的局限性。语料库对于应用语言学的重要性在于:语料库可以帮助人们克服语言“直觉”的不足,语料库是收集和存储语言数据的一种手段,借助于“词语索引”(concordance list)和“频率”(frequency),语料库可以大大地改善人们的语言“直觉”,弥补了“内省”方法的不足,从而克服主观性和片面性。语料库的局限性是:语料库只能给我们关于某种语言现象频率高低的信息,但是不能给我们某种语言现象是否可能的信息;语料库只能告诉我们语言事实本身,但是不能进行推理;语料库只能给我们提供例证,但是不能对于例证提供解释,对于例证的解释要依靠语言学家对于语言的直觉和内省;此外,文本语料库还不能提供关于声调、手势以及社会背景方面的信息。
《语料库语言学研究丛书》的内容丰富而新颖,这是反映语料库语言学在当前发展情况的一面镜子,读者可以通过这面镜子,对于当前的语料库语言学获得一个鸟瞰式的认识。希望广大读者喜爱这套丛书,从阅读中开阔眼界,获得新知。是为序。
[1] J. Kaeding, Häufigkeitswörterbuch der deutschen Sprache, Steglitz: published by the author, 1897.
[2] R. Quirk,Towards a description of English usage, Transactions of the Philological Society, P40-61, 1960.
[3] A.Juilland and E. Chang-Rodriguez, Frequency Dictionary of Spanish Words, The Hague, Mouton,1964.
[4] W. Francis, Problems of assembling, describing and computerizing large corpora, Scripter Verlag, p110-123, 1979.
[5] R. Garside, G. Leech and A. M. McEnery, Corpus Annotation, London, Longman, 1997.
[6] J. Svartvik and R. Quirk, The London-Lund Corpus of Spoken English, Lund University Press, 1980.
[7] M. Marcus, B. Santorini and M. Marcinkiewich, Building a large annotated corpus of English: the Penn Treebank, Computational Linguistics, 19(2), P312-330, 1993.
[8] 词类标记说明:n--名词,nh--人名,u--助词,vl--系动词,w--标点符号,d--副词,c--连接词,nd--方位词,p--介词,a--形容词,r--代词,k--后加成分,vu--助动词,vd--趋向动词。
[9] J. Sinclair, Corpus, Concordance, Collocation, Oxford University Press, 1991.
[10] 《十六——十八世纪西欧各国哲学》,第23页。
[11] 洛克,《人类理解论》,商务印书馆,第598页。
[12] 休谟,《人类理解研究》,商务印书馆,第27页。
[13] 《十六——十八世纪西欧各国哲学》,第634页。
[14] 塞耶编,《牛顿自然哲学著作选》,商务印书馆,第212页。
[15] 塞耶编,《牛顿自然哲学著作选》,商务印书馆,第8页。
[16] 《十八世纪法国哲学》,商务印书馆,第59页,1963年。
[17] Chomsky, N. 1969. Quine's Empirical Assumptions, In Davidson, D. and J. Hintikka, eds., Words and Objections, Dordrecht: Reidel.
[18] J. A. Fodor, Representations, MIT Press, 1980.
[19] J. R. Searle, Minds, Brains and Programmes, In Behavioral and Brain Sciences, Vol.3, 1980.

