语言学研究者必须了解的中国语料库状况
冯志伟
从1979年以来,中国就开始进行机器可读语料库(machine-readable corpus)的建设,早期在中国建立的主要的机器可读语料库有:
■汉语现代文学作品语料库(1979年),527万字,武汉大学。
■现代汉语语料库(1983年),2000万字,北京航天航空大学。
■中学语文教材语料库(1983年),106万8千字,北京师范大学。
■现代汉语词频统计语料库(1983年),182万字,北京语言学院。
早期的这些语料库多数是采用手工键入的方式建立的,耗时耗力,缺乏规范,规模较小,重用性差。为了建设这样的语料库,需要付出艰辛的劳动。北京航空航天大学计算机系刘源教授在该校2000万字的语料库建设中积劳成疾,健康受到严重的损害,不幸早逝。我国语料库的早期建设者的敬业精神是值得我们尊敬的。
北京航空航天大学的语料库还进行了词频统计和汉语书面文本自动分词研究,发现了两种不同的分词歧义字段:交集型歧义字段和多义组合型歧义字段:
■交集型歧义切分字段:例如:“地面积”可能切为“地面”或“面积”,“面”成为交段,从而产生歧义。
■多义组合型歧义切分字段:例如:“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。
他们曾对一个48092字的自然科学、社会科学样本进行了统计:交集型切分歧义518个,多义组合型切分歧义42个。据此推断,中文文本中切分歧义的出现频度约为1.2次/100字,交集型切分歧义与多义组合型切分歧义的出现比例约为12:1。
为了推动汉语语料库的深入研究,我国还建立了初步的分词规范:1990年10月,在计算机界和语言学界的共同努力下,我国制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。
1991年,国家语言文字工作委员会(现已并入国家教育部)开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字。当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库,其语料要经过精心的选材,语料的选材应受到如下限制:
①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。
②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。
③使用领域的限制:语料有人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。主要选取通用的语料,优先选取社会科学和人文科学的语料。
为了加工这个国家级语料库,国家社科基金设立了社科重大项目“信息处理用现代汉语词汇研究”,希望利用该项目的成果来加工这个语料库。
该课题已经结项,国家教育部语言文字应用研究所成立了“汉语语料库深加工”的课题组,已经完成了7000万字语料的深加工,把这个生语料库变成了熟语料库。
1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库、北京大学计算语言学研究所、北京语言大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市大学、东北大学、哈尔滨工业大学、中国传媒大学、中国科学院软件研究所、中国科学院自动化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所(筹备处)。
其中,中国传媒大学的语料库包括文本语料库(7000多万字)、音视频语料库(900小时的音频和视频语料)和精品语料库(如著名主持人的节目、获奖节目的音频视频语料)。这是世界上规模最大的、多模态的汉语传媒有声语言的语料库,语料库加工体系从语音开始,到文字、词语、句子、篇章都进行了标注和处理。
我国语料库的建设与语言学研究有着密切的关系。例如,在中国传媒大学语料库的基础上,进行了汉语同类词短语的研究、汉语插入语的研究、网络语言研究、汉语熟语标记研究、汉语“有”字句研究、汉语“吧”字研究、汉语“然后”研究、主持人韵律特点研究等。语料库成为了语言学研究的语言资源,又成为了语言学研究的工具,有力地推动了语言学研究的发展。
我国在20世纪80年代中期就建立了第一个英语语料库,即上海交大科技英语语料库,简称JDEST(Jiao Da English for Science and Technology),这个语料库是由上海交通大学建成的。JDEST的建成,为我国大学英语教学大纲的制定和词表统计做出了积极的贡献。这个语料库当时在欧洲受到语料库语言学界的广泛关注,JDEST成为国际第一代语料库。后来在中国建成的英语语料库还有:ICLE中国子语料库、中国英语学习语料库、大学学习者英语口语语料库、中国专业英语学习者口语语料库、CEC中国英语语料库、中学英语口语语料库等,这些英语语料库都与中国的外语教学和外语学习紧密相联。外语教学和外语学习是我国应用语言学的重要内容,是语料库推动我国应用语言学发展的又一个重要内容。
目前,语料库的深加工受到各国学者的普遍重视,很多国家都对语料库文本进行句法标注(syntactic annotation)和语义标注(semantic annotation),把语料库进一步加工成树库(tree bank)。例如,英语有英国Lancaster-Leeds树库、美国的宾州大学的Penn树库,德语有TIGER树库和NEGRA树库,捷克语有布拉格大学的PDT树库。汉语树库的建设也取得了可喜的成绩,例如,清华大学的TCT树库、台湾中央研究院的Sinica中文树库、哈尔滨工业大学的汉语依存树库、中国传媒大学的依存树库、中国科学院计算技术研究所的汉语树库、美国的Penn中文树库等,都可以成为语言资源自动获取的重要工具。
总而言之,语料库给语言学研究提供了无比丰富的语言资源。传统语言学研究中得出的很多几乎已经成为定论的语言规则需要我们根据语料库去重新认识和评价,许多新的语言学思想将从语料库的研究中产生出来。语言本身确实是无比复杂的,观察语言现象时,我们决不能掉以轻心,我们应当借助于语料库,更加努力地工作,从而推动语言学的发展。
