走在文理结合的道路上(5)
德国斯图加特:建立世界上第一个中文术语数据库
1985年,原文字改革委员会改名为国家语言文字工作委员会,需要计算语言学方面的人材,冯志伟调入了国家语言文字工作委员会语言文字应用研究所担任计算语言学研究室主任,得以专门从事计算语言学的研究工作。与此同时,理工科方面仍然很需要他,他也在中国科学院软件研究所担任兼职研究员。
冯志伟取得的成就引起了国内外学术界的瞩目,但是,冯志伟却非常谦虚。他说:“我的所知总是很有限的,而我的未知却是无限的,因此,我要不懈地追求新知。”
冯志伟一鼓作气,不倦地探索新的知识。不久,他就向术语学这个新的领域进军了。
根据中德科技合作协定,冯志伟受中国科学院软件研究所的派遣,于1986年至1988年到德国夫琅禾费研究院新信息技术与通讯系统研究所(FhG)担任客座研究员,从事术语数据库的开发。FhG在德国的Stuttgart(斯图加特),是德国著名的工程研究院,在信息科学和术语数据库方面的研究尤其出色。
术语是人类科学技术知识在自然语言中的结晶。术语数据库是在计算机上建立的人类科学技术的知识库,冯志伟的这项研究属于知识工程的研究,具有重要的意义。
当时还没有很好的汉字输入输出软件,冯志伟克服了重重困难,在FhG使用UNIX操作系统和INGRES软件,建立了数据处理领域的中文术语数据库GLOT-C,并且把这个数据库与FhG的其他语言的术语数据库相连接,可以快速地进行多语言术语的查询和检索,并且能够处理汉字。这是世界上第一个中文术语数据库,具有开创作用。
在FhG研究术语数据库的过程中,冯志伟还接触到多种语言的大量术语,他惊异地发现,几乎在每一种语言中,词组型术语的数量都大大地超过了单词型术语的数量。他试图从理论上对这样的语言事实进行解释。
为此,他把数理语言学的理论应用到术语数据库的研究中,提出了“术语形成的经济律”。他证明了:在一个术语系统中,术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值,并提出了“FEL公式”来描述这个定律。
根据FEL公式可知,在一个术语系统中,提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下,增加单词的术语构成频度。这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。
FEL公式从数理语言学的角度,正确地解释了为甚么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理,它反映了语言中的省力原则和经济原则,这是我国学者对于数理语言学中著名的齐夫定律(Zipf's law)的新发展,并从术语的角度说明了语言中的省力原则和经济原则是具有普遍意义的原则。
“术语形成的经济律”提出之后,国内外的术语学界根据术语数据库的事实进行检验,检验证明,在各种术语数据库中,词组型术语的数目确实都大于单词型术语的数目。因此,冯志伟提出的“术语形成的经济律”是适应于各种语言的一条普遍规律,是现代术语学的一条重要的基本定律。
语言是现实的编码体系,术语形成的经济律反映了用词作为语言材料进行单词型术语和词组型术语的编码时的经济律,这一经济律也可适用于语言编码的其他领域。汉语中在用单字组成多字词的时候,有限数目的单字组成了为数可观的多字词,多字词以增加自身的长度为代价来保持汉语中原有单字的个数或者尽量不增加原有单字的个数,体现了组字成词这个编码过程的经济律。多字词也就是双音词或多音词,著名语言学家吕叔湘先生指出,“北方话的语音面貌在最近几百年里没有多大变化,可是双音词的增加以近百年为甚,而且大部分是与经济、政治和文化生活有关的所谓‘新名词’。可见同音词在现代主要是起消极作用,就是说,要创造新的单音词是极其困难的了。”吕叔湘先生在这里一方面指出了要创造新的单音词(即单字)极其困难,一方面又指出了双音词(即双字词)的大量增加的现象,这正是组字成词的经济律的生动体现。
对汉字结构及其构成成分的统计与分析表明,在《辞海》(1979年版)所收的16295个字和GB2312-80国家标准《信息交换用汉字编码字符集·基本集》收入而《辞海》未收的43个字中,简化字和被简化的繁体字(包括被淘汰的异体字和计量用字)以及未简化的汉字共有16339个,它们是由675个不能再分解的末级部件构成的,简化字和未简化的汉字(不包括被简化的繁体字、被淘汰的异体字和计量用字)共11837个,它们是由648个不能再分解的末级部件构成的。由少量的部件构成大量的汉字,体现了部件构成汉字这一编码过程的经济律。
所以,冯志伟提出的术语形成经济律实际上乃是“语言编码的经济律”,这是语言学中的一个普遍规律,它支配着语言编码的所有过程。
冯志伟在研究FEL公式的同时还提出了“生词增幅递减律”,他指出,在一个术语系统中,每个单词的绝对频度是不同的,经常使用的单词是高频词,不经常使用的单词是低频词,随着术语条目的增加,高频词的数目也相应地增加,而生词出现的可能性越来越小,这时,尽管术语的条数还继续增加,生词总数增加的速率却越来越慢,而高频词则反复地出现,生词的增幅有递减的趋势。这个“生词增幅递减律”不仅适用于术语系统,也适用于阅读书面文本的过程,人们在阅读一种用自己不熟悉的语言写的文本时,开始总有大量不认识的生词,随着阅读数量的增加,生词增加的幅度会逐渐减少,如果阅读者能够掌握好已经阅读过的生词,阅读将会变得越来越容易。
冯志伟在术语研究中还提出了“潜在歧义论”(Potential Ambiguity Theory,简称PA论),指出了中文术语的歧义格式中,包含着歧义性的一面,也包含着非歧义性的一面,因而这样的歧义格式是潜在的,它只是具有歧义的可能性,而并非现实的歧义,潜在的歧义能否专转化成现实的歧义,要通过潜在歧义结构的“实例化”(instantiation)过程来实现,“实例化”之后,有的歧义结构会变成真正的歧义结构,有的歧义结构则不然。这一理论是对传统语言学中“类型-实例”(type-token)观念的冲击,深化了对于歧义格式本质的认识,近年来,冯志伟又把PA论推广到日常语言的领域,促进了自然语言处理中的歧义消解的研究。术语是记录科学技术知识的基本单元,哪里有知识,哪里就有术语。因此,术语的研究对于人类知识的系统处理,对于科学技术交流都有着重要的价值。冯志伟把他研究术语的成果写成《现代术语学引论》一书于1997年出版,这是我国第一本关于术语学的专著。
在1991年,冯志伟还在湖南教育出版社出版了《数学与语言》,著名数学家陈省身教授在扉页上题词:“我们赞赏数学,我们需要数学”。
(云南大学张在云)
