Quantcast
Channel: 冯志伟文化博客
Viewing all 562 articles
Browse latest View live

专访冯志伟:NLP研究尚处于初级阶段,未来将属于年轻一辈

$
0
0

专访冯志伟:NLP 研究尚处于初级阶段,未来将属于年轻一辈

本文作者:汪思颖

2018-10-24 11:28

导语:学术像一棵永恒的大树,人的生命很渺小,跟科学发展不能比。

专访冯志伟:NLP研究尚处于初级阶段,未来将属于年轻一辈


计算语言学是一门结合计算机和语言学的交叉领域。在这一领域,有这样一位极为罕见的文理兼通、跨学科的研究型专家。他既懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,完成各种研究任务。他在不同学科、不同语言研究中都取得重要的成就,分别成为这些学科的学术带头人。

这是冯志伟教授今年获得 CCF-NLPCC 杰出贡献奖的得奖理由。作为中国最早进行计算语言学研究的元老级人物之一,冯志伟教授目前为北京大学、浙江大学、中国传媒大学、大连海事大学兼职教授,杭州师范大学高端特聘教授。

 

 18 岁以优异成绩考入北京大学地球化学专业之后,他在北大图书馆偶然看到美国语言学家乔姆斯基 N. Chomsky)的论文《语言描写的三个模型》(Three models for the description of language),被乔姆斯基在语言研究中的新思想所吸引,继而转到语言专业从事文科类的语言学学习。

1964 年,考上北京大学语言学理论的研究生后,他将研究生毕业论文的题目定为《数学方法在语言学中的应用》,在我国语言学研究中,首次系统地、全面地来研究数理语言学这个新兴学科。

文革之后,他又以优异的理科成绩考上中国科学技术大学研究生院信息科学系的研究生,又开始了理科学习。

1978 年,冯志伟教授去往法国格勒诺布尔理科医科大学应用数学研究所 IMAG)自动翻译中心(CETA),师从法国著名数学家、国际计算语言学委员会主席沃古瓦(B.Vauquois)教授,研究数理语言学和机器翻译问题,研制了世界上第一个汉语到多种外语的 FAJRA 机器翻译系统。

他于 1981 年回国,在中国科学技术信息研究所计算中心担任机器翻译研究组组长。

回国之后,他所做的主要研究工作如下:

1981 年在计算机科学杂志上,从数学的角度,首次系统分析乔姆斯基的形式语言理论。

1983 年发表文章在国内首次系统地介绍泰尼埃的依存语法,推动了国内对于依存语法的研究。

1985 年研制成功世界上第一个中文术语数据库。

1985 年提出潜在歧义理论,为汉语歧义结构的排歧建立了行之有效的形式化方法。

80 年代:写出了中国第一本数理语言学专著;出版了中国第一本现代语言学流派的专著;提出术语形成经济律,并用 FEL 公式来描写这个定律;首次发表文章系统地分析齐普夫定律来龙去脉,开国内计量语言学和数理语言学研究之先河。

90 年代用德文出版了汉字的专著,2017 年先后出版了希腊文和英文的汉字专著。

翻译出版「自然语言处理综论」的大部头专著,出版「自然语言计算机形式分析的理论与方法」的大部头著作,出版中国第一部「现代术语学引论」专著,主持和参与多个有关术语和信息处理的国家标准的研制。

连续五年主持国际标准 information and documentation: romanization of Chinese 的研制。

「老骥伏枥,志在千里。」冯志伟教授年近八十,仍笔耕不辍,活跃在科研第一线,积极推动计算语言学的发展。就在今年,在 79 岁高龄,他已经发表 9 篇中文论文,《机器翻译是人工智能皇冠上的明珠》一文成为他发表的第 400 篇中文论文,并被《语言战略研究》2018 年第 5 期用作「卷首语」。

以下为雷锋网(公众号:雷锋网) AI 科技评论与冯志伟教授的对话实录,六十年研究,冯志伟教授见证了计算语言学在中国的逐步发展与壮大,也对中国的年轻一代充满希冀。

1. 您进行计算语言学研究的契机是什么?能谈谈您这些年的研究历程吗?

冯志伟:我于 1957 年进入北大,最初学习地球化学专业,研究地球上的元素分布。那时候,我对自然界的矿物很感兴趣,比如各种石头、宝石等。由于元素种类、晶体结构不同,石头的颜色各异,我想研究这些元素是如何分布的,这本身具有实用价值,可以指导地质工作,也比较有意思。

当时北大比较开放,除了老师讲课,还有其他获取知识的方式。在图书馆,我看到乔姆斯基在《Information Theory》上的文章《语言描写的三种模型》,这三种模型(马尔可夫模型、短语结构模型、转换模型)都用数学方法描述语言现象。语言具有文化色彩,如何让它跟数学产生关联,这是一件非常有意思的事情。进一步,我得到消息,美国在 1954 年就用计算机将俄文自动翻译成英文。

乔姆斯基的论文以及美国的俄英翻译系统的研制让我展开无尽想象——能不能用数学的方法来处理、帮助机器翻译呢。这方面的研究当时是语言学界在做,因此我下定决心转行研究语言学。真正从事语言学研究之后才知道,这并不像我所想的那么简单。语言跟人的思维有关,它又是人类几千年文化传承的产物,与自然现象不同,是非常复杂的问题。

 1964 年考上研究生,花了两年左右的时间,想出了描述语言的数学结构模型的基本轮廓。1966 年,发生文化大革命,没法再继续研究。1967 年,毕业之后我离开北大去云南教中学物理。直到 1977 年,邓小平主张发展科学,高等院校重新招生,但是那时候是面向理科招生,因此我决定考取中国科技大学信息科学系研究生。1978 年我考上研究生之后,科研形势变好,之后就被公派到法国留学。

我在中学时就把俄语学得差不多了,去北大之后又自学了英文、德文,到法国又学习了法语。我与在法国留学期间的老师——沃古瓦(B.Vauquois)教授商量之后,决定做一个汉语翻译系统,把中文翻译成外文(英、法、德、日、俄)。

从法国学成归来以后,我最早在中国科学技术信息研究所计算中心担任工程师,随后,被调入国家语言文字工作委员会语言文字应用研究所(后更名为教育部语言文字应用研究所),那之后,我先后到德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学语言文学院、德国康斯坦茨高等技术学院国际术语学和应用语言学中心(CiTaL)、桑夏自然语言处理研究院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)进行学习和工作。

2. 这些年的研究生涯中,哪一成果您觉得最具代表意义?

冯志伟:我在法国留学期间的导师沃古瓦(B.Vauquois)教授是法国著名数学家、国际计算语言学委员会第一届主席。跟他商量之后,我决定研制上面所说的汉语翻译系统,把中文翻译成五种外文(英、法、德、日、俄)。

那时候的理论根据,基本上围绕乔姆斯基理论展开,他的短语结构语法用来分析英文、法文很合适,但分析中文有一个很大的问题——短语结构语法太简单。后来我提出「多叉多标记树模型」(Multiple-labeled and Multiple-branched Tree ModelMMT),可以解决他的理论难以解决的中文问题。多叉多标记树理论对语言在形态、句法、语义、逻辑等方面进行多角度的分析,分了很多层次。MMT 模型是我对 NLP 最大的一项贡献,一直到现在,NLP 学界基本没有跳出形态、句法、语义、逻辑这个框架。当然,这一成果跟我的老师分不开,他指导我做到了相当深的程度。

3. 我国计算语言学经历了怎样的发展历程?

冯志伟:中国的计算语言学研究,大致分为如下三个时期:

·        萌芽期

1954 年,美国研制出第一个俄英机器翻译系统,中国就开始注意到这个问题。在 1956 年国家科学规划里,谈到机器翻译和自然语言的形式化研究。当时,科学院的一些研究人员已经认识到语言学科的数学模型研究,NLP这个学科开始萌芽,但还没有出现成果。

1959 年,我国研制出第一个机器翻译模型,将俄文翻译成中文,实现了从无到有的突破。那一段时期,我国以语言所和计算所为中心,开始准备研制英汉翻译系统并提出设计方案。国内如哈尔滨、广州等地有一些语言学与计算机的专家联合作战,攻关机器翻译。随着文化大革命的出现,国家停止了对科研的投入,NLP 的研究进度也开始放缓。

·        恢复期

文革结束之后,萧条了 10 年之久的 NLP 研究开始复苏。我国公派一批学生去国外学习,了解NLP 最新进展,带回国外的先进理念。从 1976 年开始,持续到 80 年代末期,留学生学成归来之后,在国内积极开展工作。这段时期,中国积极与国际交流,将计算语言学由技术问题发展成一门学问。大概从 1982 年开始我参加了 COLING-82 的国际会议并发表论文,中国的学者逐渐出现在计算语言学顶级学术会议上。

·        发展期

1989 年以后,机器翻译从基于规则到基于语料库,开始走向工业应用,以翻译产品为主的公司出现。这段时期开始着重资源建设,例如收集数据,建立双语语料库。

2016 年以后,神经机器翻译的正确率可以达到 95% 以上。神经机器翻译出现之后,机器翻译开始实用化,国内科大讯飞、百度、搜狗、有道等纷纷推出机器翻译系统。

从国际上来看,计算语言学的发展与自然语言处理顶级会议 COLING 息息相关。

1989 年以前,基本上是基于语言学规则来进行机器翻译、信息检索、文本处理。这时候语言学家的知识与计算语言学密切联系,只需把知识形式化,用数学模型表达出来就可以。

1989 年以后出现重大转折,在 1993 年的机器翻译高峰会议(MT summit)上,提出如下观点,规则难以覆盖语言现象,我们不应仅仅从书本中获取知识,而应从真实的大规模语料库中获取。那之后,知识的提取不再借助于规则,而是基于真实的文本。这时候非常重视语料库的建设,注重知识的客观性。

这之后,信息抽取、数据挖掘以及语音识别普遍使用统计的方法。这一阶段,机器翻译的正确率从60% 一跃提高到 80% 以上,我们看到了希望。

现在 COLING 的方向又变了,研究工作全是基于 CNNRNN 等深度学习的方法。这些年间,学科经历了从书本到语料库,再到大型双语语料库的转变。

总结起来,大致分为这三个阶段:

第一阶段,基于规则的符号主义阶段。

第二阶段,基于语料库的经验主义阶段。

第三阶段,基于深度学习的阶段。

4. 目前国内在计算语言学研究上,有哪些不错的成果?

冯志伟:对深度学习在机器翻译中的改进,现在国内有一些工作做得比较不错。清华大学计算系刘洋主要做神经机器翻译,最近做了改进深度学习的方法,他的工作在国际上有一定影响力。邓力也是国际上知名的深度学习专家,华裔美国人,他们在合写《自然语言处理中的深度学习》一书,这具有国际水平。

在三、四十岁左右的年轻人中,有不少青年才俊。例如北大计算语言学研究所的孙栩,他最近获得NLPCC 青年新锐奖,这几年也发表了不少文章,在自然语言处理上先后提出一系列新方法并获得突出效果。

1982 年,我作为唯一的一个中国代表参加 COLING,那也是中国计算语言学界第一次参加国际会议,近些年进步很快,像王海峰、周明等人进入了国际语言学会领导班子,甚至还带领国外向前走。

5. 结合您的研究生涯,目前我们对 NLP 的研究尚处于什么阶段?未来有哪些值得研究的方向?

冯志伟:从法国学成归来以后,我继续做过英汉、德汉、法汉、日汉系统,当时的问题是,系统在封闭领域内做得还不错,一旦开放,正确率可能就只能达到 50%-60%。当时,每做一个系统大概需要 3 年左右的时间,优化起来也很困难,这么低的正确率,根本不能为社会服务,这在当时是个相当痛苦的问题。

1993 年在日本神户召开的 MT summit 对我启发很大,当时提出基于统计的方法来进行机器翻译。那之后,我读了许多统计方面的文献著作,我与一些学者合作,系统正确率能达到 80% 左右。

我们应该对机器翻译的发展持乐观态度。现在神经机器翻译的正确率能够达到 98% 以上,是我们过去所没有想到的,这个成绩非常不错。

当然也不能过分乐观。现在这种做法存在一个问题,神经网络是个黑箱,虽然效果不错,但我们对运行机制不清楚,拿到社会上用也是很冒险的。这一点与我们早期做机器翻译不同,当时基于规则的方法虽然正确率不高,但每一模块的原理都非常清楚,哪块程序出现错误,需要在哪里进行调试一目了然。

咱们还得研究神经网络机器翻译的运行机制。当然,现在又有了一些解释,如 Word2vec,把词的分布看成向量,通过向量运算关系算出结果。但运算过程如何?仍然是个黑箱。咱们还得在这方面多花功夫,把原理弄清楚。

以机器翻译为例,现在对一些新闻类或者特定场景下的文本的翻译没有问题。但是对于有思想感情的文学作品,如何在翻译中体现出喜怒哀乐?人是有感情的,想要实现机器对感情的理解,这一点还做不到。另外,还有常识知识的引入。很多时候,翻译结果在语法上没有错误,但是缺乏常识。常识的形式化是一个没有解决的问题,虽然现在有了知识图谱,能够帮助我们进一步解决,但这仍然是一个非常艰巨的任务。

语言非常生动,有文化传统,我们对于语言要有敬畏感,要真正把它形式化,还有非常长的路要走。现在尽管非常繁荣,但是还没有到顶点。从理论上来看,我们还处在比较浅的初级阶段,虽然出版了一些很厚的大部头著作,但还是比较幼稚。想要真正了解语言的结构、运行机制,可能还需要几辈人的努力。

科学研究像一棵参天大树,有一些学科,如物理学、化学、语言学、文学、哲学都很发达,他们是很粗的枝干。还有一些刚刚发芽,我们这一研究,就是一个刚刚长出的芽,虽然现在是一颗幼芽,但它是学科交叉生出的枝节,是科学的生长点,可以充分发挥创造性,提出很多新的理论、方法。

现在政府也很重视 NLP,它是人工智能的一个重要分支,很多人在进行研究。我觉得这一领域值得年轻人投入,他们充满了智慧和激情,可以将这一领域做好。

6. 在计算语言学的发展过程中,学习语言学、计算机、数学三个方向的人,在学科的交叉融合上做得怎么?应该从哪些方面努力,促进学科发展?

冯志伟:NLP 是文、理、工结合的最佳范例,我们深入到语言内部看数学面貌已有 60 年历史。美国著名计算语言学家马丁凯伊(Martin Kay)在 2005 年获得 ACL 终生成就奖的答谢辞中曾经说过这样的话:「计算语言学正在试图用计算的方式来研究语言学家们研究的问题」。这个说法我认为很深刻,我们应当把语言学与计算机科学紧密地结合起来,进一步推动自然语言处理的发展。

这三科目前主要的问题是互相学习、知识更新。现在这一领域的研究人员,特别是年轻人,比我们那时候要好。那时候,语言学家不懂统计学知识,只能提供语言学科的资料,现在大家基本上都会对其他学科有所了解。

最近几年情况比较好,学科之间有很多互动和交流,在国际、国内会议上,大家共聚一堂,讨论的主题基本接近,用的术语基本一致,有很多共同语言。现在固守某个领域的人已经越来越少。

当大家变成文理工兼通的人才,这样学科发展就会更快。这样的年轻人越来越多了,兼具跨学科思想与跨学科能力的人逐渐增加,这是非常好的现象。例如深度学习的方法,我们现在都在使用,对深度学习的理论探讨,对其运行机理的最后攻关,可能还要由语言学与计算机两个领域共同努力。

7. 传统语言学工作者,应该怎么帮助计算语言学研究?

冯志伟:这是一个比较大的问题。传统语言学的研究方法、目的跟我们完全不一样。他们的目的是找到一些语言规律,主要围绕把文章写得准确、鲜明、生动这三条原则。语言学家的研究没有形式化,他们往往对计算机运行机制不清楚,很难对计算语言学提供帮助。传统语言学要进一步发展,考虑之后如何将他们的研究与 NLP 结合,提供一些新的思想。

8. 这些年来,您翻译了许多大部头著作,也在写 NLP 相关教材,推动您进行这些工作的原因是什么?

冯志伟:NLP 是一门交叉学科,有完整的知识体系。在我看来,想要进行这种跨学科研究,最好先对这个交叉的领域有全面理解。语言工作者和计算机工作者对于对方领域的理解不够深入,在研究这一学科时,需要互相学习,进行知识更新。

我主张通过关注国外的进展,把优秀的总结性著作引入中国,把国内外的知识整合成一个系统用于授课,这就是我翻译并且亲自写大部头著作的动机。

通过这些工作,我基本上搭出了 NLP 研究的架子。对于目前存在什么问题,前人研究过什么问题,我们需要研究什么,具体的应用问题,这些我都一目了然。

一些博士生不太同意我这种观点,他们会说,要是先花一两年把学科钻研透再做研究,会造成成果延迟、影响力下降,现在都流行直接进入主题。确实,直接进入主题足够快,但这样的学生有一个问题,他对 NLP 知识体系的理解不够深入,只知其一不知其二,并不是一个很好的研究者。全面学好理论知识,对于你快速进入很窄的主题领域,会有启发作用。

写书和翻译属于基础建设,我们国家的 NLP 研究,除了要做好课题攻关解决具体问题,还得重视基础建设。

9. 对于计算语言学研究人员,您有哪些学习上的建议?

冯志伟:我还是坚持原来的看法,一定要把基础打好,不能急功近利。基础是做学问的根基,应当把数学、外语、计算机的基础知识掌握好。另外,要关心国际进展,经常浏览国外最新杂志,读完以后,争取有所突破。

新一代自然语言学家,一定要关注国内外最新杂志期刊,跟踪学科进展。作为研究者,一定要有意识地更新知识。例如进行语言学研究的人,想要进入计算语言学领域,一定要学一点数学、计算机知识,而且还要认真、深入地学,至少达到这两门课程的本科水平。

现在的年轻一代很幸福,国家给予各种机会和条件,可以申请资金,还有往前走的机会。他们可能不知道我们老年人的事情,那时候,由于中国社会的变化,我们的研究经历过许多曲折。我 1957年从云南考入北大,那时候中国的环境主张读书,但慢慢,社会变动以后,就开始对认真读书的人进行批判。离开北大之后,因为种种原因,我不能再继续研究计算语言学,按照分配回云南教物理,后来国家主张科学研究,我又有机会去国外学习。我们这代人的经历比你们复杂得多,现在的年轻人应该好好珍惜机会。

10. 获得 2018  NLPCC 杰出成就奖,您对此有什么感受?

冯志伟:CCF(中国计算机学会)授予我杰出成就奖,我事先毫不知情。这个奖不能由本人申请,也不能由本人推荐,完全是背靠背进行的。我觉得CCF的这种评奖方式很好,做到了公平和公正。通过对我们老年人的评奖,可以看出学科的发展历史。

这个奖不是我一个人的,是整个学科共同奋斗的结果,学界承认了我们这 60 年来所做的工作,从我们做的工作可以看出学科的发展面貌。

希望 CCF 能继续保持对学科的鼓励,包括对年轻人的鼓励,有意识引导大家往这个方向发展,让NLP 向前迈进。

我在 18 岁时对计算语言学产生热爱,现在已经 80 岁,由一个小孩儿变成老人。但是这 60 多年来,NLP 一直都是新兴学科,这说明学术是永恒的,学术像一棵永恒的大树,人的生命很渺小,跟科学发展不能比。所以,我们也不要因为目前所取得的点滴进步而沾沾自喜,一个人的成就与科学这棵参天大树相比,犹如沧海一粟,实在没有什么了不起。

后记:1957 年,乔姆斯基把语言描述的三种模型写成了一篇通俗的语言学读物,这本著作出版之后,人们对他的思想展开激烈辩论,承认这一思想的伟大,他从此变得举世闻名。在采访最后,谈到乔姆斯基对他的影响,冯志伟教授说道,「我在乔姆斯基还是一个小人物的时候就认识他,后来,他变成大人物以后,我仍然是一个小人物。」在 AI 科技评论看来,冯志伟教授对中国 NLP 的发展做出的贡献无可比拟,在 NLP 萌芽的这段时期,正是由于他们这些老一辈科学家的投入,我国的 NLP 研究才得以繁荣至今。他口中的「小人物」,正是无数 NLP 后辈所敬仰的大人物。

雷锋网雷锋网


 

冯志伟2018年总结

$
0
0

冯志伟2018年总结

冯志伟2018年总结

 

         2018年快过去了。温故而知新,总结如下。

         今年是汉语拼音方案60周年纪念,年初,我应邀在北京语言大学、中央民族大学介绍了汉语拼音国际化的新进展的情况。我把国际标准《ISO70982015 信息与文献工作:中文罗马字母拼写法》从英文翻译成中文,并取得ISO和我国标准化部门的许可,商务印书馆在《中国语言生活状况》2018年绿皮书的光盘中,出版了这个中文译本。

 


         414日,浙江大学召开了“大数据时代的语言研究学术讨论会”,会议同时还给我过了80岁的生日,学生们把他们的新著《计量语言学研究进展》送给我,扉页上写着:“谨以此书献给冯志伟先生八十华诞”,学生们在学术上的进步令我高兴,我非常感谢他们对于我这个老人的深情厚谊。

         522日至816日,我和老伴到德国探亲。在德国期间,我们一起到西班牙旅行,先后访问了阿利坎特、格拉纳达、塞维利亚、龙德小镇、马德里等地,特别了解了阿拉伯文化对于西班牙的影响。我们还与德国朋友Wolfgang夫妇一起到德国中部Bensheim游玩。

 

         8月回国后,中国计算机学会授予我“NLPCC杰出贡献奖”(CCF-NLPCC Distinguished Achievement Award),我是一个语言工作者,得到中国计算机学会的奖,说明语言学对于计算机科学是有帮助的。我在会上用英文和中文致答谢词。答谢词如下:

                 

 

“Ladies, Gentlemen,

  First of all, I want to thank the Technical Committee for Chinese Information (TCCI) of China Computer Federation (CCF) for awarding me the 2018 CCF-NLPCC Distinguished Achievement Award. It is a great honor for me. It is an honor that should be shared by my colleagues and my students, who have supported me, encouraged me and helped me in last 60 years.

   Martin Kay, American famous computational linguist, in his speech delivered in 2005 on receipt of his ACL Lifetime Achievement Award, specied computational linguistics as follows: “Computational linguistics is trying to do what linguists do in a computational manner” (Kay 2005).

  I agree with Martin Kay, we have to combine Linguistics and Computer Science closely together and further put forward the research of Natural Language Processing.

  Thank you very much.

  Then I like to speak in Chinese.

 

各位来宾,各位代表,

今天我获得CCF-NLPCC卓越贡献奖,非常高兴,谢谢中国计算机学会中文信息技术专业委员会(CCF-TCCI)给我这样的荣誉,谢谢CCF-TCCI诸位专家的提名,谢谢在公示过程中各位同行专家对于我的热情鼓励和有力支持。我希望与我的同事们和学生们来共享这个荣誉,是他们60年来一直给我有力的支持,给我热情的鼓励,给我无私的帮助。

作为一个语言工作者,我非常珍惜这个荣誉。

美国著名计算语言学家马丁•凯伊(Martin Kay)在2005年获得ACL终生成就奖的答谢辞中曾经说过这样的话:“计算语言学正在试图用计算的方式来研究语言学家们研究的问题”。我非常赞同马丁•凯伊的这种看法,我们应当把语言学与计算机科学紧密地结合起来,进一步推动自然语言处理的发展。

我是一个历尽沧桑的自然语言处理研究者,早在1957年我才18岁的时候,就对于语言的研究发生了浓厚的兴趣,梦想着打破人类的语言障碍,后来我知道了美国在1954年就研制成功俄英机器翻译,受到极大的鼓舞,决心投身自然语言处理研究,实现自己的科学梦想,于是我在北京大学从地球化学专业转而学习语言学,走上了自然语言处理研究的漫漫长途。文革中我被迫改行,经过十年之久的磨练和周折之后,才得以重新归队。这60年来,不论如何艰辛,不论怎样困难,我始终坚定不移地走在自然语言处理的道路上。60年前,我还是一个不谙世事的毛头小伙,而自然语言处理也才初露新芽。现在我已经是年近80岁的垂垂老人了,可是,我们从事的自然语言处理仍然还是一门新兴学科,她仍然还显得非常年轻,仍然充满了青春的活力,仍然有着无比广阔的发展前景。我们个人的生命是有限的,而科学研究的发展却是无限的,我们个人的有限生命与科学研究这棵枝叶茂密的参天大树相比,是显得多么地短促,多么地渺小,多么地微不足道啊!

鲁迅先生说得好,“我倘能生存,我仍要学习!”我一定继续努力,不断地进行更新知识的再学习,坚持终生学习,活到老,学到老,努力赶上自然语言处理学科发展的步伐!

自然语言处理是计算机科学与语言学的交叉学科,是跨学科研究的最好范例。我希望计算机科学界和语言学界联合起来,共同促进这门学科的发展。

谢谢大家!”                            

 

 

今年还值得高兴的另一件事情是我和中国科学院软件研究所孙乐研究员合作翻译的《自然语言处理综论》(第二版)中文本由电子工业出版社出版了。此书被誉为自然语言处理教材的“黄金标准”。

2018年我发表论文15篇:

1.       关于非汉语人名和地名的字符译音问题,《语文建设通讯》(香港),20181月,第115期,p4-6

2.       智能会话系统与语音自动识别(与詹宏伟合作),《外语学刊》,2018年,第1期,p13-23CSSCI收录。

3.       与汉语拼音相伴60年:从国家规范到国际标准,《光明日报》,2018211日,12版。

4.       汉语拼音走向世界:成绩与缺憾  -- 纪念《汉语拼音方案》颁布60周年,《北华大学学报(社会科学版)》,20183月,第19卷,第2期,p5-9

5.       Chinese Characters (《汉字》英文版)简介,《华文教学与研究》,2018年,第1期,总第69期,p88-89CSSCI收录。

6.       赫德森的词语法理论,与周建合作,《现代语文》,2018年,第3期,总第672期,p4-8

7.       汉语拼音是国际文化交流的桥梁,《语言文字政策研究》公众号,2018年,6月。

8.       八十老翁,平生无悔,《文化学刊》,2018年,第3期,p50-64

9.       人工智能领域:得语言者得天下(卷首语),《语言战略研究》,第3卷,2018年,第5期,p1

10.     面向翻译的术语研究:“中国学派”的实践特征和理论探索(与殷健、刘润泽合作),《中国翻译》,2018年。第3期,p74-79CSSCI收录

11.    国际标准《ISO 7098:2015 信息与文献工作--中文罗马字母拼写法》及其国际意义,光盘,《中国语言生活状况报告:2018》,北京:商务印书馆,2018年。

12.    信息时代需要文理兼通的语言学家,《光明日报》,20181021日,第12版,语言文字。

13.    基于语料库的汉语词长与词频关系的计量研究,与邓耀臣合作,《实证和语料库语言学前沿》,中国社会科学出版社,20189月,p59-91

14.    现代汉语句子的扩展模式语法模型的构建(与王笑盈、瞿云华合作),《厦门大学学报(自然科学版)》,第57卷,第6期,201811月,p860-867.

15.    机器翻译与人工智能的平行发展,《外国语》,2018年,第6期,p35-48CSSCI收录

        

         这样一来,我发表的中文论文数量在2018年已经超过400篇。如果在加上用英语、法语、德语等外文发表的论文,我发表的论文将近500篇了。

         我已经步入耄耋之年,身体还可以,今后我还要继续努力,辛勤耕耘。


 

用数学方法来研究语言

$
0
0

用数学方法来研究语言

冯志伟(杭州师范大学特聘教授)

 



华罗庚说过:“宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不用数学”。马克思指出,“一种科学,只有在成功地运用数学时,才算达到了真正完善的地步”。恩格斯也认为,“任何一门科学的真正完善在于数学工具的广泛应用”。

他们都认识到数学在科学研究中的重大价值。

语言学和数学都是有相当长历史的古老学科。语言学历来被看作典型的人文科学,数学则被许多人看成最重要的自然科学。在学校的教育中,语文和数学被认为是两门最基础的学科,成为任何一个受教育者的必修课。它们似乎成了学校教育的两个极点:一个极点是作为文科代表者的语文,一个极点是作为理科代表者的数学。在一般人看来,语文和数学似乎是两门风马牛不相及的学科。有的人甚至认为,用数学方法来研究语言,是一种离经叛道的古怪行为。很少有人想到,这两门表面上如此不同的学科之间竟然还存在着深刻的内在联系。

那么,语言学与数学真的就没有关系吗?在人类的科学发展历史上,学者们是经过了相当漫长的过程,才逐渐认识到语言学和数学之间的亲密关系的。

法国数学家阿达玛是一位具有独特创见的学者,他用自己的慧眼,早就清楚地看出语言学在人文科学中是最容易与数学建立联系的学科。他斩钉截铁地指出:“语言学是数学和人文科学之间的桥梁。”

1838年,英国学者皮特基于20本书,每书取500词,共计1万词,以此为语料进行统计,得到常用英语词频表,于1843年出版。这可能是我所看到的文献中使用数学方法研究词频的最早的记载。

1913年,俄国数学家马尔可夫采用概率论方法研究了《欧根•奥涅金》中的俄语元音和辅音字母序列的生成问题,提出可马尔可夫随机过程论,后来成了数学一个独立的分支,对现代数学产生了深远的影响。语言结构中所蕴藏的数学规律,成了马尔可夫创造性思想的源泉。《欧根•奥涅金》是普希金的长篇叙事诗,讲的是一个哀婉的爱情故事,我们读《欧根•奥涅金》,欣赏的是它的故事情节或者独特的诗歌节律,而马尔可夫却独具慧眼,从中发现了隐藏在字里行间的数学规律。

1935年,美国语文学家齐夫提出了齐夫定律,用数学方法描述频度词典中单词的序号与频度的分布规律。

20世纪50年代的自动机理论来源于英国科学家图灵在1936年提出的算法计算模型,这种模型被认为是现代计算机科学的基础。图灵的工作首先导致了麦克罗克–皮特的神经元(neuron)理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,图灵的工作导致了克林关于有限自动机和正则表达式的研究,这些研究都与语言的形式化描述有密切关系,把数学与语言紧密地联系起来。

1948年,美国科学家香农把离散马尔可夫过程的概率模型应用于描述语言的自动机。1956年,语言学家乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作产生了形式语言理论这样的研究领域,采用代数和集合论把形式语言定义为符号的序列。乔姆斯基在研究自然语言的时候首先提出了上下文无关语法,计算机科学家巴库斯和瑙尔等在描述ALGOL程序语言的工作中,分别于1959年和1960年独立地提出了巴库斯–瑙尔范式,并发现他们提出的这种范式与乔姆斯基的上下文无关语法是等价的。这些研究把数学、计算机科学与语言学巧妙地结合起来,大大地促进了学者们采用数学方法来揭示语言的数学面貌。

香农还把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为噪声信道或者解码。他还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言的信息量的一种方法,他采用手工方法来统计英语字母的概率,然后使用概率技术首次测定了英语字母的熵为4.03比特,把数学与语言研究巧妙地结合起来。我国语言学家冯志伟在上世纪70年代采用香农的理论在世界上首次估算出汉字的熵为9.65比特,同样也把数学研究与汉字研究结合起来。

在这些研究的基础上,在语言学中出现了数理语言学、计量语言学这样的广泛采用数学方法的新兴学科。

显而易见,数学确实能够帮助我们洞察语言规律,发现语言的数学面貌。因此,我们可以说,“语言之妙,也离不开数学”。我们有必要在华罗庚上面的话中加上“语言之妙”四个字,补充为“宇宙之大,粒子之微,火箭之速,化工之巧,语言之妙,地球之变,生物之谜,日用之繁,无处不用数学”。

进入了信息网络时代之后,语言学研究开始从大规模真实文本语料库中来获取语言知识,必须使用统计方法,进一步推动了数学方法在语言学的应用,在自然语言护理中,提出了隐马尔可夫模型(Hidden Markov Model, HMM)、最大熵模型(Maximum Entropy Model, ME)、条件随机场模型(Condition Random FieldCRF)等基于统计的数学模型,统计机器翻译成为了机器翻译研究的主流,机器翻译由基于规则到基于统计,这一势头一直延续到2007年。

2007年开始,在大数据、云计算、深度学习这三个因素的影响下,自然语言处理的主流技术几乎全部都采用深度学习来实现,机器翻译、自动问答、信息检索、信息抽取广泛采用循环神经网络(Recurrent Neural Network, RNN)、长短时记忆(Long-Short Time Memory, LSTM)、卷积神经网络(Convolutional Neural Network, CNN)等深度学习的数学方法。数学方法在语言学中得到了更加广泛的应用。

随着我国自然语言处理研究的进一步发展,越来越多的学者开始关注语言学中数学方法的研究,数学方法在语言研究中的应用越来越广泛,就是在传统的语言学研究中,也开始采用数学方法,不再认为使用数学方法来研究语言是一种离经叛道的古怪行为。在语言研究中采用数学方法,现在已经得到了我国语言学界的普遍认同。随着自然语言处理研究的发展,数学已经成为语言学研究的最重要的一种工具。

今天,现代语言学的研究,特别是面向计算机的语言学研究,离开了数学将寸步难行。我们应当与时俱进,进行更新知识的再学习,更加自觉地把数学方法应用到语言研究中,推进我国语言研究的现代化和信息化。


 

ChineseCharacters(汉字,英文版)简介

$
0
0

Chinese Characters(汉字,英文版)简介

 

冯志伟  (杭州师范大学, 杭州, 311121

 

 


外语教学与研究出版社在20173月出版了冯志伟和詹宏伟合著的Chinese Characters (汉字, 英文版)一书,我作为本书的作者之一,对于这本用英文写的关于汉子的书,做一个简明的介绍。

1.引言

文字是文化的重要组成部分,是极为珍贵的文化宝库。书写符号是文化的载体,是人类智慧的结晶,是人类文明的精华,是照耀人类进步的灿烂明珠。通过书面文字进行交际的能力是人类最值得关注的独有的能力。

目前,越来越多的外国学者和友人对于中华文化和它的载体汉字产生了浓厚的兴趣,希望更全面、更进一步地了解汉字,在汉语的国际教育中,正在学习汉语和将要学习汉语的学生们也希望了解汉字。本书用英文来介绍汉字的发展与结构的基本知识,希望有助于他们通过英文来了解汉字和中华文化,推动国际间的交流和对话。本书对于正在用英文讲授汉字的华文教师,也是一本方便实用的教学参考。

2.全书主要内容

本书共10章,222页。

1章讲述汉字的起源,介绍了汉字的萌芽形式(新石器时代的刻符)和汉字的雏形(陶器上的陶符),说明了文字符号和非文字符号之间的差别。

2章讲述汉字形体的历史演变,分别介绍了甲骨文、金文、大篆、小篆、隶书、草书、楷书、行书的性质和特点。

38章分别讲述汉字的六书,除了论述六书的理论之外,还列举一些有代表性的汉字,就它们的构形原理举例进行了分析。对于大多数的汉字例子,都给出了它们的甲骨文、金文和小篆的字形;不过,对于学术界尚未定论的某些字形,为慎重起见,只好暂付阙如。

3章讲述象形字,分析了表示人体、动物、植物、服饰器物以及天文和地理现象的象形字。

4章讲述指示字,分析了由纯符号构成的指示字以及由图形加符号构成的指示字。

5章讲述会意字,分析了由相同成分构成的会意字,也分析了由不同成分构成的会意字。

6章讲述形声字,分别从左形右声、右形左声、上形下声、下形上声、外形内声、内形外声、形在一角、声在一角等方面,对形声字的结构进行了分析,并研究了形声字的纵向扩张和横向扩展,指出了形声字的系统性。在现代汉字中,形声字占了大多数,了解形声字的系统性,对于掌握现代汉字具有重要的意义。

7章和第8章讲述转注字和假借字,分别给出了若干转注字和假借字的例子。

9章讲述汉字的部件,分析了合体字的基本结构类型和复杂结构类型,并使用计算语言学中的树形图分析法,举例分析了由3个、4个、5个、6个、7个、8个、9个部件构成的一些合体字,给出了这些合体字的树形图结构。

10章讲述汉字的笔划,分析了汉字的笔划类型,分别给出了汉字部件的书写顺序规则和汉字笔划的书写顺序规则。

3.本书的特色和不足

本书具有如下5个特点:

1.      图文并茂:汉字与世界上很多文字相比,图形的特点更加显明,本书使用大量的古代汉字图形、现代汉字图形和它们的组成成分图形来揭示汉字的组成方式和结构机理,使得全书生动有趣,从而增强本书的可读性。

2.      实例丰富:本书使用大量的实例来分析汉字,尽量避免主观的猜测和臆断,从而增强本书的客观性。

3.      结构清晰:本书前两章讲汉字的起源和演变历程,中间六章讲汉字的六书,最后两章讲汉字的结构规律和组合模式,由远及近,前后相依,从而增强本书的合理性和逻辑性。

4.      学术严谨:本书尊重学术界的研究成果,引用英文论著5篇,中文论著12篇,对于汉字构形的理据,不妄加随意的解释,对于有争议的问题,不轻信一家之言,不忙做仓促结论,从而增强本书的科学性。

5.      方便阅读:书末附有索引,便于读者查询书中所描述的汉字。

本书是用英语来描述汉字的读物,目前,对于汉字中的大量文字学术语,学术界还没有统一的英语译名,本书根据作者在国外给外国学生讲授汉字课程的经验,采用了国际学术界比较通用的一些英语译名,这些英语译名是否准确地表达了中文术语的学术内容,这是当前汉语国际教育中还值得进一步研究和讨论的一个重要问题。


 

《现代汉语动宾搭配的语义分析和计算》序言

$
0
0

《现代汉语动宾搭配的语义分析和计算》 序言

 


李斌博士的《现代汉语动宾搭配的语义分析和计算》一书就要出版了。他要我写一个序言,我一直关注他对于语义的研究,就欣然应允了。

本书对《现代汉语辞海》中的1462个动词的38119条动宾搭配的选择限制(selectional restriction)进行了较为系统的考察、分析和计算,指出选择限制理论中的语义限制在动词覆盖面和语义约束方面存在局限性,他以认知和计算的双重视角,对影响动宾搭配的语义层面的因素进一步做了个案考察,形成了“语义类别,属性(值),动态性、主观性,认知事件框架,转喻和隐喻”六个层面的综合分析框架。其中,语义类和语义属性(语义特征)是传统语义研究中常用的两个分析因素,后四个层面是过去研究较少的。本书在这个大框架下展开分析和计算,探讨了六个层面的合理性和可计算性。首先指出了搭配限制中语义类、语义特征的作用范围,用搭配限制的主观因素和认知事件框架来分析宾语的多样性,还特别考察了主观因素中的褒贬指向问题,最后对常见的显性转喻进行了理解性计算,对搭配范围极大又是明喻标记词的“像”做了比喻的自动判定和比喻成分的自动识别。本书成功地解释了诸如“排车票”、“挤公交”、“解决住房”、“吃大碗”、“吃食堂”、“感谢红领巾”、“听贝多芬”等动宾短语中的语义制约关系,这样的解释思路非常新颖,同时又具有说服力。这是一本难得的现代汉语语义研究的著作。

    现代汉语动宾短语的语义关系极为复杂,在研究这个问题的时候,似乎是从零数到无限大,越是往前研究,问题就越来越多,就越觉得前面充满了险阻,困难重重,有看不到尽头的感觉。所以,有的专家指出:“动词和宾语关系是说不完”,这是有深入研究体会的经验之谈。李斌博士在这本书中的研究,敢于碰这种“从零数到无限大”“说不完”的困难问题,而且取得了很好的成果,这是值得高兴的。

自然语言处理的范围涉及到众多的部门,我认为,这些部门可以归纳为如下四个大的方向:

n  数据处理方向:这个方向把自然语言看成一种“资源”(resources),对于“语言资源”(language resources)进行数据处理。这一方向早期的研究有术语数据库的建设、各种机器可读的电子词典、“词网”和“知网”的开发。近年来随着大规模语料库的出现,语料库的建设和加工显得越来越重要,成为获取语言学知识的主要手段,通过机器词典和语料库的数据,可以帮助自然语言处理研究者诱导或分析出大量有用的语言知识,从而弥补研究者主观“内省”的不足。

n  语言工程方向:这个方向把自然语言处理作为面向实践的、工程化的语言软件开发来研究。这一方向的研究一般称为“人类语言技术(Human Language Technique, 简称HLT)”,或者称为“语言工程”(Language Engineering)。如语音自动识别、语音自动合成、机器翻译、人机对话、信息检索、信息抽取、文本分类、文本数据挖掘、自动文摘、文字识别,等等。这个方向的研究可以取得很好的经济效益和社会效益,成为自然语言处理的研究热点。

n  语言本体方向:这个方向把自然语言处理作为语言学的一个分支来研究,主要使用计算机来研究语言的本体,探索语言本身的内在规律。这个研究方向的最重要的研究领域是语音、词汇、语法和语义形式化理论和自然语言处理的数学理论。

n  智能认知方向:这个方向把自然语言处理作为在计算机上实现人类语言能力的学科来研究,探索自然语言理解的智能机制和认知机制。这一方向的研究与人工智能、心理语言学、认知科学有着密切的关系。

在我国的自然语言处理研究中,数据处理方向成绩卓著,语言工程方向战果累累,可是,语言本体方向和智能认知方向却显得非常薄弱,几乎是一片空白。李斌博士的著作就属于研究语言本体方向和智能认知方向的,他的研究与单纯的语言学定性分析和自然语言处理的工程应用不同的,他力求在清晰地描写语言现象的基础上,对于语言现象寻求具有说服力的认知和语义解释,而且这些描写和解释是建立在一定规模语料的考察之上的,其理论形式具有可计算性,并可以在具体的计算中进行验证、修正和应用。这是难能可贵的。

李斌博士在本书中指出了选择限制在动词覆盖面、语义约束和比喻等方面的局限性,我认为,除了李斌指出的这些局限性之外,还应当注意如下两方面的局限性:

  当在否定句子中的时候,否定关系明显地违反了选择限制,但是,句子的语义却是合法的。

例如,People realized you can’t eat gold for lunch if you’re hungry. (人们认识到,当你饥饿的时候,你不会把金子当作午餐来吃的。)

句子中的eat gold显然违反了eat的选择限制,因为gold不具有可食性。但是,由于有否定词can’t,这个句子的语义却是完全合法的。

  当句子描述的事件是不寻常的事件时,尽管违反了选择限制,句子的语义仍然是完全合法的。

例如,In his two championship trials, Mr. Kulkirni ate glass on an empty stomach, accompanied only by water and tea.(在他的两次冠军比赛中,库尔基尔尼先生空腹吞食玻璃,吞食的时候只是喝点水和茶。)

句子中glass(玻璃)是不具有可食性的,违反了eat的选择限制,可是,这个句子的语义仍然是合法的,因为库尔基尔尼先生具有“吞食玻璃”这种不寻常的本事。

这些问题,还有进一步研究的必要。

语言学中“搭配”(collocation)的研究,从1957年英国伦敦学派的弗斯(Firth)开始,已经有50多年了,在这50多年中,很多有才气的语言学家,如韩礼德(Halliday)、辛克莱(Sinclair)、乔姆斯基(Chomsky)、卡茨(Katz)、弗托(Fodor)都对搭配的研究做出了自己的贡献,有的语言学家还编写了各种搭配词典;近年来,神经语言学和认知语言学也开始探索搭配的问题。自然语言处理中,对于搭配获取、搭配识别也做了很多有意义的研究工作。这些事实说明,搭配问题确实是一个非常引人瞩目而又十分困难的语言学问题。

面对这样的困难问题,我们自然语言处理研究者决不能望而却步,而应当以大无畏的追求真理的精神,知难而进。自然语言处理的研究者就像侦察兵,对于侦察兵来说,没有路的才是最好的路,如果道路都铺好了,还要我们这些侦察兵干什么?我们需要有披荆斩棘的勇气,以克服困难为荣,以忍受艰苦为乐,在没有路的荆棘丛中开出一条金光大道来。在自然语言处理的艰苦探索中,尽管我们这些侦察兵尽管常常有“山穷水尽疑无路”的困惑,但是,在披荆斩棘之后,也会感受到“柳暗花明又一村”的愉快。一旦这条充满荆棘的艰险道路被铺开了,前面就是一马平川的金光大道。

1957年在北京大学读书的时候,就开始对自然语言的计算产生兴趣,1959年毅然从理科转到语言学,专门从事自然语言计算机处理的研究,而今已经50多年了。50多年来,我自己从一个不谙世事的幼稚青年变成了一个白发苍苍的垂垂老人了,然而,我毕生所钟爱的自然语言处理却丝毫没有变老,它仍然显得非常年轻,仍然是一门新兴的学科,充满了新鲜的活力。科学之树常青,而我们个人的生命与科学这个常青的大树相比,的确是太渺小了,犹如沧海之一粟。科学事业需要几代人持续不断的努力,才有可能取得明显的成绩。因此,我把自己对于自然语言处理的热爱之情寄托于年轻人,我相信,有更多的像李斌博士这样的年轻人会把自然语言处理研究的接力棒一代一代地传下去,从而使我们这个学科更加成熟。

希望李斌博士再接再厉,在自然语言处理的艰苦探索中创造出更多、更新的成绩。

 

 

                                     冯志伟

                                     
 

单一罗马化原则与路名标志书写法

$
0
0

单一罗马化原则与路名标志书写法

 

                冯志

 


摘要:本文作者曾参与国际标准ISO 7098的修订以及国家标准GB/T 30240的审定,根据他本人参与这些工作的经验,本文对于地名拼写中的“单一罗马化”原则和路名标志书写法作了明确的解释,有助于路名标志书写的规范化。

关键词:单一罗马化;路名标志;国际标准;国家标准。

 

 

        Single Romanization Principle and Alphabetic Writing of Road and Street Names

 

                 Feng Zhiwei (Hangzhou Normal University, Hangzhou , 311121)

 

abstract: Based on his experience for up-dating the International Standard ISO 7098 and for examining the National Standard GB/T 30240, the author explains the principle on “single Romanization” and the alphabetic writing of road and street names. It will be helpful for standardization to write the road and street names.

 

key words: single Romanization; alphabetic writing of road and street names; International Standard; National Standard.

 

 

引言

 

目前我国的路名标志中,除了使用汉字之外,还同时使用罗马字母的拼音,在使用罗马字母拼音时,应当遵循1967年联合国地名标准化会议提出的单一罗马化原则(single Romanization principle)。但是,由于对单一罗马化原则的理解不一致,我国在使用罗马字母拼音来标志路名时,出现了众多的分歧。例如,海曙路这个路名,在使用罗马字母拼写时被标志为如下不同的形式:Haishu Lu, Hai Shu Lu, HaiShu Lu, haishu Lu, Haishu Road。这些不同形式的路名标志,在使用中造成了混乱,给人民群众造成不便。这样的问题也引起了学术界的关注,学者们提出了不同的处理意见(郭建中,2003, 2005)。

2011年,我国向国际标准化组织ISO提出了修订ISO 7098信息与文献——中文罗马字母拼写法》[ISO 7098 Information and Documentation-Romanization of Chinese1991]( 以下简称“ISO 7098(1991))的建议,对于中文地名中路名标志的拼写法,在国际的层面上提出了明确的规定(冯志伟,2013);201312月,我国制定了国家标准GB/T 30240《公共服务领域英文译写规范 第一部分:通则》,对于地名的译写也提出了明确的规定(国家标准,2014)。

我受国家教育部的委托,全程负责国际标准ISO 7098 (1991)的修订工作,我同时又是国家语委语言文字规范标准审定委员会的委员,参与了国家标准《公共服务领域英文译写规范》的审定。作为这些国际标准和国家标准制定的参与者和见证人,在这篇文章里,我想结合自己参加这两项工作的经验,对于路名标志中“单一罗马化”原则谈一谈自己的体会,希望有助于我国地名中路名标志拼写的规范化。

 

一、ISO 7098 (1991)的修订

 

国际标准ISO 7098(1991)解释了中文普通话罗马字母拼写法的原则。中文普通话罗马字母拼写法在国际标准中叫做“中文罗马化”(Romanization of Chinese)。本文中所说的“中文罗马化”就是指“中文普通话罗马字母拼写法”。

普通话是中国各民族的通用语言,也是联合国的工作语言之一。中文罗马化对于全世界的信息与文献工作具有重要的意义,为了满足当前国内外对汉语拼音实际应用的迫切需要,我国在2011年提出进一步修改ISO 7098 (1991)的建议。

2011 56日,ISO/TC 46(国际标准化组织--46技术委员会)38届会议在澳大利亚悉尼召开,我受教育部的派遣,在会议上提出了修改ISO 7098 (1991)以便反映当前中文罗马化的新发展和实际应用需要的建议。我在ISO/TC 4638届会议的发言中提出:我们需要进一步细致地描述拼音的规则,需要增加人名和地名的拼音连写规则,需要进一步描写中文拼音的大写字母规则,需要更新ISO 7098 (1991)中的词典清单,代之以更加具有权威性和更加完善的新的词典清单。我还特别谈到了当前我国地名中路名标志拼写的“单一罗马化”问题。我在发言中强调:由于存在这些问题,ISO 7098 (1991)的修改有很大的空间,我们必须进一步更新ISO 7098 (1991),使之不仅能反映中文罗马化在中国的发展情况,还能反映中文罗马化在全世界范围的发展情况。

会后,我国国家标准化委员会(SAC)正式向ISO国际标准化组织提出了修订ISO 7098的新工作项目(New Working Item Proposal,简称NWIP)的提案,这个提案的国际编号是:N 2358

20125611日,ISO/TC 4639届会议在德国柏林举行,我受国家教育部的派遣出席了这次会议。会议接受了我国的N 2358号提案,并将这个提案直接作为ISO 7098的工作草案(Working Draft,简称WD),成立了ISO 7098国际修订工作组,我被任命为国际修订工作组组长。这样,ISO 7098的修订便正式列入了国际标准化组织的工作日程,

2013637日在巴黎召开ISO/TC 4640届全体会议,我受国家教育部的派遣出席了这次会议,并在会议上正式向ISO/TC 46秘书处提交了ISO 7098的委员会草案(Committee Draft,简称CD)。

2014559日,我受国家教育部的派遣到美国华盛顿参加了的ISO/TC 4641届全会。我在57日上午举行的第3工作组(WG3)会议上,就ISO 7098 的修订问题重申中国的立场。会后,我向ISO/TC 46秘书处提交了ISO 7098的国际标准草案(Draft of International Standard,简称DIS)。

201561-5日的ISO/TC4642届全会在北京召开,我受国家教育部的派遣出席了这次会议。根据大会的安排,我在62下午的大会专题报告会上,做了“ISO 7098国际标准及其在人机交互中的应用”的报告,用生动的实例说明了在数字化环境下,汉语拼音在人机交互中发挥了巨大的作用,但是也存在着一些不尽人意的问题。我的这个报告受到了各国代表的热烈欢迎。在63上午的WG3会议上,我又说明了各国对于ISO 7098DIS稿提出了意见以及我国对于这些意见的处理情况,向与会人员出示了DIS的修改稿。

会后,我把经过修改的DIS稿正式提交ISO TC 46秘书处,根据ISO/TC4641届全会的决议,ISO TC 46秘书处于20157 27日把DIS的修改稿发给ISO/TC 46各成员国进行委员会内部投票Committee Internel BalottingCIBCIB投票于2015918结束。ISO/TC 46秘书处 N2526号文件公布了投票结果:ISO/TC 46委员会中没有弃权的19个国家都投了赞成票,获得全票通过。至此,ISO 7098的修订工作进入了出版阶段。2015 1112,我ISO/TC 46秘书处提交了ISO 7098:2015的最终版本,新的国际标准ISO 7098:2015出版在即。

在这个新的ISO 7098国际标准中,增加了命名实体(naming entities)按词进行音节连写的规定,路名属于地名,是命名实体的重要组成部分,因而这个国际标准对于我国路名标志拼写中如何实现“单一罗马化”具有重要的意义。ISO 7098国际标准的第11.4条对于地名书写的规定如下:“11.4 In Chinese place names, a geographical proper name should be separated from the name of jurisdiction or the geographical feature name. The multi-character geographical proper name, the name of jurisdiction, or the geographical feature name should be separately written together as one word. The first letters of each element should be capitalized.”( 11·4 汉语地名中的专名和通名(包括行政区划名或地理特征名)分写。由多个汉字组成的专名、行政区划名或地理特征名应分别按单词连写。每一分写部分的第一个字母大写。”

根据ISO 709811.4条的规定,“海曙路”中的专名部分“海曙”和通名部分“路”,应当分写,中间留一空白,由于“海曙”是由两个汉字组成的,拼写时应连写为一个单词,因此,“海曙路”的汉语拼音的规范书写形式应当是“Haishu Lu”。而“Hai Shu Lu”(HaiShu没有连写为一个单词),“HaiShu Lu”(尽管HaiShu连写了,但Shu的第一个字母不应大写),“haishu Lu”(尽管haishu连写了,但haishu的第一个字母没有大写)等拼写形式都是不符合ISO 7098的规定的,严格执行ISO 709811.4条的规定,把“海曙路”拼写为“Haishu Lu”,排除其他的不符合ISO 709811.4条的规定的拼写形式,使得一个路名标志只有一种拼写形式,就可以克服路名标志拼写中的混乱局面,有助于人们无歧义地进行沟通

早在20世纪60年代,联合国地名专家组就主张,为便于国际交往,应使地球上每个地名的专名部分只有一种拼写形式,避免在国际交往中地名因语言文字的复杂造成混乱。1967年第2届联合国地名标准化会议作出决议,要求世界各国、各地区在国际交往中都使用罗马字母拼写地名,做到每个地名的专名部分只有一种罗马字母的拼写形式,之所以选择罗马字母,是因为世界上大多数国家都使用罗马字母。这就是“单一罗马化”原则。如果我们严格执行ISO 709811.4条的规定,把“海曙路”拼写为“Haishu Lu”,就完全符合“单一罗马化”原则。

地名的单一罗马化,对于使用罗马字母的国家来说,本国的地名标准化就是国际标准化,而对使用非罗马字母文字的国家(如中国、日本、俄罗斯等)来说,就必须制定一个本国地名罗马化方案,经联合国地名标准化会议通过后,作为地名罗马字母拼写的国际标准。19779月,在雅典召开的联合国第3届地名标准化会议上,我国代表团提出“采用汉语拼音作为中国地名罗马字母拼法的国际标准”的提案,获得会议通过。第3届联合国地名标准化会议决定中指出,“注意到《汉语拼音方案》在语言学上是完善的,用于中国地名的罗马字母拼法是最合适的”,“建议采用汉语拼音方案作为中国地名罗马字母拼法的国际标准”。从此,用《汉语拼音方案》拼写我国地名成为中国地名单一罗马字母拼写的国际标准,在以罗马字母为文字(例如英文、德文、法文等)的各国出版物上,都应当根据《汉语拼音方案》来拼写中文地名中的专名部分。例如,“海曙路”这个中文地名,用中文拼写为“Haishu Lu”,用英文拼写为“Haishu Road”,用德文拼写为“Haishu Strasse”,用法文拼写为“La Rue Haishu”,尽管其中的通名部分各不相同,中文用“Lu”,英文用“Road”,德文用“Strasse”,法文用“La Rue”,但是,其中的专名部分“海曙”都统一地根据《汉语拼音方案》拼写为“Haishu”,这样一来,同一个中文地名中的专名,在世界各种语言中都只有一种拼写方法,从而实现了“单一罗马化”。

在中文罗马化的过程中,曾经使用过与《汉语拼音方案》不同的罗马化形式来拼写中文地名。其中,以英国人Thomas WadeH. A. Giles1867年设计的威妥玛式拼音(Wade Giles)、我国学者赵元任在1928年设计的国语罗马字(Guoyeu Romatzyh,简称GR)、美国人George Kennedy1943年设计的耶鲁拼音(Mandarin Yale)最为有名,根据“单一罗马化”原则,在对中文地名进行罗马字母拼写的时候,不应当采用多种的罗马化形式的拼写法,而只能选择单一的罗马化的拼音形式,这种单一罗马化的拼音形式,就是《汉语拼音方案》规定的拼音形式,因此,在实行“单一罗马化”的时候,就不能使用威妥玛式拼音、国语罗马字拼音、耶鲁拼音,而应当使用《汉语拼音方案》的拼音。在历史上,“北京”这个地名曾经有“Peking,Pekin”等拼写形式,根据“单一罗马化”原则,应当根据《汉语拼音方案》拼写为“Beijing”,不能使用“Peking,Pekin”等拼写形式。

在国际标准ISO 7098中,还对于译音(transcription)做了说明。在第3.4条中说:“3.4         Transcription is the operation which consists of representing the characters of a language, whatever the original system of writing, by the phonetic system of letters or signs of the conversion language. A transcription system is of necessity based on the orthographical conventions of a conversion language and its alphabet. The users of a transcription system must therefore have a knowledge of the conversion language to be able to pronounce the characters correctly. Transcription is not strictly reversible. Transcription may be used for the conversion of all writing systems. It is the only method that can be used for systems that are not entirely alphabetical and for all ideophonographic writing systems (Chinese, Japanese, etc.).(“3.4 译音是指用字母的语音系统或转换语言的符号来表示某种语言中的字符,而不论该语言原本的书写方式如何。译音系统必须以转换语言及其字母表的正字法为依据,因此,译音系统的使用者必须对转换语言有所了解,并能准确地读出其字符。译音不是严格地可逆转的。译音可用来转换所有的书写系统。它是唯一能够用来转换如中文、日文这样的不全使用字母的拼音文字系统及意音图形文字书写系统的方法。”)

显而易见,在把“海曙路”转写成汉语拼音“Haishu Lu”时,其中的专名部分“Haishu”遵循了“单一罗马化”原则,而且其中的通名部分“Lu”也准确地反映了汉语普通话的读音。这样的转写应当属于“译音”的范畴。译音是在同一种语言内进行的,没有牵涉到不同语言之间的“译写”(translation)问题。

关于路名的译音问题,在国家标准GB 17733《地名 标志》中作了明确规定:汉语地名应按照汉语普通话的读音拼写。因此,“海曙路”中的通名部分“路”按照汉语普通话的读音应当拼写为“Lu”。

 

二、《公共服务领域英文译写规范》的审定

 

随着我国改革开放的进一步发展,对外交流日益频繁,越来越多的外国朋友来到中国,需要对于公共服务领域的中文标识进行“译写”。

为了促进我国公共服务领域外文译写的规范化和标准化,教育部、国家语委组织开展了《公共服务领域外文译写规范》的研制工作,涉及英语、俄语、日语、韩国语4个语种,内容包括公共服务领域外文译写的规范和示例。目前先研制英文的译写规范。

20128月,《公共服务领域英文译写规范》经国家标准委批准立项。201312月,《公共服务领域英文译写规范 1部分:通则》经国家质量监督检验检疫总局、国家标准化管理委员会批准发布,国家标准号为GB/T 30240,自2014715起实施。教育部、国家语委继《通则》之后,又启动了针对不同服务领域的分则研制工作,包括《交通》《旅游》《体育》《教育》《医疗卫生》《邮政电信》《餐饮住宿》《商业金融》等共9个分则,这些分则都属于国家标准GB/T 30240的部分,在研制过程中,遵循服务导向原则、科学规范原则和统筹兼顾原则,充分考虑规范对于社会上的英文乃至于其他外文语种使用的导向作用。201510月下旬,国家语委语言文字规范标准审定委员会对这些分则的规范文本进行了审定,不久将作为国家标准公布实施。

在《通则》分则的4.1.3条规定,“地名的罗马字母拼写应符合我国语言文字和地名管理法律法规的规定”,“地名标志应执行GB 17733。也就是说,在一般情况下,地名标志应当按照汉语普通话的读音进行“译音”。

与此同时,4.1.3条中还规定:“作为公共服务设施的台、站、港、场,以及名胜古迹、纪念地、游览地、企业事业单位等名称,根据对外交流和服务的需要,可以用英文对其含义进行解释。”这意味着,汉语的地名除了进行“译音”之外,还可以用英文进行“译写”。

其中,《交通》分则中的道路名称、《旅游》分则中的景区景点名称涉及的中国地名,都可进行译写,这种“译写”是在不同语言之间进行的,与“译音”是不同的,这时由于涉及到中文和英文两种语言,地名中的通名部分,就不能按照汉语普通话的读音来译音,而应当按照英语来译写了。例如,《交通》分则中的4.1.1条中规定:“对外服务中需要用英文对道路设施的功能、性质等予以解释的,高速公路译作Expressway,公路译作Highway,一般城市道路译作Road,高架道路译作Elevated Road,环路译作Ring Road。”这样,根据《公共服务领域英文译写规范》,“海曙路”就可以译写为“Haishu Road”。这里的“Road”不是汉语普通话的“译音”,而是汉语和英语之间的“译写”,把“海曙路”中的通名部分“路”,译写为英文的“Road”,也是符合国家标准GB/T 30240的规范的。

我作为国家语委语言文字规范标准审定委员会的委员,参加了《公共服务领域外文译写规范》的审定,我认为,在公共服务领域,根据对外交流和服务的需要,可以对路名实行“译写”,这样的“译写”,与汉语普通话的“译音”,是可以并行不悖的。但是,不论是“译音”还是“译写”,对于地名中的专名部分,都必须遵循“单一罗马化”原则,按照《汉语拼音方案》,根据汉语普通话的读音来拼写。

根据我参加国际标准ISO 7098的修订以及参与国家标准GB/T 30240审定的经验,我认为,对于“海曙路”这个路名,在一般情况下,应当根据GB 17733进行译音,写为“Haishu Lu”,在公共服务领域,可以根据GB/T 30240进行译写,写为“Haishu Road”,如有必要,还可以同时进行译音和译写,分别写为“Haishu Lu”和“Haishu Road”,两者同时用来标志“海曙路”。不论是译音还是译写,其中的专名部分“海曙”,都应当遵循“单一罗马化”原则,按照汉语普通话的读音拼写为“Haishu”。

以上是我对于路名标志拼写中的“单一罗马化”原则的粗浅认识,希望得到方家的批评和指正。

 

参考文献

 

1.     郭建中,关于路名标识的拼写问题,《中国翻译》, 24卷,第5期,20039月,p33-34.

2.     郭建中,再谈街道名称的书写法,《中国翻译》,第26卷,第6期,200511月,p34-37.

3.     冯志伟,关于修订中文罗马字母拼写法国际标准ISO 7098 (1991)的情况说明,《北华大学学报》,14卷第3,2013年,p4-13

4.     国家标准GB/T 30240. 1-2013 《公共服务领域英文译写规范 1部分:通则》,中国标准出版社,20144月。

 

[作者简介] 冯志伟,杭州师范大学高端特聘教授

[作者电子信箱] zwfengde2010@hotmail.com

[作者手机号] 15911066112

[作者通信地址]北京市东城区朝内南小街51号,教育部语言文字应用研究所,邮编100010

 


 

征稿 | 大数据时代的语言研究研讨会

$
0
0

征稿 | 大数据时代的语言研究研讨会

2017-12-26 qler 计量语言学

大数据正在改变我们的生活以及理解世界的方式。大数据时代为语言研究带来了哪些机遇与挑战?数据密集型的研究范式又能为语言学带来哪些新的思路?大数据背后涌现的语言规律能够揭示人类的普遍认知规律吗?数字人文,可以联通数据与人类认知、社会、自然交互的规律吗? 

 

六十年前,冯志伟先生就开始进入与这些问题密切相关的研究领域。2018年,我们即将迎来冯先生的八十华诞。为此,我们拟于20184月在杭州召开学术研讨会,向冯先生表达我们由衷的敬意。(可点击文末“阅读原文”,浏览《走在文理结合的道路上:记自然语言处理专家冯志伟先生》)

 

 

欢迎广大语言研究爱好者,特别是冯先生的朋友、学生,以及与冯先生有学术往来的学界同仁惠赐鸿文,在美丽的西子湖畔,共商大数据时代语言研究的机遇与挑战。此次活动集结的优秀论文,我们将在会后编辑成书,公开出版。

 

论文征集事项:

 

一、研讨会论文可涉及以下研究领域:

1.           自然语言处理

2.           计量语言学

3.           数理语言学

4.           基于数据的语言研究

5.           语言规律与认知

6.           语言文字的形式化研究(汉字、术语、汉语拼音、歧义结构等)

 

二、摘要字数在1500左右。

三、摘要递交截止日期为201831

 

联系人:刘益光

电子邮箱:lyg_1606@163.com

 

 

浙江大学大数据+语言规律与认知创新团队

《冯志伟先生八十华诞纪念文集》编辑委员会

201712

 

 

 

阅读原文

阅读 2178

40投诉


 

《学科分类与代码》(GB/T13745-92)(语言学部分)

$
0
0

《学科分类与代码》(GB/T1374592)(语言学部分)

 (2009-04-09 21:02:23)

说明: http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif转载

标签: 

杂谈

 

分类: 研究资料

 

本学科分类划分为一,,三级学科三个层次,用阿拉伯数字表示.一级学科用三位数字表示,,三级学科分别用两位数字表示;,二级学科中间用点隔开.其代码结构如下:
×××·×× ××

 

740    语言学

学科代码

学科名

学科代码

学科名

740.10

普通语言学

740.1530

双语对比语言学

740.1010

语音学

740.1599

比较语言学其他学科

740.1015

语法学

740.20

语言地理学

740.1020

语义学

740.25

社会语言学

740.1025

词汇学

740.30

心理语言学

740.1030

词用学

740.35

应用语言学

740.1035

方言学

740.3510

语言教学

740.1040

修辞学

740.3520

话语语言学

740.1045

文字学

740.3530

实验语言学

740.1050

语源学

740.3540

数理语言学

740.1099

普通语言学其他学科

740.3550

计算语言学

740.15

比较语言学

740.3560

翻译学

740.1510

历史比较语言学

740.3599

应用语言学其他学科

740.1520

类型比较语言学

740.40

汉语研究

740.4010

普通话

740.5011

英语

740.4015

汉语方言

740.5014

德语

740.4020

汉语语音

740.5017

瑞典语

740.4025

汉语音韵

740.5021

意大利语

740.4030

汉语语法

740.5024

法语

740.4035

汉语词汇

740.5027

西班牙语、葡萄牙语

740.4040

汉语训诂

740.5031

罗马尼亚语

740.4045

汉语修辞

740.5034

俄语

740.4050

汉字规范

740.5037

波兰语、捷克语

740.4055

汉语史

740.5041

塞尔维亚语、保加利亚语

740.4099

汉语研究其他学科

740.5044

希腊语

750.45

中国少数民族语言文学

740.5047

阿尔巴尼亚语

740.4510

蒙古语文

740.5051

匈牙利语

740.4515

藏语文

740.5054

梵语、印地语、乌尔都语、僧伽罗

740.4520

维吾尔语文

740.5057

波斯语

740.4525

哈萨克语文

740.5061

土耳其语

740.4530

满语文

740.5064

阿拉伯语

740.4535

朝鲜语文

740.5067

希伯莱语

740.4540

傣族语文

740.5071

豪萨语

740.4545

彝族语文

740.5074

斯瓦希里语

740.4550

壮语文

740.5077

越南语、柬埔寨语

740.4555

苗语文

740.5081

印度尼西亚语、菲律宾语、马来语

740.4560

瑶语文

740.5084

缅甸语

740.4565

柯尔克孜语文

740.5087

泰语、老挝语

740.4570

锡伯语文

740.5091

日语

740.4599

中国少数民族其他语言文字

740.5094

世界语

740.50

外国语言

740.5099

外国语言其他学科

740.99

语言学其他学科

 

 

 


 

中英文文字学术语表

$
0
0

Glossary | 文字學術語中英文對照表

原创 2017-07-05 乐正 文苑英华



衆所周知,由於中國文字突出的表意特徵,文字學在中國源遠流長,蔚爲大觀。然而自晚清以來的中英翻譯中,古老的文字學術語却遇到了不小的困難。幸運的是,已經有學者注意到這個問題。比如此篇文章,即下表就是伯克利加州大學兩位學者的翻譯

此外,中國學者也有成果問世,比較權威的有沙宗元的《文字學術語規範研究》(安徽大學出版社,2008),語言學名詞審定委員會的《語言學名詞》(商務印書館,2011),前者是後者工作的一部分。

文字學術語規範研究》可在引得市(http://www.mebag.com/index/cuyu/list.asp)中查詢。(via 趙瑾昀評論)

語言學名詞》的術語可到全國科學技術名詞審定委員會的術語在綫網站(http://www.termonline.cn/)查詢。

 

A. English-Chinese

abbreviated phonetic,省聲

abbreviated signific,省形

abstract graph,抽象字

abstract representations,抽象的象形符號

abstract symbol,抽象的形符

allograph, variant, alternate way of writing,異體(字)

altered graph,變體字

alternate concentration of functions between two graphs,兩個字的職務的交互集中

alternate form, variant form,或體

alteration of phonetic symbols,改換音符

alteration of semantic symbols,改換意符

ancient and modern forms/graphs,古今字

ancient script form,古文

binome,雙音節詞

borrowed graph, borrowing,通假字

borrowed meaning,假借義

borrowing of both the sound and form of the borrowed graph,形音兼借字

borrowing of graphic shape,形借

bronze clan inscription,族徽金文

bronze clan name,族名金文

Chinese characters in common use,通用漢字

Chinese characters in general use,使用的漢字

clan emblem,族徽

classifier,類符

clerical script,隸書

close in pronunciation,音近

cognate,同源詞

complex pictorial graph,復雜象物字

component, element,旁

composite graph/character,合體字

compound graph,合文

concentration of lexical functions,文字職務的集中

concurrently polyphonic and polysemic forms,一形(字)多音義

consolidation of variant forms,異體字整理

conventional form,習用字

corruption,訛變

current forms,通行字

dedicated form,專用字

deformation of phonetics,聲旁的破壞

deictic,指事

deictic graph, deictograph,指示字

deictic symbol,指示符號

derivational relationship,造字相承的關系

derivation of new words,派生新詞

derivate, derived form,派生詞

determinative,定符

differentiated graph/form,分化字

differentiation,分化

differentiation of graphic forms,字形分化

different graphs sharing the same graphic shapes,異字同形

dispersal of the lexical loads of graphs,分散文字職務

dispersal of the lexical loads of polysemic graphs,分散多義字職務

distribution of lexical loads among allographs,異體字分工

disyllabic,雙音詞

disyllabic compound,雙音節復合詞

disyllabic morpheme,雙音節語素

disyllabic reduplicative phrase,疊字雙音詞

emblem,圖形

etymology,語源

etymon,母詞

extended meaning/sense,引申義

free morpheme,單獨詞

fully integrated writing system,完整的文字體系

grammatology,文字學

graphic abbreviation,省略偏旁字形

graphic borrowing,假借用法

graphic component,偏旁

graphic consolidation,文字的合幷

graphic derivates,文字孳乳

graphic form,字體

graphic form, graphic shape,字形

graphs having multiple uses,一字多用

graphic loans,文字假借

graphic symbol,文字符號

graphic symbol,字符

historically interchangeable graphs,歷史通用字

homography/homograph,同形字

homophone,同音字

homophonous cognates,同音的同源詞

homophonous or nearly homophonous graph,同音或音近的字

homophonous speller,直音

iconography,圖

identification mark ,標記

identificational inscription,記名金文

ideographic writing,表意文字

indiscriminate interchange,彼此混用

interchange of phonetics,聲旁的代換

interchange of signifies,形旁的代換

interchangeable graphs,通用字

late semanto-phonetic script,後期意()()文字

lexical meaning, a word's meaning,詞意

linearization,線條化

loaned phonetic symbols,借音符

loangraph, jiajie, borrowing,假借

matrigraph,母字

mature standard script,成熟的楷書

meaning,意義

modem form/graph,今字

monosyllabic morpheme,單音節語素

morphemes with the same graphic form,同形語素

morphemic graph,語素字

morphemic symbol,語素的符號

morphemic writing/script,語素文字

morphemo-syllabic script/writing,語素——音節文字

multi-functional graph,一字多職

multiple phonetics,多聲

multiple semantic components,多形

mutual exchange of lexical functions,職務互易

neo-clerical script,新隸體

new derived form,派生出新詞

new graph, later form, younger graph,後起字

non-composite characters,獨體字

non-phonetic type characters,非形聲結構

non-syssemantic,非會意字

numerical symbols,記數符號

one syllable ending in a nasal and the other in a non-nasal,陰陽對轉

original meaning,本來意義

original meaning, original sense,本義

orthograph,本字

phonemic script,音素文字

phonetic,聲旁

phonetic, phonetic symbol/element,音符

phonetic component,表音偏旁

phonetic script,拼音文字

phonetic symbol,表音符號

phonetic symbol, phonetic,注音符

phonogram,形聲字

phonogram, phonetic letters,表音字

phonological borrowing, borrowing,通假

phonological variation,聲韻通轉

phonology,語音

pictograph,象形字

pictographic,象形

pictographic aspect,圖畫意味

pictographic protoform,象形初文

pictographic sense,圖形意味

pictographic symbol,象形符號

pictographic symbol,形符

pictorial,圖形式

pictorial graph,象物字

pictorial semantogram,圖形式表意字

pictorial syssemantograph,圖形式會意字

picture, pictorial representation,圖畫

polygraphy,一詞多形

polysemic graph,多義字

polysyllabic,多音詞

popular character, vulgarism,俗字

popular form, vulgar form,俗體

popular orthograph,俗本字

popular script,通俗文字

primitive meaning,原始的意義

primative writing,原始文字

pronunciation of characters,字音

proper graph,正字

protoform,初文

purely phonetic element,純音符

quasi-allographs,部分異體字

quasi-composite characters,準合體字

quasi-composite semantograph,準合體表意字

quasi-pictorial graph,象事字

radical,部

reading and meaning,音義

reading, pronunciation,讀音

scholars of the script, grammatologist; students of the script,文字學者

seal script,篆文

segmentation of graphs into strokes,筆畫化

semantic,字義

semantic component,表意偏旁

semantic extension,引申

semantic extension,語義引申

semantic symbol,表意符號

semantic symbol,意符

semantograph,表意字

semantographic protoform,表意初文

semantographic symbol,義符

semanto-phonetic script,意()()文字

semanto-phonetic-sign script,意符音符記號文字

semantophoric phonetic, semanto-phoric phonogram, phonetics that convey meaning,有意的聲旁

semi-semantograph,半記號半表意字

semi-sign (character),半記號字

semi-sign and semi-phonogram,半記號半表音字

sign,記號

sign, sign graph,記號字

signific, semantic component,形旁

signific, semantic symbol,注意符

simplification of Chinese script,漢字簡化

simultaneously syssemantic and phonetic compound graph,會意兼形聲字

simultaneously a phonetic and a signific, phonetic symbols which are concurrently semantic symbols,音符兼意符

six principles theory of Chinese script,六書說

standard form,正體

standard script,楷書

syllabic script,音節文字

syllabograms,音節符號

symbol,符號

synonymic interchange ,同義換讀

syssemantograph,會意字

three principles theory of Chinese script,三書說

transitional writing,過度文字

Tri-script Stone Classics,三體石經

trisyllabic morpheme,三音節語素

variant forms associated with different writing traditions,重文

variant forms of a single graph,一字異體

wordbook,字書

word writing,詞文字

word-syllabic writing/script,詞——音節文字

writing system,文字體系

younger orthograph,後起本字

 

B. Chinese-English

半記號半表意字,semi-semantogram

半記號半表音字,semi-sign and semi-phonogram

半記號字,semi-sign (character)

本來意義,original meaning

本義,original meaning, original sense

本字,orthograph

變體字,altered graph

標記,identification mark

表意初文,semantographic protoform

表意符號,semantic symbols

表意偏旁,semantic component

表意文字,ideographic writing

表意字,semantogram

表音偏旁,phonetic component

表音符號,phonetic symbol

表音字,phonogram, phonetic letters

彼此混用,indiscriminate interchange

筆畫化,segmentation of graphs into strokes

部,radical

部分異體字,quasi-allographs

成熟的楷書,mature standard script

重文,variant forms associated with different writing traditions

抽象的象形符號,abstract representations

抽象的形符,abstract symbol

抽象字,abstract graph

純音符,purely phonetic element

初文,protoform

詞文字,word writing

詞意,lexical meaning, a word's meaning

——音節文字,word-syllabic writing/script

單獨詞,free morpheme

單音節語素,monosyllabic morpheme

疊字雙音詞,disyllabic reduplicative phrase

定符,determinative

獨體字,non-composite characters

多聲,multiple phonetics

多形,multiple semantic components

多義字,polysemic graph

多音詞,polysyllabic

讀音,reading, pronunciation

訛變,corruption

非會意字,nonsyssemantic

非形聲結構,non-phonetic type characters

分化,differentiation

分化字,differentiated graph/form

分散多義字職務,dispersal of the lexical loads of polysemic graphs

分散文字職務,dispersal of the lexical loads of graphs

符號,symbol

復雜象物字,complex pictorial graph

改換意符,alteration of semantic symbols

改換音符,alteration of phonetic symbols

古今字,ancient and modern forms/graphs

古文,ancient script form

過度文字,transitional writing

漢字簡化,simplification of Chinese script

合體字,composite graph/character

合文,compound graph

後起本字,younger orthography

後期意(符)音(符)文字,late semanto-phonetic script

後起字,new graph, later form, younger graph

會意兼形聲字,simultaneously syssemantic and phonetic compound graph

會意字,syssemantograph

或體,alternate form, variant form

假借,loangraph, jiajie, borrowing

假借用法,graphic borrowing

假借義,borrowed meaning

借音符,loaned phonetic symbols

記號,sign

記號字,sign, sign graph

記名金文,identificational inscription

今字,modern form/graph

記數符號,numerical symbols

楷書,standard script

類符,classifier

兩個字的職務的交互集中,alternate concentration of functions between two graphs

歷史通用字,historically interchangeable graphs

隸書,clerical script

六書說,six principles theory of Chinese script

母詞,etymon

母字,matrigraph

派生詞,derivate, derived form

派生出新詞,new derived form

派生新詞,derivation of new words

旁,component, element

偏旁,graphic component

拼音文字,phonetic script

三書說,three principles theory of Chinese script

三體石經,Tri-script Stone Classics

三音節語素,trisyllabic morpheme

省略偏旁字形,graphic abbreviation

聲旁,phonetic

聲旁的代換,interchange of phonetics

聲旁的破壞,deformation of phonetics

省聲,abbreviated phonetic

省形,abbreviated signific

聲韻通轉,phonological variation

使用的漢字,Chinese characters in general use

雙音詞,disyllabic

雙音節復合詞,dislyllabic compound

雙音節詞,binome

雙音節語素,disyllabic morpheme

俗本字,popular orthography

俗體,popular form, vulgar form

俗字,popular character, vulgarism

通假,phonological borrowing, borrowing

通假字,borrowed graph, borrowing

通俗文字,popular script

同形語素,morphemes with the same graphic forms

通行字,current forms

同形字,homography/homographs

同義換讀,synonymic interchange

同音的同源詞,homophonous cognates

同音或音近的字,homophonous or nearly homophonous graph

同音字,homophone

通用漢字,Chinese characters in common use

通用字,interchangeable graphs

同源詞,cognate

圖,iconograph

圖畫,picture, pictorial representation

圖畫意味,pictographic aspect

圖形,emblem

圖形意味,pictographic sense

圖形式,pictorial

圖形式表意字,pictorial semantogram

圖形式會意字,pictorial syssemantic graph

完整的文字體系,a fully integrated writing system

文字的合幷,graphic consolidation

文字符號,graphic symbol

文字假借,graphic loans

文字體系,writing system

文字學,grammatology

文字學者,scholars of the script, grammatologist; students of the script

文字孳乳,graphic derivates

文字職務的集中,concentration of lexical functions

習用字,conventional form

線條化,linearization

象事字,quasi-pictorial graph

象物字,pictorial graph

象形,pictographic

象形初文,pictographic protoform

象形符號,pictographic symbol

象形字,pictograph

形符,pictographic symbol

形借,borrowing of graphic shape

形旁,signific, semantic component

形旁的代換,interchange of signifies

形聲字,phonogram

形音兼借字,the borrowing of both the sound and form of the borrowed graph

新隸體,neo-clerical script

一詞多形,polygraphy

意符,semantic symbol

義符,semantographic symbol

意(符)音(符)文字,semanto-phonetic script

意(符)音(符)記號文字,semanto-phonetic-sign script

音符,phonetic, phonetic symbol/ element

音符兼意符,simultaneously a phonetic and a signific, phonetic symbols which are concurrently semantic symbols

音節符號,syllabogram

音節文字,syllabic script

音近,close in pronunciation

引申,semantic extension

引申義,extended meaning/sense

音素文字,phonemic script

陰陽對轉,one syllable ending in a nasal and the other in a non-nasal

音義,reading and meaning

異體(字),allograph, variant, alternate way of writing

異體字分工,distribution of lexical loads among allographs

異體字整理,consolidation of variant forms

一形(字)多音義,concurrently polyphonic and polysemic forms

意義,meaning

一字異體,variant forms of a single graph

一字多用,graphs having multiple uses

一字多職,multi-functional graph

異字同形,different graphs sharing the same graphic shapes

有意的聲旁,semantophoric phonetic, semantophoric phonogram, phonetics that convey meaning

原始的意義,primitive meaning

原始文字,primitive writing

語素的符號,morphemic symbol

語素字,morphemic graph

語素文字,morphemic writing/script

語素——音節文字,morphemo-syllabic script/writing

語義引申,semantic extension

語音,phonology

語源,etymology

造字相承的關系,derivational relationship

正體,standard form

正字,proper graph

指事,deictic

指示符號,deictic symbol

指示字,deictic graph, deictograph

職務互易,mutual exchange of lexical functions

直音,homophonous speller

篆文,seal script

專用字,dedicated form

準合體字,quasi-composite characters

準合體表意字,quasi-composite semantogram

注意符,signific, semantic symbol

注音符,phonetic symbol, phonetic

字符,graphic symbol

字書,wordbook

字體,graphic form

字形,graphic form, graphic shape

字形分化,differentiation of graphic forms

字義,semantic

字音,pronunciation of characters

族徽,clan emblem

族徽金文,bronze clan inscription

族名金文,bronze clan name

 

Resource

Chinese Writing by Qiu Xigui; translated by Gilbert L. Mattos and Jerry Norman.

Society for the Study of Early China : Institute of East Asian Studies, University of California, Berkeley, 2000.

 

作者:乐正
链接https://zhuanlan.zhihu.com/p/27662182

来源:知乎
版权:文章已获原作者授权,转载请联系原作者。

图片:资料图来源于网络



 

[转载]人工智能发展史

$
0
0
原文地址:人工智能发展史作者:赢在积累

    人工智能学科诞生于20世纪50年代中期,当时由于计算机的产生与发展,人们开始了具有真正意义的人工智能的研究。(虽然计算机为AI提供了必要的技术基础,但直到50年代早期人们才注意到人类智能与机器之间的联系. Norbert Wiener是最早研究反馈理论的美国人之一.最熟悉的反馈控制的例子是自动调温器.它将收集到的房间温度与希望的温度比较,并做出反应将加热器开大或关小,从而控制环境温度.这项对反馈 回路的研究重要性在于: Wiener从理论上指出,所有的智能活动都是反馈机制的结果.而反馈机制是有可 能用机器模拟的.这项发现对早期AI的发展影响很大。)

    1956年夏,美国达特莫斯大学助教麦卡锡、哈佛大学明斯基、贝尔实验室申龙、IBM公司信息研究中心罗彻斯特、卡内基——梅隆大学纽厄尔和赫伯特.西蒙、麻省理工学院塞夫里奇和索罗门夫,以及IBM公司塞缪尔和莫尔在美国达特莫斯大学举行了以此为其两个月的学术讨论会,从不同学科的角度探讨人类各种学习和其他职能特征的基础,并研究如何在远离上进行精确的描述,探讨用机器模拟人类智能等问题,并首次提出了人工智能的术语。从此,人工智能这门新兴的学科诞生了。这些青年的研究专业包括数学、心理学、神经生理学、信息论和电脑科学,分别从不同角度共同探讨人工智能的可能性。他们的名字人们并不陌生,例如申龙是《信息论》的创始人,塞缪尔编写了第一个电脑跳棋程序,麦卡锡、明斯基、纽厄尔和西蒙都是“图灵奖”的获奖者。

    这次会议之后,在美国很快形成了3个从事人工智能研究的中心,即以西蒙和纽威尔为首的卡内基—梅隆大学研究组,以麦卡锡、明斯基为首的麻省理工学院研究组,以塞缪尔为首的IBM公司研究组。随后,这几个研究组相继在思维模型、数理逻辑和启发式程序方面取得了一批显著的成果:

   11956年,纽威尔和西蒙研制了一个“逻辑理论家“(简称LT)程序,它将每个问题都表示成一个树形模型,然后选择最可能得到正确结论的那一枝来求解问题,证明了怀特黑德与罗素的数学名著《数学原理》的第2章中52个定理中的38个定理。1963年对程序进行了修改,证明了全部定理。这一工作受到了人们的高度评价,被认为是计算机模拟人的高级思维活动的一个重大成果,是人工智能的真正开端。

   21956年,塞缪尔利用对策论和启发式搜索技术编制出西洋跳棋程序Checkers。该程序具有自学习和自适应能力,能在下棋过程中不断积累所获得的经验,并能根据对方的走步,从许多可能的步数中选出一个较好的走法。这是模拟人类学习过程第一次卓有成效的探索。这台机器不仅在1959年击败了塞缪尔本人,而且在1962年击败了美国一个州的跳棋冠军,在世界上引起了大轰动。这是人工智能的一个重大突破。

   31958年,麦卡锡研制出表处理程序设计语言LISP,它不仅可以处理数据,而且可以方便的处理各种符号,成为了人工智能程序语言的重要里程碑。目前,LISP语言仍然是研究人工智能何开发智能系统的重要工具。

   41960年纽威尔、肖和西蒙等人通过心理学实验,发现人在解题时的思维过程大致可以分为3个阶段:1。首先想出大致的解题计划;2。根据记忆中的公理、定理和解题规划、按计划实施解题过程;3.在实施解题过程中,不断进行方法和目标分析,修改计划。这是一个具有普遍意义的思维活动过程,其中主要是方法和目的的分析。(也就是人们在求解数学问题通常使用试凑的办法进行的试凑是不一定列出所有的可能性,而是用逻辑推理来迅速缩小搜索范围的办法进行的),基于这一发现,他们研制了“通用问题求解程序GPS”,用它来解决不定积分、三角函数、代数方程等11种不同类型的问题,并首次提出启发式搜索概念,从而使启发式程序具有较普遍的意义。

   51961年,明斯基发表了一篇名为《迈向人工智能的步骤》的论文,对当时人工智能的研究起了推动作用。



    正是由于人工智能在20世纪50年代到60年代的迅速发展和取得的一系列的研究成果,使科学家们欢欣鼓舞,并对这一领域给予了过高的希望。纽威尔和西蒙在1958年曾作出以下预言:

      ①不出十年,计算机将成为世界象棋冠军,除非规定不让它参加比赛;

      .不出十年,计算机将发现并证明那时还没有被证明的数学定理;

      .不出十年,计算机将谱写出具有较高美学价值并得到评论家认可的乐曲;

      ④不出十年,大多数心理学家的理论将采用计算机程序来形成。

    非常遗憾的是,到目前为止,这样的预言还没有一个得到完全的实现,人工智能的研究状况比纽威尔和西蒙等科学家的设想要复杂和艰难的多。事实上,到了20世纪70年代初,人工智能在经历一段比较快速的发展时期后,很快就遇到了许多问题。这些问题主要表现在:

   11965年鲁宾逊发明了归结(消解)原理,曾被认为是一个重大的突破,可是很快这种归结法能力有限,证明两个连续函数之和还是连续函数,推证了十万步竟还没有得证。

   2)塞缪尔的下棋程序,赢得了周冠军后,没能赢全国冠军。

   3)机器翻译出了荒谬的结论。如从英语→俄语→英语的翻译中,又一句话:“The spirit is willing but the flesh is weak(心有余而力不足),结果变成了”The wine is good but the meat is spoiled(酒是好的,肉变质了),闹出了笑话。

   4)大脑约有1015次方以上的记忆容量,此容量相当于存放几亿本书的容量,现有的技术条件下在机器的结构上模拟人脑是不大可能的。

   5)来自心理学、神经生理学、应用数学、哲学等各界的科学家们对人工智能的本质、基本原理、方法及机理等方面产生了质疑和批评。

    由于人工智能研究遇到了困难,使得人工智能在20世纪70年代初走向低落。但是,人工智能的科学家没有被一时的困难所吓倒,他们在认真总结经验教训的基础上,努力探索使人工智能走出实验室,走向实用化的新路子,并取得了令人鼓舞的进展。特别是专家系统的出现,实现了人工智能从理论研究走向实际应用,从一般思维规律探索走向专门知识应用的重大突破,是人工智能发展史上的重大转折,将人工智能的研究推向了新高潮。下面是几个又代表性的专家系统:

   11968年斯坦福大学费根鲍姆教授和几位遗传学家及物理学家合作研制了一个化学质谱分析系统(DENDARL),该系统能根据质谱仪的数据和核磁谐振的数据,以及有关化学知识推断有机化合物的分子结构,达到了帮助化学家推断分子结构的作用。这是第一个专家系统,标志着人工之能从实验室走了出来,开始进入实际应用时代。

   2)继DENDARAL系统之后,费根鲍姆领导的研究小组又研制了诊断和治疗细菌感染性血液病的专家咨询系统MYCIN。经专家小组对医学专家、实习医师以及MYCIN行为进行正式测试评价,认为MYCIN的行为超过了其他所有人,尤其在诊断和治疗菌血症和脑膜炎方面,显示了该系统作为临床医生实际助手的前途。从技术的角度来看,该系统的特点是:1。使用了经验性知识,用可信度表示,进行不精确推理。2.对推理结果具有解释功能,时系统是透明的。3.第一次使用了知识库的概念。正是由于MYCIN基本解决了知识表示、知识获取、搜索策略、不精确推理以及专家系统的基本结构等重大问题(是怎样解决的呢?),对以后的专家系统产生了很大的影响。

   31976年,斯坦福大学国际人工智能中心的杜达等人开始研制矿藏勘探专家系统PROSPECTOR,它能帮助地质学家解释地质矿藏数据,提供硬岩石矿物勘探方面的咨询,包括勘探测评,区域资源估值,钻井井位选择等。该系统用语义网络表示地质知识,拥有15中矿藏知识,采用贝叶斯概率推理处理不确定的数据和知识。PROSPECTOR系统于1981年开始投入实际使用,取得了巨大的经济效益。例如1982年,美国利用该系统在华盛顿发现一处矿藏,据说实用价值可能超过1亿美元。

   4)美国卡内基—梅隆大学于20世纪70年代先后研制了语音理解系统HEARSAY-I加入HEARSAY-II,它完成从输入的声音信号转换成字,组成单词,合成句子,形成数据库查询语句,再到情报数据库中去查询资料。该系统的特点是采用“黑板结构”这种新结构形式,能组合协调专家的知识,进行不同抽象级的问题求解。

      在这一时期,人工智能在新方法、程序设计语言、知识表示、推理方法等方面也取得了重大进展。例如70年代许多新方法被用于AI开发,著名的如Minsky的构造理论.另外David Marr提出了机器视觉方面的新理论,例如,如何通过一副图像的阴影,形状,颜色,边界和纹理等基本信息辨别图像.通过分析这些信息,可以推断出图像可能是什么,法国马赛大学的柯尔麦伦和他领导的研究小组于1972年研制成功的第一个PROLOG系统,成为了继LISP语言之后的另一种重要的人工智能程序语言;明斯基1974年提出的框架理论;绍特里夫于1975年提出并在MYCIN中应用的不精确推理;杜达于1976年提出并在PROSPECTOR中应用的贝叶斯方法;等等

    人工智能的科学家们从各种不同类型的专家系统和知识处理系统中抽取共性,总结出一般原理与技术,使人工智能又从实际应用逐渐回到一般研究。围绕知识这一核心问题,人们重新对人工智能的原理和方法进行了探索,并在知识获取、知识表示以及知识在推理过程中的利用等方面开始出现一组新的原理、工具和技术。1977年,在第五届国际人工智能联合会(IJCAI)的会议上,费根鲍姆教授在一篇题为《人工智能的艺术:知识工程课题及实例研究》的特约文章中,系统的阐述了专家系统的思想,并提出了知识工程(KnowledgeEngineering)的概念。费根鲍姆认为,知识工程是研究知识信息处理的学科,它应用人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供了求解的途径。恰当的运用专家知识的获取、表示、推理过程的构成与解释,是设计基于知识的系统的重要技术问题。至此,围绕着开发专家系统而开展的相关理论、方法、技术的研究形成了知识工程学科。知识工程的研究使人工智能的研究从理论转向应用,从基于推理的模型转向基于知识的模型。



    为了适应人工智能和知识工程发展的需要,在政府的大力支持下,日本于1982年开始了为期10年的“第五代计算机的研制计划”,即“知识信息处理计算机系统KIPS”,总共投资4.5亿美元。它的目的是使逻辑推理达到数值运算那样快。日本的这一计划形成了一股热潮,推动了世界各国的追赶浪潮。美国、英国、欧共体、苏联等都先后制订了相应的发展计划。随着第五代计算机的研究开发和应用,人工智能进入一个兴盛时期,人工智能界一派乐观情绪。

    然而,随着专家系统应用的不断深入,专家系统自身存在的知识获取难、知识领域窄、推理能力弱、只能水平低、没有分布式功能、实用性差等等问题逐步暴露出来。日本、美国、英国和欧洲所制订对那些针对人工智能的大型计划多数执行到20世纪80年代中期就开始面临重重困难,已经看出达不到预想的目标。进一步分析便发现,这些困难不只是个别项目的制订又问题,而是涉及人工智能研究的根本性问题。总的来讲是两个问题:一是所谓的交互(Interaction)问题,即传统方法只能模拟人类深思熟虑的行为,而不包括人与环境的交互行为。另一个问题是扩展(Scaling up)问题,即所谓的大规模的问题,传统人工智能方法只适合于建造领域狭窄的专家系统,不能把这种方法简单的推广到规模更大、领域更宽的复杂系统中去。这些计划的失败,对人工智能的发展是一个挫折。

    尽管经历了这些受挫的事件,AI仍在慢慢恢复发展.新的技术在日本被开发出来,如在美国首创的模糊逻辑,它可以从不确定的条件作出决策;还有神经网络,被视为实现人工智能的可能途径.

    1982年后,人工神经网络像雨后春笋一样迅速发展起来,给人们带来了新的希望。人工神经网络的主要特点是信息的分布存储和信息处理的并行化,并具有自组织自学习能力,这使人们利用机器加工处理信息有了新的途径和方法,解决了一些符号方法难以解决的问题,使人工智能的学术界兴起了神经网络的热潮。1987年美国召开了第一次神经网络国际会议,宣布新学科的诞生。1988年以后,日本和欧洲各国在神经网络方面的投资逐步增加,促进了该领域的研究。但是随着应用的深入,人们又发现人工神经元网络模型和算法也存在问题。

    20世纪80年代末,以美国麻省理工学院布鲁克斯(R.A.Brooks)教授为代表的行为主义学派提出了“无须表示和推理”的智能,认为智能只在与环境的交互中表现出来,并认为研制可适应环境的“机器虫”比空想智能机器人要好。以后,人工智能学术界充分认识到已有的人工智能方法仅限于在模拟人类智能活动中使用成功的经验知识处理简单的问题,开始在符号机理与神经网机理的结合及引入Agent系统等方面进一步开展研究工作。20世纪90年代,所谓的符号主义、连接主义和行动主义3种方法并存。对此,中国学者认为这3种方法各有优缺点,他们提出了综合集成的方法,即不同的问题用不同的方法来解决,或用联合(混合、融合)的方法来解决,再加上人工智能系统引入交互机制,系统的智能水平将会大为提高。

    总而言之,尽管人工智能的发展经历了曲折的过程,但它在自动推理、认知建模、机器学习、神经元网络、自然语言处理、专家系统、智能机器人等方面的理论和应用上都取得了称得上具有“智能”的成果。许多领域将知识和智能思想引入到自己的领域,使一些问题得以较好的解决。应该说,人工智能的成就是巨大的,影响是深远的。

 

 

 

赢在积累博客推荐文章:http://blog.sina.com.cn/s/blog_99096bb00100z5ma.html

   

 


 

漫谈人工智能

$
0
0




               漫谈人工智能

 

2018118日,由中国人工智能学会主办《人工智能大讲堂》第二期在北京开讲。中国人工智能学会理事、机器学习专委会副主任于剑教授带来以《漫谈人工智能 》为题的精彩报告。

本期听众面向300余位中小学校长(教育工作者),报告详细的梳理了人工智能的定义与人工智能的“三大流派”,通过分析指出现在人工智能面临的基本问题,为现场听众答疑解惑。

 

 

 

于剑:非常高兴有机会代表中国人工智能学会,向各位老师来讲一点人工智能的事情。刚才南方科技大学的陈十一校长给了一个非常高大上的报告,作为下一位的讲者,我压力山大。 毕竟,这也是我第一次做这种半学术性的报告,以前都是做纯学术性的报告。我尽量做好,如果做不好的话还请各位老师原谅。 首先说一下报告提纲,今天的报告分5部分,现在讲第一部分。

 

在讲第一部分之前,先说为什么要讲人工智能。 创新人才教育研究会为什么要请人来讲人工智能呢?实际上,这个问题刚才陈校长已经回答过了,这是因为现在已经进入了人工智能时代。下面做一个更详细的论述。

 

从国家政策来说,2017720日国务院印发了《新一代人工智能发展规划》,国内国外一些国家像法国、德国、美国等也出台了一些政策。

 

从产业界来说,现在几乎所有的IT企业都宣称自己是人工智能企业了,像IBM,原先是做硬件的,现在都转型做人工智能了,原先的许多软件企业如百度、谷歌、微软等更是全面转型人工智能。

 

从实际产品来说,那就太多了,随便举一些例子,如寒武纪 1H8AI芯片,百度Apollo计划开放自动驾驶平台等。 

 

甚至人工智能伦理也提上了议事日程,如20171月,提出了Asilomar AI Principles 23条。

 

为了说明人工智能的热度,我们放一张照片,这张照片说明人工智能不光是世俗人热,现在连修道者开会都要讲人工智能了。

 

说起人工智能的起源,这个报告并不打算追溯很远。现代AI的起源公认是1956年的达特茅斯会议。 达特茅斯会议,一共就10个人参会,开了两个月的会议,会议的成果就是AI成为了一个独立的学科。人工智能如何定义呢?常见的定义有两个:第一个是马文明斯基提出的,
 

四大研究领域揭示自然语言技术的奥秘

$
0
0

MSRA副院长周明博士:四大研究领域揭示自然语言技术的奥秘

2018-02-02 AI科技评论 AI科技评论

AI 科技评论按:比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」,沈向洋博士也说过「懂语言者得天下」。自然语言理解处在认知智能最核心的地位。它的进步会引导知识图谱的进步,会引导对用户理解能力的增强,也会进一步推动整个推理能力。自然语言处理的技术会推动人工智能整体的进展,从而使得人工智能技术可以落地实用化。

微软亚洲研究院副院长周明博士围绕这一观点有过不少系统的阐述。不论是在微软大厦举行的自然语言处理前沿技术分享会活动上,或是近日举办的 EmTech China 峰会上,周明博士围绕自然语言四个方面的进展,结合 MSRA 在自然语言上的一系列研究成果做过介绍。AI 科技评论对内容进行整理,并做了不改动原意的编辑:

人工智能是用电脑来模拟和实现人类的智能,而人类的智能大概分如下几个层次:

第一是运算智能,记忆、计算的能力,这一点机器早已经超过人类。

第二是感知智能,包括听觉、视觉、触觉;最近两年,随着深度学习的引入,大幅度提高语音识别和图像识别的识别率,所以计算机在感知智能层面已经做得相当不错了,在一些典型的测试题下,达到或者超过了人类的平均水平。

第三认知智能,包括理解、运用语言的能力,掌握知识、运用知识的能力,以及在语言和知识基础上的推理能力。过去认知智能主要集中在语言智能这块,即自然语言处理,它简单理解了句子、篇章,实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。

最高一层是创造智能,人们利用已有的条件,利用一些想象力甚至有一些是臆断、梦想,想象一些不存在的事情包括理论、方法、技术,通过实验加以验证,然后提出新的理论,指导更多实践,最后产生很好的作品或产品。

作为认知智能的重要一环,人工智能最重要的分支就是自然语言的理解与处理,即语言智能,通过对词、句子、篇章进行分析,对内容里面的人物、时间、地点等进行理解,然后在此基础上,去支持一系列核心技术,比如跨语言的翻译、问答系统、阅读理解、知识图谱等技术,基于这些技术,又可以把它应用到其它应用领域,比如说搜索引擎、客服、金融、新闻等等领域。总之,就是通过对语言的理解,实现人跟电脑的直接交流,从而实现人跟人更加有效地交流。自然语言技术不是一个独立的技术,其受云计算、大数据、机器学习、知识图谱等等各个方面的支撑。

语言智能是人工智能皇冠上的明珠,如果语言智能能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。而自然语言的进展主要包括四个层面:神经机器翻译、聊天机器人、阅读理解及机器创作。

神经机器翻译

神经机器翻译就是模拟人脑的翻译过程,人在翻译的时候,首先是理解这句话,然后在脑海里形成对这句话的语义表示,最后再把这个语义表示转化到另一种语言。

神经机器翻译有两个模块,一个是编码模块,把输入的源语言变成一个中间的语义表示,用一系列的机器的内部状态来代表,另一个模块是解码模块,根据语义分析的结果,逐词生成目标语言。

神经机器翻译在这几年发展非常迅速,2017 年的研究热度更是一发不可收拾,现在神经机器翻译已经取代了统计机器翻译,成为机器翻译的主流技术。目前有统计数据表明,在一些传统的统计机器翻译难以完成的任务上,神经机器翻译的性能远远超过了统计机器翻译,而且跟人的标准答案非常接近,甚至说是相仿的水平。围绕着神经机器翻译,研究者们已做了很多的工作,比如如何提升训练的效率,如何提升编码和解码的能力。还有一个重要的研究问题就是数据问题,神经机器翻译依赖于双语对照的大规模的数据集来训练,端到端地训练神经网络参数,这涉及很多语音段和很多的垂直领域,但我们实际上并没有那么多的数据,我们只有小量的双语数据和大量的单语数据。

所以,我们就提出了半监督的联合垂直模型,已知一个双语推导语料,分别对之训练,从而达到中英翻译系统与英中翻译系统的相互促进,比如拿中英翻译系统去翻中文的语料,形成很多伪的中英对照语料,然后把这个语料去加到英中翻译里面去。同样,用英中翻译系统去翻译大量的英文语料,然后把这个语料加到中英翻译里面,这样经过多次迭代之后,翻译水平大幅度提升。

微软现在已经全面采用神经机器翻译,最近还跟华为的 Mate10 手机合作,得到了神经机器翻译类似于在云上的效果。

聊天机器人

「对话即平台」,英文叫做「Conversation as a PlatformCaaP)」。2016 年,微软首席执行官萨提亚在大会上提出了 CaaP 这个概念,他认为继有图形界面的下一代就是对话,它会对整个人工智能、计算机设备带来一场新的革命。

为什么要提到这个概念呢?我个人认为有两个原因。

第一个原因,源于大家都已经习惯用社交手段,如微信、Facebook 与他人聊天的过程。我们希望将这种通过自然的语言交流的过程呈现在当今的人机交互中,而语音交流的背后就是对话平台。

第二个原因则在于,现在大家面对的设备有的屏幕很小,有的甚至没有屏幕,所以通过语音的交互,更为自然直观的。因此,我们是需要对话式的自然语言交流的,通过语音助手来帮忙完成。

而语音助手又可以调用很多 Bot,来完成一些具体的功能,比如说定杯咖啡,买一个车票等等。芸芸众生,有很多很多需求,每个需求都有可能是一个小 Bot,必须有人去做这个 Bot。对于微软而言,我们作为一个平台公司,希望把自己的能力释放出来,让全世界的开发者,甚至普通的学生就能开发出自己喜欢的 Bot,形成一个生态的平台,生态的环境。

如何从人出发,通过智能助理,再通过 Bot 体现这一生态呢?微软在做CaaP的时候,实际上有两个主要的产品策略。

第一个是小娜,通过手机和智能设备介入,让人与电脑进行交流:人发布命令,小娜理解并执行任务。同时,小娜作为你的贴身处理,也理解你的性格特点、喜好、习惯,然后主动给你一些贴心提示。第二个就是小冰,主要负责闲聊。

无论是小冰这种闲聊,还是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术。

第一层:通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。

第二层:信息服务和问答,需要搜索的能力,问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息,并且回答问题,我们统称为 Info Bot

第三层:面向特定任务的对话能力,例如定咖啡、定花、买火车票,这个任务是固定的,状态也是固定的,状态转移也是清晰的,那么就可以用 Bot 一个一个实现。你有一个调度系统,你知道用户的意图就调用相应的 Bot 执行相应的任务。它用到的技术就是对用户意图的理解,对话的管理,领域知识,对话图谱等等。

在聊天的时候机器要理解人的意图,产生比较符合人的想法,以及符合当前上下文的回复,再根据人与机器各自的回复将话题进行下去。基于当前的输入信息,再加上对话的情感,以及用户的画像,经过一个类似于神经机器翻译的解码模型生成回复,可以达到上下文相关、领域相关、话题有关,而且是针对用户特点的个性化的回复。

via http://www.msxiaoice.com/

阅读理解

下一个话题是阅读理解,阅读理解就是让电脑看一遍文章,针对这些文章问一些问题,看电脑能不能回答出来。斯坦福大学曾做过一个比较有名的实验,就是使用维基百科的文章提出 5 个问题,由人把答案做出来,然后把数据分成训练集和测试集,训练集是公开的,用来训练阅读理解系统,而测试集不公开,个人把训练结果上传给斯坦福,斯坦福在其云端运行,再把结果报在网站上,这也避免了一些人对测试集做手脚。阅读理解技术,自 20169 月前后发布,就引起了很多研究单位的关注,大概有二三十家单位都在做这样的研究,一开始的水平都不是很高,以 100 分为例,人的水平是 82.3 左右,机器的水平只有 74 分,相差甚远,后来通过类似于开源社区模式的不断改进,它的性能就得以逐步地提高了。

最近在阅读理解领域出现的一个备受关注的问题,就是如何才能做到超越人的标注水平。现在微软、阿里巴巴、科大讯飞和哈工大的系统,都超越了人工的标注水平,这标志着阅读理解技术进入了一个新的阶段。这几个系统都来自中国,也体现中国在自然语言处理的进步。

一个阅读理解的框架首先要得到每个词的语义表示,再得到每个句子的语义表示,这可以用循环神经网络 RNN 来实现,然后用特定路径来找出潜在答案,基于这个答案再筛选出最优的答案,最后确定这个答案的边界。在做阅读理解的时候,是用到了外部的知识,可以用大规模的语料来训练外部的知识,通过外部知识训练的 RNN 模型,加入到原来端到端的训练结果中,以此来大幅度地提高阅读理解的能力。

机器创作

最后介绍机器创作,机器可以做很多理性的东西,那么它可以做一些创造性的东西吗?10 年以前,我们就开始做微软对联,在此基础上,创作绝句、律诗、唐诗宋词等等,现在进行写歌谱曲。在微软对联里,用户输入上联,系统就可以对出下联,也可以给出横批;在字谜游戏里,用户给出谜面,让系统猜出字;或系统给出谜面让用户猜出字。

我们的编码解码技术已经成功用于神经网络机器翻译、小冰机器人和词曲创作中。中央电视台《机智过人》节目就曾播过我们的小冰与人类选手进行词曲创作比拼的环节,结果是小冰险胜人类。这件事说明如果有大数据,那么机器学习或者深度学习就可以模拟人类的创造智能,创造出一些作品来,也可以与专家合作,帮助专家产生更好的想法,然后两者配合,产生出美妙的音乐。

这个在以前是难以想象的,做自然语言的人从来没有想到自然语言还可以延伸到音乐上去,其实音乐也是一种语言,自然语言的所有技术就可以应用到音乐上去,这需要大家的想象力。

今天我快速介绍了自然语言处理在神经机器翻译、阅读理解、聊天机器人以及机器创作领域的进展。随着未来大数据、云计算和深度学习的发展,模型还会进一步地提升,再加上合适的场景,技术就可以落地,就可以服务于成千上万的用户。可以预料,随着自然语言处理技术的提高与普及,它将会与其他的人工智能技术一起提升人类的生活水平。


 

语言学家冯志伟的戏剧性人生

$
0
0

语言学家冯志伟的戏剧性人生

郑伊 言语和语言 2018-03-09

冯志伟应该没有料到,1957年的某一天,自己在北大外文图书室偶然看到的一本美国杂志里的文章,竟开启了自己走语言学的道路。也应该料想不到,这条道路那么曲折又总能一以贯之。而在这之前,他在北大读的是和语言学风马牛不相及的地质系的地球化学专业。

 

杂志是关于信息论、计算机科学基础理论的,文章是乔姆斯基写的《语言描写的三种模型》。不像现在这么名声大噪,当时的乔姆斯基还很年轻,不太有名气。文章认为形式语言、程序语言、自然语言及描写程序的机器语言都有一个共同的基础,即数学。而正是这点让数学很好的冯志伟产生了兴趣和共鸣。他觉得乔姆斯基说的东西很新奇,当时中国基本上还没人知道这个。并且他预感到“有一件很伟大的事情就要发生了,他的这篇文章虽然很普通,但是我认为对我们人类的智能研究会有很大的作用”。不妨回顾一下时间和空间,1946年,世界上第一台计算机才在美国诞生,1958年,中国第一台计算机出现,当时是1957年,他正读大一。不得不说,敏锐的洞察力真是一种不可捉摸的天分。

 

而直到大三,在学了两年的地球化学之后,冯志伟才辗转到北大中文系。在这期间,他去咨询过中文系的老师,当时中国研究语言学的多是理论语言学,得到的回复是中文系有搞语言学的,但不知道什么乔姆斯基,觉得用数学方法搞语言学是很古怪的事情,是异端邪说。对于转系,中文系也有条件,一是他必须放弃两年学理的学历,从中文系的一年级读起,并且中文系的考试及格才能转;二是转过来之后,老师教什么就学什么。他并不讨厌原来的地球化学专业,相反,有浓厚的兴趣,觉得挺好的。但他的眼睛出现了问题,而他的专业需要用眼。这使他最后下定了决心。

 

因为兴趣驱使来到中文系的冯志伟,在对自然科学完全无感的文科生堆里显得有点格格不入。他一边上中文系的课,一边研究数学,每天做数学题,读数学系的书。希望将来可以像乔姆斯基一样,用数学的方法研究语言。吊诡的是,当时的政治气氛不让读很多书,太拔尖的学生会被看成白专分子,而冯志伟又求知若渴。于是冯志伟一边好好学习,一边又表现出成绩不是特别好的样子。

 

当时还没有计算语言学,本科毕业后,冯志伟就跟着著名语言学家岑麒祥读硕士,学理论语言学,又学了法语。他打算把自己的“异端邪说”跟导师说说,岑麒祥教授是典型的人文学者,不能接受。听了冯志伟各种各样的理由后,他不反对也不支持。经过这么多年的准备,1966年,冯志伟提前写就了他的硕士毕业论文《数学方法在语言学中的应用》,导师也承认了他搞的是语言学,这在当时已经很不容易了。好在,当时北大中文系的有些老师还是支持他的,比如学物理出身的语言学家朱德熙,推崇逻辑学的语言学家王力教授。

 

冯志伟本来在1967年才硕士毕业,但他写完论文后,希望能提前答辩,因为家里很困难,早点毕业好早点工作。岑麒祥教授虽然看不太懂他的论文,但很开明,想着既然写出来了,大概已经成熟了。然而,19665月,“文化大革命”发生了,什么都乱了套。不仅提前毕业的计划泡汤了,冯志伟在北大一直待到1968年才毕业。

 

离开北大后,冯志伟被分到天津一个中学教书。他对语言学的看法也发生了转变。在北大时,他是一个优秀的学生,学了那么多理科和文科的东西,自认为很有学问,也能得到老师的认可,可离开北大跨出了语言学的圈子进入社会后,别人根本不知道你搞的是什么玩意儿,什么主谓宾啊,人家觉得你是疯子,搞这个干嘛?人家只看你有什么真本事。他想教语文,学校领导说语文课大家都能教,中国人不会讲中国话还行吗?他外语好,于是就教了外语。他教外语一年翻来覆去只教了一句话:毛主席万岁(Long Live Chairman Mao),不敢教其他的。因为当时反对地道英语,中国人讲的英语不能跟美国人的一样,无产阶级,最革命的人只能讲Long Live Chairman Mao

 

在天津工作了两年后冯志伟被调到了昆明一个中学,同样,学校不需要中文老师,也不需要外语老师,幸亏他理科好,就教了物理,一教就是八年。在这八年里,他常常思考人们对语言学的看法。“为什么我会教物理呢?”因为离开了语言学的圈子,别人根本就不关心语言学,研究这个又没什么经济效益,在别人看来不是真本事。到底有没有用最后得用社会来衡量。从学校走出来在社会历练过后的冯志伟,开始犹豫还搞不搞语言学。尽管内心有很多怀疑,但对用数学方法研究语言学,他仍然充满信心,常去省图书馆找相关的书看。在那里,他又读到了启发过他的乔姆斯基,像冯志伟50年代预感到的那样,在70年代,这个普通人已经很有名了。

 

1978年,高考招生制度恢复。冯志伟在昆明教物理教得很好,培养的学生成绩都不错,在家长中有了口碑。是继续教书过受人尊重又安定的生活还是放弃现在的一切考研究生,他又一次面临着选择。但总是这样子不是吗?有的人就是能让最初的信念在一次次挫败、一次次自我怀疑、对未来不可知的情况下死灰复燃,然后循着那条路勇往直前。冯志伟联系北大以前的老师,老师知道他读书厉害,推荐他过来。北大军宣队的领导跟云南宣传省委部长是老战友,就写了封信。没想到就是因为自己的才华,阻断了自己去北大的路。云南宣传省委部长想到北大要这个人,说明这个人很有用,当时正是建设时期,云南省需要人才,不能放他走。就这样,他转而去考了中国科技大学。

 

此时的冯志伟已经39岁,对于目标明确的人,年龄什么的从来都不是问题。他考的不是地球化学,不是数学,不是物理学,也不是语言学,他考的是信息科学。并且一考就考上了。为什么考这个?他觉得信息科学跟数学的联系比较多,这个系有信息检索和机器翻译专业,跟语言学有关。所以考了这个。

 

进入科技大学后,学校认为年轻的同学比较有培养前途,把这些同学就送往美国学习,冯志伟算研究生里比较大的了,就被送到了法国学习。他到的是法国的格勒诺布尔大学应用数学研究所。幸运的是,导师是当时世界上一流的计算语言学家,正是用数学方法搞机器翻译。因缘际遇,碰到对的人,有很好的环境,是多么的难能可贵。在这里,冯志伟充分地施展了自己平生所学,将数学和语言学结合,做了一个将汉语翻译成五种语言的翻译系统。

 

当时乔姆斯基在句子分析中是“单标记”的思想,但这不能解释和划分有的语言结构。比如“谁吃了午饭?——郑伊吃了。”“午饭吃了吗?——午饭吃了。”“郑伊吃了”和“午饭吃了”这两个句子里,“郑伊”和“午饭”都是NP(名词短语),“吃了”是VP(动词短语)。按照乔姆斯基“单标记”的方法,可以把它们都表示为S(句子)=NP+VP,它们有相同的词性、词序和层次,但我们能发现它们的作用并不同。如果用机器这样子做出来,是一样的树形图,就不能区别它们的不同。不单汉语这样,英语也有类似的例子。这是当时乔姆斯基解决不了的问题(乔姆斯基用转换的方法区别它们)。冯志伟提出采用“多标记”的方法,就是在做树形图后,在节点上不能只标出NP,比如“郑伊吃了”,“郑伊”是NP,还要标出它是施事。同样。“午饭”是NP,还要标出它是受事。然后在程序上下功夫,让树形图表示多标记,这样就区分开了。除了“多标记”方法,还有“多叉”的观点。冯志伟的翻译系统就是根据这个做成的,这个系统是世界上第一个把汉语译成多种外语的机器翻译系统。

 

1981年,冯志伟回国。回想起来,从北京到天津到昆明,又从昆明到北京到国外再回北京;从理科到文科又到理科,兜兜转转,这么大一圈。自己在语言学里摔了这么大的筋斗。真是让人心生感慨。后来科技大学把他分配到中国科技情报所计算中心做机器翻译组的组长。又做了一些机器翻译系统。

 

1982年,北大邀请他在中文系汉语专业开设“语言学中的数学问题”的选修课。是国内首次在高等学校全面系统讲述数理语言学的课程。这个在他做学生时被认为是“异端邪说”的东西受到了学生和老师的欢迎。

 

还远远没有结束,在科技信息研究所工作,如冯志伟所愿,他的工作有很强的实用价值。他的团队在中国第一次用计算机输出了汉字。他研究歧义,提出了PA(潜在歧义)理论,应用于自然语言处理。他出了很多书《数理语言学》《现代语言学流派》《自然语言学的计算机处理》等等。有人问他:“希望别人评价您的时候说您是位语言学家吗?”他回答:“即使我做数学,也是为了语言的目的。我还是个语言学家。”

后记:本文改写自张宜的《历史的旁白——中国当代语言学家口述实录》冯志伟一章。该书通过口述的方式,记录了很多有名的语言学家的学思历程。比如周有光、吴宗济、徐通锵、陆俭明等。他们的学问、成就的确让人敬佩,治学的方法也让人很有启发。但我从中发现,大多数语言学家走上语言学道路的原因,并不是自己喜欢或者对其有所了解,而是心甘情愿地依从组织安排,爱国,建设国家等等。面对选择时都是服从组织分配。而冯志伟教授的故事打动我的地方正是在同样黑暗的时代大环境中,他从来都是自主选择自己的道路,而他的道路从来都不是一帆风顺的,这也是他的弧光。冯志伟教授现在已经七十多岁,早已退休,但他还写博客,这是他博客链接http://blog.sina.com.cn/zwfengde2011

,里面有很多关于人工智能和语言学方面的文章,感兴趣的可以了解一下。

 


 

冯志伟学术成果年表

$
0
0



                                   研究是一件好玩儿的事情!!
冯志伟学术成果年表

这是截至2019年7月,我的学术成果。2019年,我发表的中文论文总数已经达到400篇。

一、主要专著:38本
1985年(46岁):1本
1.《数理语言学》,上海知识出版社,1985年版
1987年(48岁):2本
2.《自动翻译》,上海知识出版社,1987年版
3.《现代语言学流派》,陕西人民出版社,1987年版

1988年(49岁):3本
4. Analysis of Formation of Chinese Terms in Data Processing(数据处理领域中文术语结构的分析), 英文出版,Fraunhofer-Gesellschaft, IAO, Stuttgart, Germany, 1988年版。
5. GLOT-C (Chinese Terminological Data Bank for Data Processing)(GLOT术语术语数据库 – 数据处理领域中文术语数据库),英文出版,Fraunhofer-Gesellschaft, IAO, Stuttgart, Germany, 1988年版。
6. Chinese Character Index for Chinese Terms in GLOT-C (GLOT-C中文术语数据库中的汉字计算机索引), 英文出版, Fraunhofer-Gesellschaft, IAO, Stuttgart, Germany, 1988年版。

1989年(50岁):1本
7.《现代汉字和计算机》,北京大学出版社,1989年版

1991年(52岁):1本
8.《数学与语言》,湖南教育出版社,1991年版

1992年(53岁):1本
9.《中文信息处理与汉语研究》,商务印书馆,1992年版

1994年(55岁):1本
10. Chinesische Schriftzeichen - Verganggenheit und Gegenwart,  Wissenschft Verlag, Trier,1994(《汉字的历史和现状》,德文出版,德国特里尔科学出版社,1994年版)

1995年(56岁):2本
11.《自然语言机器翻译新论》,语文出版社,1995年版
12.《中国汉字文化大观》(《字学创新篇》部分),北京大学出版社,1995年,人民教育出版社,2010年新版

1996年(57岁):3本
13.《自然语言的计算机处理》,上海外语教育出版社,1996年版
14.《英汉对照计算语言学词语汇编》(与俞士汶等合著),北京大学出版社,1996年版
15.《现代术语学引论》,语文出版社,1996年版

1997年(58岁):1本
16. 《现代术语学》(繁体字版),台湾农业资讯中心,1997年版

1999年(60岁):2本
17.《应用语言学综论》,广东教育出版社,1999年版
18.《现代语言学流派》(修订本),陕西人民出版社,1999年版

2000年(61岁):1本
19. 《术语浅说》,语文出版社,2000年版

2001年(62岁):2本
20.《计算语言学基础》,商务印书馆,2001年版
21.《计算语言学探索》,黑龙江教育出版社,2001年版

2002年(63岁):1本
22. 2001-2002 Collection of KORTERM Publication –In Honor of Professor Feng Zhiwei(2001-2002年KORTERM文集,纪念冯志伟教授特刊), KORTERM, KAIST, 2002年版

2003年(64岁):3本
23.《应用语言学新论—语言应用研究的三大支柱》,当代世界出版社,2003年版
24. 《数学辞海》(数理语言学部分),山西教育出版社,2003年版
25.  English-Chinese Computational Linguistics Terminology(责编专著), Editors in Chief: Chiao Wei & Wolfgang Kühlwein, Managing Editor: Feng Zhiwei, Wissenschaftlicher Verlag Trier, Germany, 2003. 

2005年(66岁):2本
26.《机器翻译研究》,中国对外翻译出版公司,2005年版
27. 《汉语教学与汉语拼音正词法》(与新加坡许福吉博士合著),2005年,Marshall Cavendish Academic 出版社,新加坡

2007年(68岁):1本
28.《机器翻译今昔谈》,语文出版社出版,ISBN 978-7-80184-782-9/H.45

2009年 (70岁):2本
29.《自然语言处理的形式模型》,中国科学技术大学出版社,2009年版,648页
30. 《现代汉语使用手册》(“计算机中文信息处理”部分,p931-1013),北京出版集团公司,北京出版社

2010年(71岁):1本
31.《语言与数学》(修订本),世界图书出版公司,2010年版

2011年(72岁):2本 
32.《现代术语学引论》(增订本),商务印书馆,2011年版
33.《数理语言学》(增订本,与胡凤国合著),商务印书馆,2011年版

2012年(73岁):1本
34. 《自然语言处理简明教程》,上海外语教育出版社,2012年版


2013年(74岁):1本
35. 《现代语言学流派》(增订本),商务印书馆,2013年版

2017年(78岁),3本
36. 《自然语言计算机形式分析的理论和方法》,中国科学技术大学出版社,2017年。此书100多万字,得到2016年国家出版基金的资助,是“十三五”国家重点图书。

37.《Τα κινεζικα  συμβολα  γραφη: Μια  αναλυση  στο  χρονο》(汉字的历史与现状,希腊文版),ΠΑΠΑΠΗΣΗ出版,2017年,ΑΘΗΝΑ(雅典)。

38. 《Chinese Characters》(汉字),外语教学与研究出版社,2017年,此书是“十三五”国家重点出版物出版规划项目。

二. 主要译文:
翻译专著:3本
2005年(66岁),1本
1.《自然语言处理综论》第一版(与孙乐合作),电子工业出版社,2005年版

2016年(77岁),1本
2. 《统计语言学习》(与胡凤国合作),世界图书出版公司,2016年版。

2018年(79岁),1本
3. 《自然语言处理总论》第二版(与孙乐合作),电子工业出版社,2018年版。

审校专著:3本
2011年(72岁),2本
1.《普通术语学和术语词典编纂学导论》(邱碧华译自德文,冯志伟审校),商务印书馆,2011年版

2.《术语学、知识论和知识技术》(邱碧华译自德文,冯志伟审校),商务印书馆,2011年版

2016年(77岁),1本
《自然语言交流的计算机模型—数据库语义学下的理解、推理和生成》(冯秋香译自英文,冯志伟审校),商务印书馆,2016年版


翻译论文:18篇
1、七十年代的机器翻译,《机器翻译论文选辑》,科学技术文献出版社,1980 年,译自英文。
2、处理自然语言的计算机软件,《科学》,中文版,1985 年,第 1 期,译自英文,原文作者是著名人工智能专家Winograd,发表于美国顶尖级刊物Science。
3、机器翻译的理论问题,译自法文。
4、机器翻译中概念系统的反映模型,译自法文。
5、句法分析的语义根据,译自俄文。
6、表层语义模型规则类型,译自俄文。
7、自动找出和修正错误是文句意义加工的技术前提,译自俄文。
8、在分布使用中俄语名词的数的形式的选择,译自俄文。
9、在自动翻译系统 ETAP 中“实用逻辑”的试验,译自俄文。
10、可自动处理的意大利语言词汇表示模式,译自意大利语。
11、连贯正文的分析方法(关于在文献事实情报检索系统中运用文句语义模型的问题),译自俄文。
12、叙词表是描述人文科学语言的模型,译自俄文。
13、对“超文本”语义学和语用学的一些意见,译自俄文。
14、同文章对话,译自俄文。
15、论数理逻辑与自然语言语义学之间的相互关系,译自俄文。
16、语用学和对话文章,译自俄文。
17、正文的人机综合系统,译自俄文。
18、在信息不充分条件下正文语义分析的形式化问题,译自俄文。
3 -- 18 均载于《情报学文摘》 1985 年各期,中国科学技术信息研究所出版。

三. 主要论文(用中文、英文、法文和德文发表),共447篇。

中文论文:409篇

1961年(22岁):2篇
1. “文法”不如“语法”好 -- 与陈望道、吴文祺等先生商榷,《文汇报》,1961年1月22日,第3版
2. “语法”定名胜于“文法”,《中国语文》,1961年,第2期

1966年 (27岁):1篇
3. 福克斯公式,《语言学资料》,1966年,第 1 期。

1975年(36岁):1篇
4. 数理语言学简介,《计算机应用与应用数学》,1975年,第4期,34-51页。

1978年(39岁):1篇
5. 国外主要机器翻译单位工作情况简述,《语言学动态》,1978年,第6期

1979年(40岁):1篇
6. 形式语言理论,《计算机科学》,1979年,创刊号, 34-57页。

1980年(41岁):3篇
7. 国外机器翻译的新进展,《国外语言学》,1980年,第1期,42-43。
9. 第八次计算语言学国际会议即将举行 《当代语言学》 1980年,第4期,16页.
             

1981年(42岁):1篇
10. 代数语言学,《现代英语研究》,1981年,第3期

1982年(43岁):6篇
11. 汉--法/英/日/俄/德多语言自动翻译试验,《语言研究》,1982年,第2期,总第3期,49-103;又转载于《中国的机器翻译》,上海知识出版社。
12. 当前机器翻译研究中的一些新特点,《情报学报》,第1卷,第2期,225-233,1982年
13. 从形式语言理论到生成转换语法,载《语言研究论丛》,天津人民出版社,1982年版
14. 统计语言学,《现代英语研究》,1982年,第2期
15. 第九次国际计算语言学会议即将举行.《国外语言学》 1982年,第1期
16. 法国的自动翻译研究,《国外语言学》 1982年,第2期,63-65.

1983年(44岁):4篇
17. 特思尼耶尔的从属关系语法,《国外语言学》,1983年,第1期, p63-65.
18. 齐普夫定律的来龙去脉,《情报科学》,1983年,第2期, P37-40.
19. 论模糊数学在方言研究中的应用(与钱锋合著),《华东师范大学学报》,1983年,第4期
20. 汉语句子的多叉多标记树形图分析法,《人工智能学报》,1983年,第2期

1984年(45岁):6篇
21. 汉字的熵,《文字改革》,1984年,第4期,12-17。
22. 国外自然语言理解系统概况,《计算机科学》,1984年,第2期
23. 机器翻译对文字改革的新要求,《文字改革》,1984年,第5期,P26.
24. 机器翻译的历史和现状,《国外自动化》,1984年,第2期
25. 应用数理语言学,《现代英语研究》,1984年,第1期
26. 生成语法的公理化方法,载《生成语法讨论会文集》,1984年,哈尔滨

1985年(46岁):6篇
27. 蒙塔鸠语法,《外语学刊》(黑龙江大学学报),1985年,第2期,P1-6.
28. 汉语产生式语法刍议(与钱锋合著),载《科技革命与汉语研究》,上海市哲学社会科学协会出版,1985年
29. 我国机器翻译研究工作的发展,《情报学报》,1985年,第3卷,第3期,255-262。
30. 机器翻译和它的“代”,《文字改革》,1985年,第5期,53-55。
31. 汉-法自动翻译扩大试验,载《语言论文集》,商务印书馆,1985年版
32. 机器翻译的困难性和它的工程化,《情报学报》,1985年,第4卷,第5期

1986年(47岁):7篇
33. 现代信息科学对语言学的影响,《外语学刊(黑龙江大学学报)》,1986年,第1期, p1-9. CSSCI收录。
34. 数理逻辑方法在机器翻译中的应用,载《逻辑与语言论集》,语文出版社,1986年版
35. 语音的自动识别与合成,《语文建设》,1986年,第1期, p88-92.
36. 机器翻译与情报工作,《现代化》,1986年,第5期
37. 语言与大脑,《语文建设》,1986年,第3期
38.第十一届国际计算语言学会议即将举行.《国外语言学》,1986年,第2期,5页.
39. 七十年代以来的机译系统,《计算机科学》 1986年,第5期,50-56。
.
1987年(48岁):8篇
40. 汉字的自动识别,《语文建设》,1987年,第1期
41. 蒙太格文法在机器翻译中的应用,《现代图书情报技术》,1987年,第4期,P39-42.
42. 机器翻译和人机对话中语言研究的新方法,《情报科学》,1987年,第1期, P9-26.
43. 法-汉机器翻译 FCAT系统,《情报科学》,1987年,第4期,19-27.
44. 人机对话与语言研究,《语文建设》,1987年,第6期
45. 特鲁别茨柯依和他的《音位学原理》,载《语文论集》,第二辑,外语教学与研究出版
社,1987年版
46. 机器翻译专用软件,载《语言和计算机》,第三辑,中国社会科学出版社,1987年版
47. 第十二届国际计算语言学会议 1988 年召开,《国外语言学》 1987年,第3期,11页.

1988年(49岁):7篇
48. 德-汉机器翻译GCAT系统的设计原理和方法,《中文信息学报》,1988年,第3期,第63-73页。
49. FEL公式 -- 术语形成的经济律,《情报学刊》,1988年,第5期;又转载于《中国术语学研究与探索》,168-182页,商务印书馆,2010年。
50. 英国的计算语言学,《国外语言学》,1988年,第1期
51. 评《现代语言学》,《科技日报》,1988年10月9日
52. 计算语言学漫谈,《语文建设》,1988年,第5期
53. 法国的语言政策,《语文建设》,1988年,第6期
54. 国外术语数据库研制概况,《自然科学术语研究》,1988年,第2期
55. 术语学和知识工程国际会议在联邦德国召开,《国外语言学》 1988年,第2期,10页.

1989年(50岁):10篇
56. FEL公式与术语命名规范,载《中文信息处理标准化国际研讨会论文集》,SCIP 89', 1989年版
57. 术语数据库,《语文建设》,1989年,第2期
58. 中文科技术语的结构描述与潜在歧义,《中文信息学报》,1989年,第2期
59. 现代术语学的产生和发展,《语文建设》,1989年,第4期
60. 国外实用化的机器翻译系统,《中国计算机用户》,1989年,第5期,第29-31页。
61. 中文科技术语中的歧义结构及其判定方法,《中文信息学报》,1989年,第3期,p10-25;又转载于《中国术语学研究与探索》,p239-268,商务印书馆,2010年。
62. 中文科技术语描述中的三种结构,《语文建设》,1989年,第5期,p14-20.
63. 当前计算语言学研究中的几个问题,《计算机信息报》,1989年12月19日
64. 汉语单词型术语的结构初析,《自然科学术语研究》,1989年,第2期


1990年(51岁):7篇
65. 评《汉字属性字典》,《语文建设》,1990年,第2期
66. 词汇功能语法及其在计算语言学中的作用,《中国计算机用户》,1990年,第11期
67. 汉语句子描述中的复杂特征,《中文信息学报》,1990年,第3期, p20-29.
68. 从语言学角度看科技术语之间的关系,《自然科学术语研究》,1990年,第2期
69.德汉机器翻译GCAT系统,《语文现代化》,1990年,第10辑
70. 我国机器翻译研究工作的回顾,《语文建设》,1990年,第5期,21-28.
71. 中文数理化术语的发展源流,《语文建设》,1990年,第3期,20页.

1991年(52岁):4篇
72. 应用语言学刍议(与龚千炎合著),《语文建设》,1991年,第1期
73. Martin Kay功能合一语法,《国外语言学》,1991年,第2期, p34-42.
74. 科技术语的性质及其理论模型,《自然科学术语研究》,1991年,第1期
75. 关于 “犹太” 民族的译名用字问题,《汉字文化》, 1991年,第1期,15页.

1992年(53岁):5篇
76. 计算语言学对理论语言学的挑战,《语言文字应用》,1992年,第1期,P81-97.
77. 机器翻译中汉语分析和生成的四个原则,载《全国机器翻译理论与技术讨论会文集》,1992年
78. 德语的规范化,《语文建设》,1992年,第3期
79. 国际标准化组织TEI会议和ISO/TC37/SC3第8次会议侧记,《自然科学术语研究》,1992年第2期。
80. 中文信息MMT模型,《语言文字应用》,1992年,第4期, 21-30。

1993年(54岁):6篇
81. 评《计算机辅助术语工作译文集》,《语文建设》,1993年,第7期
82. 德国计算语言学研究近况,《语文建设》,1993年,第8期, 39-41。
83. 中文 0(1|2(2.1|2.2)) 型名词词组科技术语潜在歧义结构的实例化,《语言文字应用》,1993年,第4期
84. 中文动词词组型科技术语潜在歧义结构的实例化,载《全国计算语言学学术讨论会文集》,北京语言学院出版社,1993年版
85. 再谈汉字的熵--汉字的信息量大不利于信息处理,《文改之声》,1993年,第4期
86. 计算机辅助术语工作,《语文建设》,1993年,第9期

1994年(55岁):16篇
87. 关于“犹太”民族译名用字问题,《词库建设通讯》,1994年,香港
88. 汉语形式语法的拓荒之作—《汉语计算语言学》序言,《语文建设》,1994年,第7期
89. 英-汉计算语言学术语数据库,《语文建设》,1994年,第7期,p283-287。
90. 中国计算语言学的世界化刍议,《语言文字应用》,1994年,第1期, p24-27.
91. 人类科学知识在语言中的结晶--术语,《中国术语网通讯》,1994年,第1期
92. 定义术语的原则和方法,《中国术语网通讯》,1994年,第1期
93. 日本的电子词典研究,《语文建设》,1994年,第6期
94. 我国自然科学基础学科术语的审定工作(上,下),《中国术语网通讯》,1994年,第2-3期
95. 术语标准化是标准化工作的基础,《中国术语网通讯》,1994年,第2期
96. 专科术语命名的法规与原则(上,下),《中国术语网通讯》,1994年,第4期,1995年,第1期
97. 电子词典中变形词自动分析刍议,载《北京国际电子出版研讨会论文集》,科学出版社,1994年版
98. 迈向实用化商品化的机器翻译研究,《语文建设》,1994年,第8期,36-39。
99. 计算机辅助教学系统,《语文建设》,1994年,第11期
100.中文信息MMT模型中多值标记集合的运算方法,《情报科学》,第15卷第3期,1994年6月,p14-25,哈尔滨
101. 我国术语工作应和国际标准接轨,《中文信息》,1994年,第1期。
102. 汉字的信息量大不利于中文信息处理--再谈汉字的熵,《语文建设》,1994年,第3期, 34-35页.

1995年(56岁):10篇
103. 中文科技术语研究中的结构功能观,《中国术语网通讯》,1995年,第1期
104. 电子词典中单词的词法分析问题,《语言文字应用》,1995年,第2期
105. 信息时代中汉字的标准化和共通化(在韩国国际汉字振兴协议会上的演讲,有韩国语译文),1995年11月24日,韩国,汉城
106. 论歧义结构的潜在性,《中文信息学报》,1995年,第2期, p14-24.
107. 歧义消解策略初探,载《计算语言学的理论和应用》,清华大学出版社,1995年版
108. 21世纪究竟从哪天开始?《词库建设通讯》,1995年,第7期,香港。
109. 我国的术语规范化工作,《语文建设》,1995年,第12期
110. 面向计算机的语言研究(一)(二),《语文与信息》,1995年,第1-2期
111. 参加ISO/TC37/SC3第12次会议(在美国费城召开)随感,《中国术语网通讯》,1995年,第3期
112. 中文科技术语中的潜在歧义结构,《中国术语网通讯》,1995年,第4期

1996年(57岁):16篇
113. 汉字的极限熵,载《计算机时代的汉语和汉字研究》,清华大学出版社,1996年版,北京;又转载于《中文信息》,1996年,第1期;《语文建设通讯》(香港),第50期,1995年12月
114. 自然语言处理中歧义消解的方法,《语言文字应用》,1996年,第1期, p55-60.
115. 再谈 21 世纪的开始时间问题,《词库建设通讯》,1996年,第8期,香港。
116. 汉字结构的一种括号式表示方法(中文摘要),《世界汉语教学》,1996年,第2期
117. 千进制在我国古已有之(在数字问题讨论会上的发言,1996年4月,香港),《汉语数词现代化讨论集》,岭南学院文学与翻译研究中心出版。
118. 中文科技术语同形歧义结构的判别方法(上、下),《术语标准化与信息技术》,1996年,创刊号-第2期
119. 情报自动检索系统与自然语言处理,《术语标准化与信息技术》,1996年,第2期
120. 潜在歧义理论用于自然语言处理,《中文信息》,1996年,第1期,总第50期, p9-12.
121. 再谈汉字的熵值,《语文与信息》,1996年,第2期
122. 关于“身毒、天竺、印度”的译名问题,《词库建设通讯》,1996年,第10期,香港
123. 信息时代的语言观,载《语文现代化论丛》,第2辑,语文出版社,1996年版
124. 机器翻译发展的曲折道路(一),《术语标准化与信息技术》,1996年,第3期,28-31。
125. 机器翻译发展的曲折道路(二),《术语标准化与信息技术》,1996年,第4期,30-34。
125. 中文科技术语中的几何歧义与术语命名规范,《术语标准化与信息技术》,1996年,第3期
126. “例不十,法不立”原则和统计方法,《词库建设通讯》,1996年8月,总第8期,香港
127. 中文科技术语中的歧义结构及其判定方法,《中文信息学报》1989年第3期。
128. 中文的自然语言处理--COLIPS系列讲座(1996年5月在新加坡国立大学计算机与系统科学系的讲课记录),载《中文与东方语言信息处理学会通讯》,第6卷,第1期,1996年6月,新加坡,可通过互联网浏览:http://www.iscs.nus.sg/~colips/commcolips
     
1997年(58岁):13篇
129. 语言文字规范化对于语言信息处理的作用,《中国语文》,1997年第5期,总250期, 322-325.
130. 受限汉语研究与信息技术,《中文信息》,1997年,第2期
131. 《自然语言的计算机处理》前言,《中文信息》,1997年第4期,总第59期
132. 网络翻译系统市场潜力极大,《中文信息》,1997年第6期,P6-8, 总第61期
133. 德国术语数据库和机器翻译的新动向,《术语标准化与信息技术》,1997年第3期,总第7期
134. 机器翻译—从实验室走向市场,《语言文字应用》,1997年第3期,P73-78, 总第23期
135. 中文信息处理专题研究(3) 机器翻译,主持人的话,《语言文字应用》1997年第3期,p72, 总第23期
136. 德国术语数据库新动向,《新闻出版报》,1997年8月11日,第3版,第1659期
137. 日语形态的有限状态转移网络分析,《97年术语学与知识转播国际会议论文集》,1997年,北京
138. 中国的语言资源与语言工程,《97年术语学与知识传播国际会议论文集》,1997年,北京
139. 机器翻译今昔谈,《科苑》杂志,1997年第4期,26-27.
140. 信息时代中汉字的标准化和共通化,《术语标准化与信息技术》,1997年,第1-2-3期连载
141. 从通用置标语言 GML 到标准通用置标语言 SGML,《术语标准化与信息技术》, 1997年,第4期

1998年(59岁):17篇
142. 从属关系语法对机器翻译研究的作用,《外语学刊》,1998年第1期,总第91期,CSSCI收录。
143.机器可读术语交换格式MARTIF的数据类目,《术语标准化与信息技术》,1998年第2期,总第10期
144.同义译名研究刍议,《词库建设通讯》,1998年5月,总第16期,香港
145. 从属关系语法的某些形式特性,《1998年中文信息国际会议论文集》,1998年11月18-20日,北京,237-243.
146.判断从属树合格性的五个条件,《第二届全国应用语言学讨论会文集》,1998年
147.词语杂谈,《古今艺文》,第24卷第3期,1998年5月1日出版,台湾
148.东西方文化交流史上的光辉一页—来华西方传教士学术成就琐议,《古今艺文》,第25卷,第1期,1998年11月1日出版,台湾
149.《汉语计算语言学》序言,载《汉语计算语言学》,1999年1月,电子工业出版社
150. 关于汉字的熵和极限熵致编辑部的一封信,《中文信息学报》,第12卷第1期,1998年,p63-64.
151.标准通用置标语言SGML及其在自然语言处理中的应用,《当代语言学》,1998年第4期,P1-11. CSSCI收录。
152.汉英机器翻译中名词复数的确定标志,《‘98现代汉语语法学术国际会议(ICCC’98)论文集》,1998年8月26-31,北京
153.从汉英机器翻译看汉语句法语义分析的特点和难点,《汉语计算与计量研讨会论文集》,香港城市大学,1998年,香港
154. 二十世纪中国的数理语言学,载《二十世纪的中国语言学》,北京大学出版社,1998年
155. 迈向语文现代化的新阶段(第三届全国语文现代化学术讨论会闭幕辞),《第三届全国语文现代化学术讨论会论文集》,1998年,昆明
156.字母词的使用要看对象,《术语标准化与信息技术》,1998年,第3期。
157. 标准通用标记语言 SGML 的三个组成部分,《术语标准化与信息技术》,1998年,第4期
158. 语言学是数学和人文科学之间的桥梁,《金秋科苑》 1998年,第2期

1999年(60岁):8篇
159. 评《现代汉语语法信息词典详解》(与曹右琦合著),《中文信息学报》,1999年,第1期。
160.应用语言学的范围和性质,《术语标准化与信息技术》,1999年第1期。
161. 机器翻译实用化研究,《中国计算机用户(专家论坛)》,第21期,P33,1999年6月14日
162.机器翻译-从梦想到现实,《中国翻译》,1999年第4-5期(总136-137期), 第5期,P52-55,CSSCI收录。
163. 链语法述评,《语言文字应用》,1999年,第4期,CSSCI收录。
164. 机器翻译软件异彩纷呈,《术语标准化与信息技术》,1999年第4期,p31-35,总第16期。
165. 英日机器翻译系统E-to-J原语分析中兼类词消歧策略,《中文信息学报》,p14-27,1999年。
166. "汉语计算语义学研究的新成果——评《 汉语计算语义学——关系, 关系义场和形式分析》,《语言文字应用》,1999年,第2期,CSSCI收录。
166+1. 语料库语言学与机器翻译,《信息网络时代与日本研究》,p60-111, 山东大学出版社。

2000年(61岁):5篇
167. 论语言文字的地位规划和本体规划,《中国语文》,2000年,第4期,CSSCI收录。
168. 基于短语结构语法的自动句法分析方法,《当代语言学》,2000年,第2期,CSSCI收录。
169. 汉语书面语改革的新问题-加空格表示词界,《术语标准化与信息技术》,2000年第1期,总第17期。
170. 语言文字研究也应当现代化,《语文现代化论丛》,第4辑,北京大学出版社,2000年6月。
171. 绝妙的空格,载《ChinaByte.COM》,2000年3月10日。

2001年(62岁):8篇
172. 现代术语学主要流派,《科技术语研究》,2001年,第2期。
173. 汉字和汉语的计算机处理,《当代语言学》,2001年,第1期,1-20页, CSSCI收录。
174. 范畴语法,《语言文字应用》,2001年,第3期,P100-110,CSSCI收录。
175. 中国机译技术的发展,《高技术通讯》,2001年8月专辑。
176. 确定切词单位的某些非语法因素,《中文信息学报》,2001年,第4期。
177. 确定切词单位的某些语法因素,《国际中文电脑学术会议ICCC-2001论文集》,此文是这次国际会议的主旨发言(Keynote Speaker),获最佳论文奖,27-29页, November,2001, Singapore。
178. 从汉语书面语改革谈词界问题,载于《中国的语言学研究与应用 庆祝桂诗春教授七十华诞》,上海外语教育出版社,2001年10月,上海。
179. 中心语驱动的短语结构语法,载《语言学问题集刊》,第一辑,吉林人民出版社,2001年7月,长春。
180. 中国语文教学的发展,《古今艺文》,2001年,台湾。
181. 汉语书面语的分词连写,《语文建设》,2001年,3月,15页
182. 长歌当哭——送别希文,《语言文字应用》,2001年,第2期,23页,CSSCI收录。.
183. 现代术语学的主要流派,《科技术语研究》,2001年,第1期,34页.
184. 信息时代的汉语双文制问题,《术语标准化与信息技术》,2001年,第1期,21-22页.

2002年(63岁):16篇
185. 线图分析法,《当代语言学》,2002年,第4期,CSSCI收录。
187. 机器翻译系统消歧功能测试,《机器翻译研究进展》,电子工业出版社,2002年。
188. 计算机辅助术语研究浅谈,《术语标准化于信息技术》,2002年,第3期。
189. 中国术语标准化的由来和发展,《中国标准化》,2002年,第10期,CSSCI收录。
190. 花园幽径句初探(与许福吉合著),《肯特岗国际汉语语言学圆桌会议论文集》,2002年。11月,新加坡。
191. 从英德法语的正词法看汉语拼音正词法,《第五次语文现代化学术研讨会论文集》,开封,2002年10月, 又载于《香港语文建设通讯》,第73期,2003年2月,香港。
192. 框架核心语法与自然语言的计算机处理,《汉语学习》,2002年第2期,p24-25,CSSCI收录。
193. 谈谈自由语素与单纯词的界限,载《清风明月八十秋》,p37-44,吉林人民出版社,2002年.
194 数理语言学,载《语言多学科研究与应用》(下册),外语与外语教学新视角丛书,2002年,广西教育出版社,南宁。
195. 现代术语学主要流派,《科技术语研究》,2002年第2期。
196. 机器翻译的现状和问题,在973项目专家组会议上的发言(2002年10月),转载于《中文信息处理若干重要问题》(徐波、孙茂松、靳光谨主编),353-377页,科学出版社,2003年。
197. 发挥汉语拼音在信息时代的作用,《语文现代化论集》,商务印书馆,2002年。
198. 线图分析法,《当代语言学》,2002年第4期,266-278, CSSCI收录。
199. 中国语料库研究的历史和现状,Journal of Chinese Language and Computer,新加坡,11(2),127-136。
200. 谈我国语文教学的发展,《古今艺文》(台湾),第28卷,第2期,4-16,2002年。

2003年(64岁):6篇
201. 花园幽径句的句法语义特性,《2003年计算语言学联合学术会议文集》,哈尔滨。
202. 花园幽径句的自动分析算法,《当代语言学》,2003年,第4期,p339-349, CSSCI收录。
203. 理论词与形式词,《汉语拼音方案45周年纪念文集》,2003年。
204. 学者新论:中文信息技术标准:汉字注音?拼音正词法?,载《人民网》2003年4月16日。
205. 应用语言学三大支柱,《暨南大学华文学院学报》,2003年,第1期,广州,CSSCI收录。
206. 一种无回溯的自然语言分析算法,《语言文字应用 》1 (2003年,第1期,63-74页, CSSCI收录。

2004年(65岁):5篇
207. 汉语单词型术语的结构,《科技术语研究》,2004年第1期。
208. 汉语词组型术语的结构,《科技术语研究》,2004年第2期。
209. LFG中从成分结构到功能结构的转换,《语言文字应用》,2004年,第4期,p105-112,CSSCI收录。
210 词义排歧方法研究,《术语标准化与信息技术》,2004年第1期;又载《俄语语言文学研究》,第三辑(语言学卷),黑龙江人民出版社,2006年,p1-13。
211. 汉语拼音运动的历史回顾(上,下),《术语标准化与信息技术》,2004年第4期,2005年第1期。

2005年(66岁):13篇
212. 澄清对机器翻译的一些误解,《现代语文》,2005年,第1期。
213. 自然语言处理的学科定位,《解放军外国语学院学报》,2005年,第1期,CSSCI收录。
214. 从知识本体看自然语言处理的人文性,《语言文字应用》,2005年,第4期,100-107页,CSSCI收录。
215. 词汇语义学与知识本体,载《应用语言学前沿讲座》,中国传媒大学出版社,2005年。
216. 科技术语古今谈,《术语标准化与信息技术》,2005年,第2期。
217. 自然语言处理中的概率语法,《当代语言学》,2005年,第2期,166-179页,CSSCI收录。
218. 汉语术语描述中的三种结构,《科技术语研究》,2005年,第3期,47-50页。
219. 周有光先生二三事,《语文建设通讯》,2005年第81期,p1-4,香港,转载于《周有光年谱》,p256-263,群言出版社,2012年。
220. 机用现代汉语“n+n”结构歧义研究(与杨泉合著),《语言研究》,2005年,第25卷,第4期(总第61期),华中科技大学中国语言研究所。
221. 文本连贯中的常识推理,《HNC与语言研究第三次会议文集》,2005年12月21-22日,北京。
222. 本体论与知识本体,《科技术语研究》,2005年
223. 面向中文信息处理的现代汉语 “v+ v” 结构歧义问题研究(与杨泉合著),《语言文字应用》,2005年,第2期,CSSCI 收录。
225. 汉语拼音运动的历史回顾,《术语标准化与信息技术》,2005年,第1期

2006年(67岁):17篇
226. 所指判定与文本连贯的计算机处理,载《语言学问题论丛》(第一辑),三联书店,2006年,100-145页。
227.《现代韩国语动词语义组合关系研究》序言,民族出版社,2005年11月出版。
228. 当前自然语言处理发展的几个特点, 《暨南大学华文学院学报》,2006年,第1期,CSSCI收录.
229. 用上下文无关语法来描述汉字结构,《语言科学》,第5卷,第3期,p14-23,2006年5月,CSSCI收录。
230. 从格语法到框架网络,《解放军外国语学院学报》,2006年,第3期,p1-9,CSSCI收录。
231. 机器翻译词典中语言信息的形式表示方法,《语文研究》,2006年,第3期(总第100期, 12-23页。
232. 从人名用字谈汉语规范化,《语文建设通讯》,2006年8月,第84期,香港。
233. 术语学中的概念系统与知识本体,《术语标准化与信息技术》,2006年,第1期。
234.《应用语言学中的语料库》导读. Corpora in Applied Linguistics, Susan Hunston 著. 世界图书出版公司, 剑桥大学出版社 联合出版, 2006年8月.
235. 关于信息时代的多语言问题的一些思考,《现代语文》,2006年,第12期(总第258期)。
236.《译者的电子工具》导读. 外语教学与研究出版社, 2006年9月. 
237. 术语命名中的隐喻,《科技术语研究》,2006年,第3期。
238. 语文现代化的火炬代代相传--沉痛悼念王均先生, 《语文建设通讯》,2006年12月,第85期, 香港。
229. 汉语科技术语中的潜在歧义,《科技术语研究》, 2006年,第1期,35-39页.
230. 汉语时体的分类和语义解释(与瞿云华合著),《浙江大学学报 (人文社会科学版)》,2006年,第3期,36页
231. 汉语科技术语中的潜在歧义 (续),《科技术语研究》,2006年,第2期,14-15页.
232. 机器翻译词典中语言信息的形式表示方法,《语文研究》,2006年,第3期。
      
2007年(68岁):16篇
233. 基于经验主义的语料库研究,《术语标准化与信息技术》,2007年,第1期(总第45期, p29-36。
234. 我与计算语言学的缘分,《现代语文》,2007年,第9期(总第282期),p127-128。
235. 论语言符号的八大特性,《暨南大学华文学院学报》,2007年,第1期, 37-50,CSSCI收录。
236. “术语学”读书札记一:术语学与语言学的关系,《中国科技术语》,2007年,第三期。
237. 关于“学名”的一些资料--纪念瑞典生物学家林奈诞生200周年,《语言文建设通讯》,2007年9月,第87期,香港。
238.《人工智能在第二语言教学中的应用--提高对偏误的意识》导读,世界图书出版公司,2007。
239. 术语学的特点--“术语学”读书札记之二,《中国科技术语》,2007年,第6期。
240. 同义术语与多义术语刍议--纪念唐作藩老师80华诞,载《唐作藩教授80寿辰纪念文集》,中国大百科全书出版社,2007年。
241. 自然语言处理中的哲学问题,《心智与计算》,2007(30): 333-353页.
242. 自然语言处理的概率配价模式理论(与刘海涛合著),《语言科学》,2007年,第3期。32-41页,CSSCI收录。 
243. 面向信息处理的现代汉语同类词短语句法功能歧义研究(与杨泉合著),《语言文字应用》 2 (2007年,第2期,141-141页,CSSCI收录。
244. 自然语言处理中理性主义和经验主义的利弊得失,《长江学术》,2007年,第2期,79-85。
245. 关于 “犹太” 译名改字问题之我见,《暨南大学华文学院学报》,2007年,第3期。
246. 信息时代的翻译工具,《北华大学学报 (社会科学版)》,2007年,第6期,p68-75。
247.框架网络的理解和构建(合作者:李丽),《内容计算的研究与应用前沿》,清华大学出版社,2007年,P314-319.
248. 冯志伟. 机器翻译与语言研究(上)[J]. 术语标准化与信息技术,2007,(3):39-43.
249. 冯志伟. 机器翻译与语言研究(下)[J]. 术语标准化与信息技术,2007,(4):38-41.


2008年(69岁):20篇
250.《统计自然语言处理》(宗成庆著)序言,清华大学出版社,2008年。
251. 统计机器翻译讲稿,中国传媒大学,2008年。
252. 《基于认知的汉语计算语言学研究》(袁毓林著)序言,北京大学出版社,2008年。
253. 一个关于机器翻译的史料错误,《语文建设通讯》,第89期,2008年3月,香港。
254. 香港“双语法例资料系统”法律术语的统计分析,《术语标准化与信息技术》,2008年,第2期.(合作者:那日松,揭春雨)
255. 《基于双语语料库的汉英视点体对比研究》序言(瞿云华著),科学出版社,2008年。
256. 概念的逻辑关系和本体论关系--“术语学”读书札记之三,《中国科技术语》,2008年,第2期。
257. 概念的有序性—概念系统--“术语学”读书札记之四,《中国科技术语》,2008年,第4期。
258. 一个新兴的术语学科 -- 计算术语学,《术语标准化与信息技术》,2008年,第4期,4-9.
259. 概念系统的图形表示方法--“术语学”读书札记之五,《中国科技术语》,2008年,第6期。
260.《现代语言学名著导读》序(萧国政编),北京大学出版社,2008年12月。 
261. 乔姆斯基《最简方案》,载《现代语言学名著导读》,北京大学出版社,2008年12月。
262. 语言描写的三个模型(译文审校),载《现代语言学名著导读》,北京大学出版社,2008年12月。(Chomsky 著 张和友译 冯志伟校) 
263. 自然语言处理的历史与现状,《中国外语》,2008年。
264. 汉语拼音运动的历史功绩——纪念《 汉语拼音方案》 公布 50 周年,《北华大学学报 (社会科学版)》,2008年,第2期,8页.
265. 汉语视点体的派生现象探讨(合著者:瞿云华),《浙江大学学报 (人文社会科学版)》,2008年,第4期,第38卷。
266. 概念的有序性——概念系统,《中国科技术语》,2008年,第4期,12-15页.
267. 前苏联术语学家德雷森 (E. K. Drezen),《术语标准化与信息技术》,2008年,第3期,48页.
268. 机用现代汉语“v+v+v”结构句法功能歧义问题研究(与杨泉合著),《语文研究》,2008(12), p14-20。
269. 面向中文信息处理的现代汉语“n+n+n”结构句法功能歧义问题研究(与杨泉合著),《汉语学习》,2008(12),p 37-47。

2009年(70岁):13篇
270. 机器翻译 任重道远,载《语文建设通讯》,2009年1月,第91期,17-22页,香港。
271.《语料库语言学与计算语言学研究丛书》 序,世界图书出版公司出版,2009年。
273.《语言学中的数学方法》(Mathematical Methods in Linguistics)导读,世界图书出版公司,2009年3月出版。
274. 主题与分类--“术语学”读书札记之六,《中国科技术语》,2009年,第1期。
275.《信息处理系统语言文字评测规范(草案)》三个规范研制报告, 2009年。
276. 国家社科基金项目《计算语言学方法研究》成果简介, 载《国家社会科学基金项目成果选介》,2009年出版。
277. 基于知识本体的术语定义(合作者:揭春雨),《术语标准化与信息技术》,2009 年,第2 期。
278. 篇际英语词汇增幅率研究(合作者:李晶洁),载《术语标准化与信息技术》,2009年,第2期。
279. 《牛津计算语言学手册》导读(he Oxford Handbook of Computational Linguistics),外语教学与研究出版社、牛津大学出版社合作出版,2009 年9 月,北京. 
280. 自然语言处理中的一些宏观问题之我见, 《中国外语》,2009年,第5期,36-41页,CSSCI收录。
281. 单词型术语的结构自动分析,《中国科技术语》,2009年,第3期,Vol.11,No.3。
282. 词组型术语结构的自动句法剖析,《中国科技术语》,2009年,第5期,Vol.11,No.5。
283. 《俄罗斯计算语言学与机器翻译》序言, 语文出版社,2009年8月出版.
284. "语言规划的重要领域——术语学." 《北华大学学报 (社会科学版)》,2009年,第3期,37-46页.
285. 语义互联网与辞书编纂,《华文教学与研究》(暨南大学华文学院学报),2009年,第4期,88-94页,CSSCI收录。

2010年(71岁):14篇
286.《系统与语料—二者关联探索》导读,世界图书出版公司出版,2010年。
287. 语音合成中的文本归一化问题,《北华大学学报》,2010年,第2期,p41-47。
288. 数学是语言学现代化的重要工具-- 评介《语言学中的数学方法》,《中国社会科学报》,2010-04-20,总81期。
289. 从语料库中挖掘知识和抽取信息,《外语与外语教学》,2010年,第4期,总第253期,p1-7, CSSCI收录。
290. 双语语料库的建设与用途,《现代外语(季刊)》第33卷,第4期,2010年11月,CSSCI收录。
291. 国家通用语言文字法是自然语言处理的法律保证,《语言文字报》,第515期,第1-3版,2010-12-08
292. 基于字根的机写汉字学习法(与欧阳贵林合著),《现代语文》,2010年,12月。
293. 一种新型词频统计方法及其在对外汉语教学中的应用(合著者:杨泉),《长江学术》 ,2010年,第1期。
294. 术语形成的经济律——FEL 公式(转载自《中国社会科学》),《中国科技术语》,2010年第2期,9-15页.
295. 信息时代的多语言问题和对策,《术语标准化与信息技术》,2010年,第2期,34-37页.
296. 桂诗春, 冯志伟, 杨惠中, 何安平, 卫乃兴, 李文中, 梁茂成. "语料库语言学与中国外语教学." 《现代外语》,2010年,第4期,CSSCI收录。.
297. 基于语料库的机器翻译系统,《术语标准化与信息技术》,2010年,第1期,28-35页.
298. 语料库研究与当前语言学的战略转移,《汉语与汉语国际教育》,2010年,韩国学古房出版社,499-532页。

2011年(72岁):15篇
299. 从自然语言处理的角度看二分法,《东方语言学》,第8辑,上海教育出版社,1-17页,2011年。
300. 我与语言学割舍不断的缘分,《当代外语研究》2011年,第1期。
301. 计算语言学的历史回顾与现状分析,《外国语》(上海外国语大学学报),2011年,第1期(总191期),p9-17,CSSCI收录,《人大报刊资料社》收录。
302. “理论词”和“语素”的概念在语言学上的严重缺陷,《现代语文》2011年,第7期,总第424期,p4-6.
303. “罗马化”还是“拉丁化”,《中国科技术语》,2011年4月,第13卷,第2期,P54-56。
304. 论语言学研究中的战略转移,《现代外语》2011年,第1期, p1-11, CSSCI收录。
305.  ISO-TC46文献与信息标准化会议侧记,《现代语文》,2011,第22期,p149-151.
306. 《普通术语学和术语词典编纂学导论》审校者的话,商务印书馆,2011年。
307.《术语学、知识论和知识技术》审校者的话,商务印书馆,2011年。
308.《基于动态流通语料库的新词语监测研究》序言(刘长征著),世界图书出版公司,2011年。
309. 传统的术语定义和它的局限性,载《术语翻译研究》(“面向翻译的术语研究”全国学术讨论会论文集,2010南京),南京大学出版社,2011年。
310. 术语研究的历史和现状,载《语文现代化论丛》,第8辑,p344-365,2011年,语文出版社。
311. 从不同的角度看知识本体,《山东外语教学》,2011年,第6期,p8-16,《人大报刊资料社》收录。
312. 从语料库中挖掘知识,载《首届汉语中介语语料库建设与应用国际学术会议论文选集》,2011年,p9-23,世界图书出版公司。
313. 基于依存树库的文本聚类研究(合著者:高松),《中文信息学报》,第25卷,2011年,第3期,59-63页.
313A. 短语结构语法的代数定义 -- 《生成语法“生成”研究》一文的一个错误,《现代语文》,2011年,第6期。


2012年(73岁):11篇
314. 用计量方法研究语言,《外语教学与研究》,2012年,第2期,256-269,CSSCI检索。
315. 树邻接语法,《外语研究》,2012年,第3期,CSSCI检索。
316. 评《普通术语学和术语词典编纂学导论》(第三版),《中国科技术语》,2012年,第4期,p54-57。
317. 转写和译音是两个不同的概念,《中国科技术语》,第5期,p32-34。
318. 自然语言问答系统的发展与现状,《外国语》,2012年,第6期,p11-26,CSSCI检索, 国家社会科学基金资助期刊。
319. 大哉,计算语言学之为用!《中国社会科学报》,2012年,12月,A07版。
320. 关注认知语言学的研究,《科学中国人》,2012年第23期,p20-24。
321. 语言学中一个不容忽视的学科: 术语学,《山东外语教学》,第33卷,2012年,第6期, 31-39.
322. “语料库语言学在中国” 专家论坛发言摘登——平行语料库建设对于语言学的意义, 《外语教学与研究》(外国语文双月刊),第44卷,2012年,第3期,371-372页,CSSCI收录。
323.英汉词汇量与篇章长度关系比较研究(合著者:赵小东),《外语与外语教学》,2012年,第3期,51-56页,,CSSCI收录。
324. “俄罗斯《语言学大百科词典》翻译工程”的重要意义,《俄罗斯语言文学与文化研究》,2012年,第2期,73-75页。

2013年(74岁):7篇
325. 词汇长度与词汇频数关系的计量语言学研究(合著者:邓耀臣),《外国语》,2013年第3期,p29-39, CSSCI收录。
326. 关于修订中文罗马字母拼写法国际标准ISO 7098 (1991)的情况说明,《北华大学学报》,2013年第14卷第3期(总第76期),p4-13,中国核心期刊。
327. 《统计机器翻译》述评,《外语教学与研究》,第45卷,2013年,第4期,p629-633,CSSCI收录。
328. 我的好友徐文堪,《中西文化交流学报》,第5卷,第1期,2013年7月,p5-8。
329. 隐马尔可夫模型及其在自动词类标注中的应用,《燕山大学学报》,2013, (4):283-298.
330. 对于索绪尔语言符号特性理论的再认识,《当代外语研究》,2013年,第7期。
331. 语言学正面临战略转移的重要时刻,《南开语言学刊》,2013年,第1期,总第21期,P7-19,CSSCI来源期刊。

2014年(75岁):13篇

332. 言语行为理论和会话智能代理,《外国语》,2014年,第1期,p21-36,CSSCI收录,国家社会科学基金资助期刊。
333. R. Hausser的左结合语法,《外语学刊》,2014年,第2期,p30-34, CSSCI收录。
334. 严复手批《植物名词中英对照表》原稿本的发现,《中国科技术语》,2014年,第2期,P50-54。
335. 重温叶斯柏森的语言学理论,《现代语文》,2014年,第6期,总第531期,p4-7。
336. 汉语中介语语料库建设与应用的两个重要特色,《第二届汉语中介语语料库建设与应用国际学术讨论会论文选集》,北京语言大学出版社,北京,2014年3月,P9-11。
337. 语料库的标注和它的局限性,《第二届汉语中介语语料库建设与应用国际学术讨论会论文选集》,北京语言大学出版社,北京,2014年3月,P44-66。
338. 《现代语言学流派》(增订本)前言,《现代语文》,2014年,第9期,总第534期,p161。
339. 运动事件词汇化模式不容忽视的两个问题(与冯绍锋合著),《现代语文》,2014年,第21期, p12-15。
340. 词汇化公式:诠释与思考(与冯绍锋合著),《现代语文》,2014年,第27期,p21-23。
341. 基于COCA语料库辨析近义动词finish,complete和accomplish, 《语言教育》(与王晶晶合著),2014年,第3期,p47-51。
342. 第一次机器翻译试验的前前后后 -- 纪念机器翻译60周年(与冯绍锋合著),《现代语文》,2014年,第24期,p4-7。
343. 教育叙事:英语教师的研究话语(与骆琤合著),《语言教育》,2014年,第4期,p 20-23。
344. 《现代语言学流派》(增订本)目录,《现代语文》,2014年,第2期。
345. 词典学研究中的一门新兴学科 – 计算术语学,《辞书研究与辞书发展论集》(2012年8月1-2日第三届汉语辞书高层论坛会议论文集),上海辞书出版社,2014年11月,p1-16。

2015年(76岁):14篇

346. 会话智能代理系统中的BDI模型(合作者:余卫华,第一作者:冯志伟),《外国语》,2015年,第2期,p2-14, CSSCI收录。
347. 现代语言学的奠基人索绪尔 -- 纪念索绪尔逝世101周年,《现代语文》,第9期,p4-12。
348. 《汉语拼音词汇》序言,《现代语文》,2015年,第12期,p161。
349. 在博客上研究词汇问题,《当代外语研究》,2015年,第2期,p3-7.《中国社会科学网》( http://www.cssn.cn )2015年11月24日转载。
350. 用计算机分析术语结构的尝试,《术语学研究新进展》,国防工业出版社,2005年3月。
351. school多义辐射网络构建延伸四法视野(第二作者,合作者:冯绍锋),《现代语文》,2015年,第9期,p14-17.
352. 间接言语行为的多维视角(第二作者,合作者:冯绍锋),《鲁东大学学报》,2015年,第3期,p42-46.
353. “N+N”歧义消解的博弈论模型研究(合作者:杨泉,第二作者:冯志伟),《语言科学》,2015年,第5期,p250-257. CSSCI收录。
354. 学术论文的H指数分析(第一作者,合作者:冯绍锋),《现代语文》,2015年,第6期。
355. 计算语言学超学科研究刍议(合作者:李颖,第二作者:冯志伟),《现代外语》,2015年,第3期,p407-415, CSSCI收录,《中国社会科学文摘》月刊2015年第10期收录。
356. 自然语言的计算复杂性,《外语教学与研究》(独著,第一作者:冯志伟),2015年,9月,第47卷,第5期,p659-672,CSSCI收录。
357. 《牛津计算语言学手册》评介,《现代语文》,2015年10月,第30期,p153-157.
358. 哥本哈根学派的语言学理论—纪念叶尔姆斯列夫逝世50周年(第一作者,合作者:周建),《现代语文》,2015年,第11期,p4-7。
359. 特鲁别茨柯依布与拉格学派—纪念特鲁别茨柯依诞生125周年(第一作者,合作者:余卫华),《现代语文》,2015年,第36期,P4-10。
360. 用计算机分析术语结构的尝试,《术语学研究新进展》,国防工业出版社,p1-13,2015年3月。
361. 《新编同义词词林》序,《新编同义词词林》,上海辞书出版社,2015年。
362. 基于短语和句法的统计机器翻译,《燕山大学学报(自然科学版)》,2015年,第6期, p1-9。

2016年(77岁):16篇

363. ISO7098中文罗马字母拼写法的修订:从WD到DIS,《北华大学学报》(社会科学版),2016年,第2期, p1-17。
364. 汉语拼音国际标准化的新进展,《语言战略研究》,2016年,第2期,P94-96。
365. 我国语料库翻译学的研究现状:回顾与展望(合作者:冯绍锋),《当代外语研究》,2016年,第2期,p74-79。
366. 国际标准ISO 7098:2015《中文罗马字母拼写法》的研制,《现代语文》,2016年,第2期,p4-9。
367. 基于大规模语料的英语词汇重复率研究(合作者:赵小东),《外语与外语教学》,2016年,第2期,CSSCI收录。
368. 《自然语言交流的计算机模型》评介,《现代语文》,2016年,第7期。
369. 单一罗马化原则与路名标志书写法,《语言政策与规划研究》,2016年,第3卷,第1期,p27-33。
370. 《中文罗马字母拼写法》标准的国际意义,《外语教学与研究》,2016年,第6期。CSSCI收录。
371. 国际标准ISO 7098:2015的四个特色,《数字图书馆论坛》(中国科技核心期刊),2016年,第12期,总第151期,P40-47。
372. 世界也需要汉语拼音,《光明日报》,2017年1月15日,第5版。
373. 中文罗马字母拼写法及其在人机交互中的应用,《现代语文》,2016年1月,第1期,p4-10.
374. 我国语料库翻译学的研究现状:回顾与展望(合作者:冯绍锋),《当代外语研究》,2016年,第2期,p74-79。
375. 基于大规模语料的英语词汇重复率研究(合作者:赵小东),《外语与外语教学》,2016年,第2期,CSSCI收录。
376. 纪念我的恩师沃古瓦教授,《现代语文》,2016年,第30期,p4-8。
377. 基于BNC语料库的近义副词absolutely, completely, utterly辨析(与冯绍锋合作),《鲁东大学学报》,2016年,哲学社会科学版),2016年,第4期,p41-46; 转载于《国际性外语人才培养研究》,上海交通大学出版社,P44-55,2016年。

2017年(78岁):15篇

378. 国际标准《中文罗马字母拼写法(2015)》的内容梗概,香港《语文建设通讯》
,2017年1月,第113期,p1-16。
379. 国际标准《中文罗马字母拼写法(2015)》的内容梗概:后记,香港《语文建设通讯》,2017年1月,第113期,p17-19。
380. “世界也需要汉语拼音”,《光明日报》,2017年1月15日,光明视野,05版。
381. 梅耶与法兰西学派(与周建合作),《现代语文》,2017年,第3期,p4-8。
382. 关于113号元素命名的建议,《中国科技术语》,2017年,第2期。
383. 网络时代的自然语言处理(与余卫华合作),《光明日报》,2017年4月9日。
384. 用数学逻辑之美揭示语言结构之妙,《光明日报》,2017年7月9日,《中国社会科学网》,2017年7月9日19:23转载。
385. 房德里耶斯与法兰西学派(与周建合作),《现代语文》,2017年,第15期,p4-7.
386. 78岁一年总结,《现代语文》,2017年,第15期,p161。
387. 语料库系统的评测,《语料库语言学研究》, 2017年,创刊号。
388. 《计量语言学导论》评介,《外语电化教学》,2017年,第176期,p95-96,CSSCI收录。
389. 《公共服务领域英文译写规范》与城市路名整顿,《语言规划学研究》,2017年,第1期,p39-42。
390. 语音的形式描述,《实验语言学》,2017年,第6卷,第2号,p1-8,在日本东京出版。
391. 马尔丁内与法国功能语言学派,《现代语文》,2017年,第24期,p4-6。
392. 文语转换中的文本分析方法,《实验语言学》,2017年,第6卷,第3号,p1-14,在日本东京出版。

2018年(79岁):15篇

393. 关于非汉语人名和地名的字符译音问题,《语文建设通讯》(香港),2018年1月,第115期,p4-6。
394. 智能会话系统与语音自动识别(与詹宏伟合作),《外语学刊》,2018年,第1期,p13-23。CSSCI收录。
395. 与汉语拼音相伴60年:从国家规范到国际标准,《光明日报》,2018年2月11日,12版。
396. 汉语拼音走向世界:成绩与缺憾  -- 纪念《汉语拼音方案》颁布60周年,《北华大学学报(社会科学版)》,2018年3月,第19卷,第2期,p5-9。
397. Chinese Characters (《汉字》英文版)简介,《华文教学与研究》,2018年,第1期,总第69期,p88-89,CSSCI收录。
398. 赫德森的词语法理论,与周建合作,《现代语文》,2018年,第3期,总第672期,p4-8。
399. 汉语拼音是国际文化交流的桥梁,《语言文字政策研究》公众号,2018年,6月。
400. 八十老翁,平生无悔,《文化学刊》,2018年,第3期,p50-64。
401. 人工智能领域:得语言者得天下(卷首语),《语言战略研究》,第3卷,2018年,第5期,p1。 
402. 面向翻译的术语研究:“中国学派”的实践特征和理论探索(与殷健、刘润泽合作),《中国翻译》,2018年。第3期,p74-79,CSSCI收录。
403. 信息时代需要文理兼通的语言学家,《光明日报》,2018年10月21日,第12版,语言文字。
404. 基于语料库的汉语词长与词频关系的计量研究,与邓耀臣合作,《实证和语料库语言学前沿》,中国社会科学出版社,2018年9月,p59-91。
405. 结构分析法在海外汉字教学中的应用(英文版),(《国际汉语教育》), 2018/3, 第3卷,第3期,总第8期,49-62.
406. 现代汉语句子的扩展模式语法模型的构建(与王笑盈、瞿云华合作),《厦门大学学报(自然科学版)》,第57卷,第6期,2018年11月,p860-867.
407. 机器翻译与人工智能的平行发展,《外国语》,第41卷,第6期,2018年12月,p35-48,CSSCI收录。

2019年(80岁):6篇

408. 中国术语研究的八大特点,《中国术语研究》,2019年,第2期,p8-10。
409. 自然语言形式分析的奠基力作 – 纪念《句法结构》出版60周年,《现代语文》,2019年,第1期,p4-24。
410. 《中国英语能力等级量表》的意义及其对英语教学的影响(与余卫华合作),《辞书研究》,2019年,第2期。
411. 词向量及其在自然语言处理中的应用,《外语电化教学》,2019年2月,第185期,p1-10,CSSCI收录。
412. 从汉字信息处理到自然语言处理 – “中国语言学70年多人谈”,《语言战略研究》,2019年,第4期,p77-78.
413. 基于知识本体的术语界定(与殷健合作),《杭州师范大学学报(社会科学版)》,2019年7月,第4期,p132-136。






英文论文: 40篇 
1. Multi-label and multi-branch tree analysis of Chinese sentences, < Proceedings of ICCIP'83 >,1983, Beijing
2. Automatic generation and analysis of Chinese language in machine translation, Proceedings of SEARCC'84,1984, Hongkong
3. Analysis of formation of Chinese terms in data processing, Research Report in Fraunhofer Institute, 1988, Stuttgart
4. Chinese Character Index for Chinese Term in GLOT-C, Research Report in Fraunhofer Institute, 1988, Stuttgart
5. FEL Formula -- Economical Law in the Formation of Terms, Social Sciences in China,《中国社会科学》(英文版),1988, No 4, p171-180,CSSCI收录,SSCI收录。
6. Description of Complex Features for Chinese Language, Proceedings of COLING'90, 1990, Helsinki。
7. On Potential Ambiguity in Chinese Terminology, Proceedings of TSTT'91, Beijing.
8. A Terminological Databank in Chinese Language -- GLOT-C, Proceedings of ICCIP'92, 
Beijing
9. Language Resources and Language Technology in China, Proceedings of TELRI Seminar, Tihany, Hungary, 1995/09/14-17
10. The Bracket Description for Construction of Chinese Characters, Chinese Teaching in the World《世界汉语教学》英文论文,1996, No.2, Jun., Beijing, CSSCI收录。
11. A Study of Translation Equivalence in the Chinese-English text of Plato’s Republic,TELRI Proceedings of the Third European Seminar, Montecatini Terme, Italy, October 16-18, 1997
12. The Application of the Specialized Dictionary in Machine Translation, Proceedings of the International Conference on Professional Communication and Knowledge Transfer, Vienna, 24-26 August 1998, Volume II, 4th INFOTERM SYMPOSIUM
13. Precedence Parallel Hypothesis between Personal Names Structure and Modifier-Head Construction in Language(人名结构格式与语言中偏正结构之间的前于关系平行假说), The 30th International Conference on Sino-Tibetan language and Linguistics, August 24-26, 1997, Beijing 
14.  Romanization of Place Name from Chinese characters, ICOS’99, 1999, Spain
15. Chinese translation technology: past, present and future, Proceedings of LISA Conference-1999, Shanghai, 1999/05/26-28
16. Hybrid Approaches for Automatic Segmentation and Annotation of Chinese Text Corpus, International Journal of Corpus Linguistics, Vol. 6 (Special issue) 2001, John Benjamin Publishing Co. Amsterdam, The Netherlands, SSCI收录。
17. PAR-based Japanese-Chinese MT, 《第二届中日自然语言处理专家研讨会论文集》,2002年10月30日-11月2日,P104-117.
18. Translation Divergence in MT, 7th TELRI, Dubnovnik, Croatia, 2002-Sept-25-30.
19. Linguistic Divergence in Machne Translation, in: Linguistic Cultural Identity and International Communication, 187-203, AQ-Verlag, 2003, Saarbruecken.
20. The Chinese diagraphia problem in the information age, Studies in the Linguistic Sciences, Volume 30, Number 1 (spring 2000), 229-234, 2000, Department of Linguistics, University of Illinois at Urbana-Champaign, USA, (co-author: Binyong Yin).
21. Semantic loanwords and phonemic loanwords in Chinese language, Proceedings of 11th International Symposium of NIJLA, Tokyo, March 2004, p200-229. 
22. Standardization of Chinese scientific loanword, Proceedings of 11th International Symposium of NIJLA, Tokyo, March 2004, p71-77.
23. Structure of Chinese loanwords, Proceedings of 11th International Symposium of NIJLA, Tokyo, March 2004, p287-296.
24. A Contrastive Study of Chinese Progressive Aspect Structure, “zai+verb” and its English Correspondents: A Bilingual Parallel Corpus-based Perspective (co-author Qu Yunhua), IEEE Conference, Wuhan, 2005.
25. Findings in Preliminary Study on the Rhetorical Structure of Chinese TV News Reports (co-author Yue Ming),Conference on Systemic Functional Grammar (CSFG05), July-2005, Sydney, Austraria.
26. Evolution and present situation of corpus research in China. International Journal of Corpus Linguistics,John Benjamin Publishing Co. Amsterdam, The Netherlands,11:2 (2006), 173-207,SSCI收录.
27. Translation Divergence in Machine Translation,Eafterm Symposium, Haikou, 2006.
28. KOD – Intermediate Representation for MT. International conference for KOD, Regensburg, Germany, 2006-Oct-12 to Oct-14.
29. Application of CTT in Grammar Teaching and Studying of Chinese (Co-author: Zhang Junping), Proceedings of 6th Chinese Lexical Semantics Workshop, (CLSW-6), Singapore, COLIPS publication, Singapore, p292-304, 2006.
30. China’s Machine Translation Technology – keynote speech at The 5th International Conference on ELT in China & The 1st Applied Linguistics Congress of China,简称CELEA2007, May 15-21 , 2007, Beijing.
31. The role of English language in China. 5th Nitobe Symposium, European Languages and Asian Nations: History, Politics, Possibilities. (August 2-3, 2007, Tokyo). 
32. Automatic Chinese Multi-word Term Extraction (co-author: Narisong, Chunyu Kit), Proceedings of International Conference on Advanced Language Processing and Web Information Technology (ALPIT 2008), p181-184, 23-25 July 2008, Dalian, Published by the IEEE Computer Society.
33. Automatic Paring of “NP + you + VP” in Chinese Japanese and Indonesian Based on CTT and Complex Feathers (Co-authors: Zhang Junping, Zhang Xiaoling), p53-58, Proceedings of ALPIT 2008, 23-25 July 2008, Dalian, Published by the IEEE Computer Society.  
34. Using a Chinese Treebank to measuring the Dependency Distance (co-authors: Haitao Liu, Hudson), Corpus Linguistics and Linguistic Theory, 2009 5(2), p161-175,SSCI收录。
35. Corpus-based study on the relation between word length and word frequency in Chinese (Co-author: Deng Yaochen), Proceedings of 7th International Corpus Linguistics Conference (CL2013), Lancaster, U.K., p59-61.
36. A dynamic study of English intertextual lexical repetition rate, Journal of Quantitative Linguistics, 2014, Vol. 21, No. 1, 65–84, SSCI收录(co-author: Zhao Xiaodong)。
37. Chinese Romanization and Its Application in HCI, M. Kurosu (Ed.): Human-Computer Interaction, Advanced Interaction Modalities and Techniques, Proceedings of 16th International Conference HCI International, Part II, Lecture Notes in Computer Science (LNCS 8511), © Springer International Publishing Switzerland 2014, p 406-416. ISSN:0737-0024. DBLP(Computer Science Bibliography)和EI收录,影响因子:2.333.
38. A synergetic Approach to the relationship between the length and frenquency among English Multiword Formulaic Sequences, Co-authers: Xueting Dai, Yunhua Qu, Journal of Quantitative Linguistics, 2017, SSCI 收录。 
39. American English Perfect Construction across Registers, Co-authers: Chenyao Bao, Yunhua Qu, Journal of Quantitative Linguistics, 2017, SSCI 收录。
40. The Application of Structural Analysis in Chinese Character Teaching Abroad, International Chinese Language Education (《国际汉语教育》), 2018/3, 第3卷,第3期,总第8期,49-62.  
41. Terminology in  China, 《术语-知识-话语》,2019年。

法文论文2篇

1. Memoire pour une tentative de traduction automatique multilangue de  chinois  en  francais,  anglais,  japonais,  russe et  allemand, Proceedings of COLING'82 , Prague, 1982.

2. La normalisation terminologique en Chine, Revue d'amanagement linguistique, Numero 106, Ete 2003, pp 27-46, Les publication du Quebec,Canada.

德文论文2篇
1. Ueber  linguistische  Information  in  Saetzen  der  chinesischen Sprache, Research Report in Fraunhofer Institute, Stuttgart, 1987,本文英文论文载于 Proceedings of International Congress on Terminology and Knowledge Engineering , INDEKS Verlag, 1987
2. Die Entwicklung der chinesischen Spracherziehung,载于 Bruecke zwischen Kulturen, Ostasien-Pazifik, Band 17, pp 127-141.LIT Verlag, 2003.

四.导读外文专著:7本
1.《应用语言学中的语料库》,世界图书出版公司&剑桥大学出版社,2006年版
2.《译者的电子工具》,外语教育与研究出版社,2006年版
3.《人工智能在第二语言教学中的应用—提高对于偏误的意识》,世界图书出版公司,2007年出版
4.《系统与语料》,世界图书出版公司,2009年出版
5.《语言学中的数学方法》,世界图书出版公司,2009年出版
6.《牛津计算语言学手册》,外语教育与研究出版社,2010年版
7.《自然语言生成系统的建造》,北京大学出版社,2011年版

五.序言  27篇
1. 《现代韩国语动词语义组合关系研究》(毕玉德著)序言
2. 《现代语言学名著导读》(萧国政著)序言
3. 《统计自然语言处理》(宗成庆著)序言
4. 《论汉英平行语料的平行处理》(冯敏萱著)序言
5.《十三经字频研究》(蒋柳文著)序言
6. 《现代汉语动宾搭配的语义分析和计算》(李斌著)序言
7. 《语料库语言学研究从书》(世界图书出版公司编写)序言
8. 《基于认知的汉语计算语言学研究》(袁毓林著)序言
9.  《俄罗斯计算语言学与机器翻译》(易绵竹等著)序言
10. 《基于双语语料库的汉英视点体对比研究》(瞿云华著)序言
11.《面向信息检索的汉语同义词自动识别》(陆勇著)序言
12. 《句子语义学》(司联合著)序言
13. 《俄语潜在歧义研究》(张录彭著)序言
14. 《汉语计算语言学--汉语形式语法和形式分析》(吴蔚天著)序言
15. 《依存语法的理论与实践》(刘海涛著)序言
16. 《翻译和本地化工程》(崔启亮著)序言
17. 《面向大学英语教学的通用计算机作文评分和反馈方法研究》(葛诗利著)序言
18. 《基于动态流通语料库的新词语监测研究》(刘长征著)序言
19. 《英译汉网上自动评测》(田艳著)序言
20. “语料库语言学与计算语言学丛书”(世界图书出版公司编写)序言
21. 《汉语拼音词汇》(专有名词部分,董琨、李志江等著)序言
22. 《新编 同义词词林》(亢世勇主编)序言
23.《面向大数据的高效能垃圾文本分类》(刘伍颖著)序言
24. 《逻辑缀词理论与汉语特殊句式句法结构》(吴会芹著)序言
25.《跨学科视域下的翻译研究》(霍跃红著)序言
26.《词语认知属性的知识库构建和应用》(李斌著)序言
27. 《术语管理概论》(王华树、冷冰冰著)序言
28. 《基于修辞结构树库的篇章衔接标记用法研究》(乐明著)序言
29. 《对象格》(汪梦翔著)序言
30. 《语言探秘》(李斌著)序言
31.《现代汉语语义角色句法实现的词汇语义制约研究》(亢世勇主编)序言
32. 《术语翻译新论:找译译法翻译理论与实务》(李亚舒 徐树德著)序言


六、编写的讲义:
1、ATEF 与 CETA (有限状态文句分析及树形图的控制与转换),上机手册。
2、TRANSF 与 SYGMOR (词汇转换与形态生成系统),上机手册。
3、ARIANE-78 人机联作系统,上机手册。
4、法国自动翻译 ARIANE-78 系统的数学原理,软件技术资料。  
5、语言学中的离散数学方法,北京大学讲义。
6、论语言的数学面貌,技术资料。
7、现代语言学讲义(上、下册),中国科技情报所研究生教材。
8、国外机器翻译研究概况,中国科技情报所机译训练班教材。
9、数理语言学讲稿,中国科技情报所机译训练班教材。
10、机器翻译导论,中国科技情报所研究生教材。
11、机器翻译方法和技术研究,中国传媒大学博士生教材。
12、语言信息处理专题研究,中国传媒大学博士生教材。
13、语音合成与语音识别,中国传媒大学博士生教材。
14、Natural Language Processing, 中国传媒大学硕士生英文教材(有录音资料)。
 

七.应用系统开发
(一)研制机器翻译系统5个:
1.FAJRA: 汉-法/英/日/俄/德自动翻译系统(1979-1981)
2.GCAT:德-汉自动翻译系统(1982)
3.FCAT:法-汉自动翻译系统(1983)
¬4.JCAY:日-汉自动翻译系统(1994-1998),为Creative公司研制
5.E-to-J:英-日机器翻译系统(1988),已经由NEC公司在日本推出上市

(二)研制术语数据库3个:
1.GLOT-C:数据处理术语数据库(1986-1988)
2.TAL:应用语言学术语数据库(1990-1992),国家社会科学基金课题
3.COL:计算语言学术语数据库(1992-1993)

八.规范标准编制
-- 参与编制国家标准6个:
1.汉语信息处理词汇 02部分:汉语和汉字(GB/T 12200.2-94,1994-12-07发布,1995-08-10实施)
2.术语数据库开发文件编制指南 术语数据库开发指南(GB/T 15387.1~15387.2-94,1994-12-27发布,1995-08-01实施)
3. 术语数据库技术评价指南(GB/T 15526-1995, 1995-06-30发布,1996-10-01实施)
4. 术语工作 计算机应用 词汇(GB/T 17532-1998, eqv ISO/DIS 1087-2.2:1996)
5. 术语工作 计算机应用 数据类目(GB/T 16786-1997, 1997-15-23发布,1997-12-01实施)
6. 信息与文献:文字名称表示代码(GB/T 34836 - 2017)

-- 主持编制国家规范3个:
1.《文语转换和语音识别系统语言文字评测规范》(2008年10月1日完成)
2.《机器翻译系统语言文字评测规范》(2008年10月1日完成)
3.《语料库系统语言文字评测规范》(2008年10月1日完成)

-- 主持编写国际标准1个:
ISO-7098:2015 Documentation and Information Romanization of Chinese 《文献与信息:中文罗马字母拼写法》(2015年通过19个国家投票,全票通过,于2015年12月15日由ISO正式出版)

九.编写程序
编写程序的工作量比写文章的工作量还大,写出的字符比文章还多,有必要加以总结。
甲、汉--法/英/日/俄/德多语言自动翻译程序,共 22 个程序模块
        1、CAM -- 汉语形态分析程序
        2、CAS -- 汉语结构分析程序
        3、CFTL -- 汉法词汇转换程序
        4、CFTS -- 汉法结构转换程序
        5、FGS -- 法语结构生成程序
        6、FGM -- 法语形态生成程序
        7、CETL -- 英汉词汇转换程序
        8、CETS -- 英汉结构转换程序
        9、EGS -- 英语结构生成程序
       10、EGM -- 英语形态生成程序
       11、CJTL -- 日汉词汇转换程序
       12、CJTS -- 日汉结构转换程序
       13、JGS -- 日语结构生成程序
       14、JGM -- 日语形态生成程序
       15、CRTL -- 汉俄词汇转换程序
       16、CRTS -- 汉俄结构转换程序
       17、RGS -- 俄语结构生成程序
       18、RGM -- 俄语形态生成程序
       19、CGTL -- 汉德词汇转换程序
       20、CGTS --  汉德结构转换程序
       21、GGS -- 德语结构生成程序
       22、GGM -- 德语形态生成程序

   乙、德汉自动翻译 GCAT 系统的程序,共 6 个模块
       1、GAM -- 德语形态分析程序
       2、GAS -- 德语结构分析程序
       3、GCTL -- 德汉词汇转换程序
       4、GCTS -- 德汉结构转换程序
       5、CGS -- 汉语结构生成程序
       6、CGM -- 汉语形态生成程序

   丙、法汉自动翻译 FCAT 系统的程序,共 4 个模块
       1、FAM -- 法语形态分析程序
       2、FAS -- 法语结构分析程序
       3、FCTL -- 法汉词汇转换程序
       4、FCTS -- 法汉结构转换程序

FCAT 系统的汉语结构生成程序与汉语形态生成程序与 GCAT 系统共用,这就大大地节省了程序量,由此可看出 MMT 模型的优越性。    

   丁、GLOT-C 中文术语数据库程序
       1、CG -- 中文术语子库
       2、EG -- 英文术语子库
       3、CC -- 概念分类子库
       4、CS -- 中文同义术语子库
       5、MO -- 中文多源术语子库
       6、AB -- 缩写术语子库
       7、AU -- 用户态度子库
       8、DM -- 使用领域子库
       9、ST -- 词组型术语结构分类子库
      10、WF -- 单词型术语构词子库
      11、AM -- 歧义类型子库
      12、FR -- 单词频率子库      

十、国内外学术界对于冯志伟的评论文章
1. 张敏,《现代语言学流派》评介,《语文建设》,1989年,第4期。
2. Victor Mair(美国:梅维恒),评冯志伟教授的两本书,《中文信息》,1995年,第4期;英文原文载美国Sino-Platonic papers, 46, Philadelphia, USA, July, 1994.
3. Dorothea Wippermann(德国:韦荷雅),REZENTION ueber Die chinesischen Schriftzeichen in Vergangenheit und Gegenwart, CHUN CHINESISCH UNTERRICHT, JULIU Groot Verlag Heidelberg, 11 1995. 中文译文载《学术集林》,卷八,评冯志伟新著《汉字的历史和现状》,1996年9月,上海。
4. 王均,评《自然语言机器翻译新论》,BYTE,1998年。
5. 张在云,壮哉,云岭一杰!台湾《古今艺文》杂志,第23卷,1996年,第1期,台北。
6. 张在云,壮哉,云岭一杰 — 记著名计算语言学家和术语数据库专家冯志伟先生,《术语标准化与信息技术》,1997年第1期,总第5期。
7. 张在云,伟哉,云岭一杰! 记著名计算语言学家冯志伟,《中文信息》,1997年第5期,总第60期。
8.张在云,云南文字信息处理发展简介,《中文与东方语言信息处理学会通讯》,第6卷,第1期,1996年7月,新加坡。
9. 刘海涛,从语言学角度看自然语言处理 — 评《自然语言的计算机处理》,《术语标准化与信息技术》,1997年第3期,总第7期。
10. 刘海涛,机器翻译的新景观 — 评《自然语言机器翻译新论》,《术语标准化与信息技术》,1998年第2 期,总第10 期。
11. 刘海涛,应用语言学的新天地 — 评冯志伟《应用语言学新论》,《语言文字应用》,2000年,第4期,总第36期。
12. 刘海涛,信息时代语言学研究的基础 — 读《语言与数学》有感,载《语言与数学》,世界图书出版公司,2010年。
13. 张在云,一位信息时代新语言学者的人生历程,《现代语文》,2009年,第21期。
14. 北华大学学报编辑部,多语言信息网络时代的语言学家:冯志伟,《北华大学学报》,2009年,第3期。
15. 赵晶,与数理语言学共舞,《新华书目报》•《科技新书目》,第919期,A05版,《科技人物》专栏,2010年12月9日出版。
16. 张在云,走在文理结合的道路上 — 记自然语言处理专家冯志伟先生,载《自然语言计算机形式分析的理论与方法》,第821-846页,中国科学技术出版社,2017年。
17. 王少爽,杨清珍,中国术语学研究话语构建 – 评冯志伟先生著《现代术语学引论(增订本)》,《中国科技术语》,2012年,第6期。
18. 专访冯志伟:NLP研究尚处于初级阶段,未来将属于年轻一辈,《AI科技评论》,2018-10-22.
19. 郑伊,冯志伟教授的戏剧人生,2018-语言和言语


 

死里逃生

$
0
0

                   死里逃生

 

                             冯志伟

 

钱玉趾老师,您好!


来信问道关于昆明交三桥轰炸之事。问答如下:


关于昆明轰炸的具体季节,由于当时我还年幼,实在回忆不清了,我估计是在1944年的年初,乍暖还寒的时节,时间大约是在中午时段,天气晴好。当时昆明市中心的五华山上有一个瞭望台,发现日本飞机来袭,就马上挂起红灯笼,发出空袭警报。警察也骑着自行车,手持旗子,沿街通告市民紧急疏散。市民们看到红灯笼,听到警报声,纷纷走出家门,就开始“跑警报”。那一天我和家人跑到交三桥,交三桥是三条马路的交叉点,很拥挤,容易成为日本飞机的攻击目标。

关于此事,张在云在他的文章是如此描述的,供你参考:

 

1944年,日本从云南蒙自派飞机轰炸昆明,昆明全城响起了警报声,当时冯志伟才5岁,家里人带着他“跑警报”,当他们逃到昆明大东门外的交三桥的时候,日本飞机瞄准手无寸铁的民众投下一连串的炸弹,冯志伟被炸弹震昏了,晕倒在河岸上。当轰炸过后他醒过来时,他发现周围很多人都被炸死了,幸好有一个被炸死的大叔的死尸盖住了他幼小的身体,才得以幸免于难。他掀开死尸挣扎着爬出来,在河岸上哇哇大哭。轰炸过后天空是黑沉沉的,弥漫着火药味,河里满是鲜血,一匹炸伤的马倒在河中挣扎,马车翻倒在河里,电线杠上挂着一个被炸飞的死人头,鲜血一滴一滴地向下流。家里的人都跑散了,也找不到了,冯志伟孤零零一个小孩儿,哭着走到了附近叫做“东庄”的一个村子里,老乡看到他遍身是血,给他换了衣服,暂时留他住下了。家里的人找不到冯志伟,都以为他在交三桥被炸死了,终日以泪洗面,痛苦不堪,后来历尽艰辛终于找到了仍然活着的冯志伟,喜出望外,皆大欢喜。


祝福


安康


                             冯志伟

                               2019

 


 

大数据驱动的语言文化创新研究高端论坛致辞

$
0
0

大数据驱动的语言文化创新研究高端论坛致辞(2020-01-03, 哈尔滨)

                  冯志伟

 

尊敬的严明校长、尊敬的易绵竹教授、女士们、先生们,

 

       首先祝贺大数据驱动的语言文化创新研究高端论坛开幕。

       今天我们会议的主题是“大数据”(big data)。

       大数据这个概念是1997年由美国国家航天局研究院的Michael CoxDavid Ellsworth提出的,他们认为大数据是可以进行可视化研究的、数量巨大的科学数据。

       美国IBM公司认为大数据具有三个特性:Volume(大规模), Variety,(多样性),Velocity(高速度),叫做三V

       在语言文化研究中,我们也需要数据(data)。

       早期研究的数据来源主要是内省(introspection),严谨的学者们提出了“例不过十不立,反例不过十不破”的语言学研究原则,但是这个原则依赖的数据只是10个例子或者10个反例,显然是小数据,是非常不可靠的。在浩瀚无边的数据海洋中,仅仅依靠区区的10个例子或者10个反例就试图决定语言学结论的真伪,显然是不科学的。

       早期研究的数据还有一个来源就是“诱导”(elicitation),也就是从书本、词典等第二手材料中或者通过问卷调查、方言调查等方式,诱导出有关的数据,并进一步从数据中推导出结论。这样的方式依靠的数据当然也只是小数据,难免有片面或不完善的地方。

       现在我们主张依靠大数据,从大规模的真实文本数据中获取知识,这样的大数据除了具备大规模(large scale)的特点之外,还具有真实性(authentic)的特点,它们都是客观存在的数据,不带有主观性。

       进入大数据时代之后,我们获取大数据的方式不再是“内省”或“诱导”,而是“观察”(observation)。

       使用这样的大数据来研究语言文化,使我们有可能通过“观察”获得客观的知识,这样就大大地避免了主观性和片面性。

       所以,大数据驱动的语言文化创新研究是我们认识和研究客观世界方法的重大改变,在方法论上具有重要的意义。

当前在自然语言处理研究中,提倡建立语料库(corpus),使用机器学习(machine learning)的方法,让计算机自动地从浩如烟海的语料库大数据中获取准确的语言知识。就是这种改变的一个重要方面。

互联网的发展日新月异,互联网上有无比丰富的文本语言大数据,其中有结构化的语言数据,也有非结构化的语言数据,互联网是大数据的重要来源,我们应当从互联网上的语言大数据中自动地获取语言文化知识。

这些都是语言文化研究中获取语言知识方式的巨大变化,作为二十一世纪的语言文化工作者,都应该注意到这样的变化,逐渐改变获取知识的手段,从而实现科学创新。

让我们大家一起来进行大数据驱动的语言文化创新研究,祝福大会取得成功。

 

 


 

Shannon关于“熵”的研究

$
0
0

Shannon关于“熵”的研究


冯志伟

 

1948年,美国科学家C. E. Shannon(香农,1916-2001,图2-8)在《贝尔系统技术杂志》(Bell System Technical Journal27: pp 379-423, 1948)上发表了《通信的数学理论》(A mathematical theory of communication)的长篇论文,奠定了信息论(Information Theory)的理论基础,Shannon被尊为“信息论之父”

Shannon1916430日出生于美国密歇根州的Petoskey1936年毕业于密歇根大学并获得数学和电子工程学士学位,1940年获得麻省理工学院(MIT)数学博士学位和电子工程硕士学位。1941年他加入贝尔实验室数学部,工作到1972年。1956年他成为麻省理工学院(MIT)客座教授,并于1958年成为终生教授,1978年成为名誉教授。Shannon2001226日去世,享年84岁。

信息论是研究信息传输和信息处理系统中的一般规律的科学。在信息论产生之前,人们对于信息系统的理解是比较肤浅的,一般把携带信息的消息看成是瞬态性的周期性的信号。后来,人们把近代统计力学中的重要概念,把Markov随机过程理论以及广义谐波分析等数学方法应用于信息系统的研究中,才看出通信系统内的信息实质上是一种具有概率性的随机过程,从而得出了一些概括性很高的结论,建立了信息论这个学科。

                        

                      

信息论的研究对象是广义的信息传输和信息处理系统,从最普通的电报、电话、传真、雷达、声纳,一直到各种生物的感知系统,都可以用同样的信息论观点加以描述,都可以概括成这样的或那样的随机过程加以深入的研究。

从信息论的角度看来,用自然语言来交际的过程,也就是从语言的发送者通过通信媒介传输到语言的接收者的过程。图示如下(图2-9

 

语言的发送者(即信源)随着时间的顺序顺次地发出一个一个的语言符号,语言的接收这也随着时间的顺序顺次地接收到一个一个的语言符号。显而易见,这个过程是时间的函数,而每一个时刻的值(即出现什么样的符号)又是随机的,因而这个过程是一个随机过程。

在这个随机过程中,如果我们做试验来确定语言中出现什么语言符号,那么,这样的试验就叫做随机试验,而所出现的语言符号就是随机试验的结局,语言可以看作是一系列具有不同随机试验结局的链。这样,我们就可以使用第一节中讲过的Markov链的理论来研究语言符号的生成过程了。

如果在随机试验中,各个语言符号的出现彼此独立,不互相影响,那么,这种链就是独立链。

如果在独立链中,每一个语言符号的出现概率相等,那么,这种链就叫做等概率独立链。如果语言符号是英语字母(包括26个字母和空白),则英语字母的等概率独立链如下:

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQ SDHYD QPAAMKBZAACIBZLHJQD

如果在独立链中,各个语言符号的出现概率不相等,有的出现概率高,有的出现概率低,那么,这种链叫不等概率独立链,英语字母的不等概率独立链如下:

OCRO HLIRGWR NMIELWIS EU LLNBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL

在上述的独立链信源中,前面的语言符号对于后面的语言符号没有影响,是无记忆的,因而它是由一个无记忆信源发出的。

如果在随机试验中,各个语言符号的出现概率不相互独立,每一个随机试验的个别结局依赖于它前面的随机试验的结局,那么,这种链就是Markov链。在Markov链中,前面的语言符号对于后面的语言符号是有影响的,它是由一个有记忆信源发出的。

语言显然就是这种由有记忆信源发出的Markov链。例如,在英语中,当前面的字母是一串相互连接的辅音字母时,元音字母的出现概率就增长起来。这种链显然就是Markov链。

如果我们只考虑前面一个语言符号对于后面一个语言符号出现概率的影响,这样得出的语言符号的链就是一重Markov链。英语字母的一重Markov链如下:

ON IE ANTSOUTINYS ARE TINCTORE BE S DEAMY ACHIND ILONASINE TUCDOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTIBE

如果我们考虑到前面两个语言符号对于后面一个语言符号出现概率的影响,这样得出的语言符号的链,就是二重Markov链。英语字母的二重Markov链如下:

          IN NO IST LAT WHEY CRATICT FROUREBIRS CROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOAQCTIONA OF CRE

  如果我们考虑到前面三个语言符号对于后面一个语言符号出现概率的影响,这样得出的语言符号的链,就是三重Markov链。类似地,我们还可以考虑前面四个语言符号、五个语言符号、...... 对后面的语言符号出现概率的影响,分别得出四重Markov链、五重Markov链、...... 等等。

    随着Markov链重数的增大,每一个重数大的英语语言符号的链都比重数小的英语语言符号的链更接近于有意义的英语文本。这种情况,当语言符号是单词的时候,我们可以看得更加清楚。

    例如,如果语言符号是英语的单词,那么,英语单词的不等概率独立链如下:

REPRESENTING AND SPEEDILY IS AN GOOD APT OR CAME CAN DIFFERENT NATURAL HERE HE THE A IN CAME THE TOOF TO EXPERT GRAY COME TO FURNISHES THE MESSAGE HAD BE THESE

英语单词的一重Markov链如下:

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHARACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERS THAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED

英语单词的二重Markov链如下:

FAMILY WAS LARGE DARK ANIMAL CAME ROARING DOWN THE MIDDLE OF MY FRIENDS LOVE BOOKS PASSIONATELY EVERY KISS IS FINE

英语单词的四重Markov链如下:

ROAD IN THE COUNTRY WAS INSANE ESPECCIALLY IN DREARY ROOMS WHERE THEY HAVE SOME BOOKS TO BUY FOR STUDYING GREEK

不难看出,这个链已经很像英语了,尽管它仍然是没有意义的单词链,但是,它比起其他的单词链来,更容易记忆。

那么,Markov链的重数究竟有多大,才能得出令人满意的英语句子呢?我们来考虑如下的英语句子:

 The people who called and wanted to rent your house when you go away next year are from California. 

 在这个句子中,语法上的相关性从第二个单词people一直延伸到第十七个单词are,为了反映这种相关性,至少需要十五重Markov链。在一些情况下,Markov链的重数可能还要更大。

随机过程的一个重要特征是前后符号的相关性,从语言文本产生的历史,预测这个语言文本的将来。随着Markov链重数的增大,我们越能根据前面的语言符号预测下一个语言符号的出现情况,也就是说,随着Markov链重数的增大,我们根据前面的语言符号来预测下一个语言符号出现的这个随机试验的不肯定性越来越小,至于那些不是Markov炼的独立链,其语言符号的出现情况是最难预测的,也就是说,每一个语言符号出现的不定度是很大的。

在信息论中,信息量的大小,恰恰就是用在接到消息之前,随机试验不定度的大小来度量的。随机试验不定度的大小,叫做“熵”(entropy)。在接收到语言符号之前,熵因语言符号数目和出现概率的不同而不同,在接收到语言符号之后,不定度被消除,熵等于零。可见,信息量等于被消除的熵,因此,只要我们测出了语言符号的熵,就可以了解该语言符号所负荷的信息量是多少了。

早在1928年,L. Hartley(哈特利)就提出了如何测量信息量大小的问题。他认为,如果某个装置有D个可能的位置或物理状态,那么,两个这样的装置组合起来工作就会有D2个状态,三个这样的装置组合起来工作就会有D3个状态,随着装置数量的增加,整个系统的可能的状态树木也相应地增加。为了测定其信息能力,要使2D个装置的能力恰恰为D个装置的能力的2倍。因此,Hartley把一个装置的信息能力定义为logD,其中,D是整个系统可以进入的不同的状态数目。

在信息论中,Shannon采用了Hartley的这种办法来测定熵值。

Shannon提出,如果我们做某一有n个可能的等概率结局的随机试验(例如,掷骰子,n=6),那么,这个随机试验的熵就用log2n来度量。这种度量熵的方法是合理的。理由如下:

第一,随机试验的可能结局n越大,这个随机试验的不定度也就越大,因而它的熵也就越大。

第二,如果我们同时做包含两个随机试验的复合试验,每一个随机试验有n个可能的结局(例如,同时掷两颗骰子),那么,这个复合试验有n2个结局,其熵等于 ,即等于只掷一颗骰子时的二倍,这与Hartley的看法完全一致。

第三,如果我们同时做包含两个随机试验的复合试验,一个随机试验有m个可能结局,另一个随机试验有n个可能结局(例如,投硬币时,m=2;掷骰子时,n=6),那么,这个复合试验有m·n个可能的等概率结局,也就是说,这个复合试验的熵应该等于log2mn,另一方面,我们又可以认为,这个复合试验结局的熵应该等于构成这个复合试验的两个随机试验结局的熵之和,即等于log2m + log2n。但是,我们知道,

    

可见,复合试验结局的熵,不论是把它看成一个统一的试验,还是看成两个随即试验的总和,都是相等的。

这些事实都说明了我们用log2n来度量熵的合理性。

我们把有n个可能的等概率结局的随机试验的熵记为H0

                                        (1)

在这个公式中,当n=2时,

                    

这时的熵,叫做1比特。

这意味着,如果某一消息由两个等概率的语言成分构成,那么,包含于每一个语言成分中的熵就是1比特。

如果随机试验有n个结局,而且,它们是不等概率的,那么,第i个结局的概率为pi,那么,这个随机试验的熵H1用下面的公式来计算:

                                 (2)       

1951年,Shannon首先应计算出英语字母的不等概率独立链的熵H14.03比特。

随机试验结局不等概率,减少了这个随机试验的不定度,因此,有不等式:

       (3)             

p1=p2==pn= 时,

 

对于计算机科学工作者来说,定义熵的最直观的办法,就是把熵想像成在最优编码中一定的判断或信息编码的比特数的下界。

       假定我们想在我们住的地方给赛马场的赛马下赌注,但是赛马场距离我们住的地方太远,我们不亲自到赛马场去,只好在我们住的地方给赛马场登记赌注的人发一个短的消息,告诉他我们给哪匹马下赌注。

假定有八匹马参加比赛。给这个消息编码的一个办法是用二进制代码来表示马的号码;这样,号码为1的马的二进制代码是001,号码为2的马的二进制代码是010,号码为3的马的二进制代码是011,等等,号码为8的马的二进制代码是000。如果我们用一天的时间来下赌注,每一匹马用比特来编码,每次比赛我们要发出3比特的信息。

       我们能不能把这件事做得好一点呢?我们可以根据赌注的实际分布来传送消息,假定每匹马的先验概率如下(图2-10);

 

              1        1/2                 5        1/64

              2        1/4                 6        1/64

              3        1/8                 7        1/64

              4        1/16               8        1/64  

            马的先验概率

 

对于这些马的随机变量X的熵可以让我们知道其比特数的下界,计算如下:

 

+ =

= 2比特

 

每次比赛平均为2比特的代码可以这样来编码:用最短的代码来表示我们估计概率最大的马,估计概率越小的马,其代码越长。例如,我们可以用0来给估计概率最大的马编码,按照估计概率从大到小的排列,其余的马的代码分别为:101101110111100111101111110111111

如果我们对于每一匹马的概率估计都是一样的,情况将如何呢?前面我们已经看到,如果对于每一匹马,我们都使用等长的二进制编码,每匹马都用3比特来编码,因此平均的比特数为3。这时的熵是一样的吗?是的,在这种情况下,每匹马的估计概率都是1/8。我们选择马的熵是这样计算的:

 

     

由这个例子我们就可以理解为什么会有:

                 

与熵有密切关系的是“困惑度”(perplexity)这个概念。如果我们把熵H作为2的指数,那么,2H这个值就叫做困惑度。从直觉上,我们可以把困惑度理解为在随机试验中选择随机变量的加权平均数。因此,在等概率估计的8匹马之间进行选择(这时,熵 H=3比特),困惑度为23,也就是8。在概率有差异的8匹马之间进行选择(这时,熵H=2比特),困惑度是22,也就是4。显然,一个随机试验的熵越大,它的困惑度也就越大。

在自然语言处理中,熵和困惑度是用于评估N元语法模型的最普通的计量方法。

    如果考虑到前面的语言符号对后面的语言符号出现概率的影响,那么,可得出条件熵,Markov链的熵就是条件熵,具体地说,其计算公式可以简明地写为:

                                 

  其中,bi(n-1) 是由 n-1 个结局构成的组合,在它后面有第 j 个结局,P[bi(n-1),j]是这个组合出现的概率,Pbi(n-1)(j) 是在由前面 n-1 个结局构成的组合之后,第个结局出现的条件概率。

  根据这个公式,我们可以分别就一重Markov链(二元语法)、二重Markov链(三元语法)、三重Markov链(四元语法),...... 分别算出一阶条件熵(H2)、二阶条件熵(H3)、三阶条件熵(H4)......等等。

  一阶条件熵按下面公式来计算:

                       (4)  

  其中,Pij  表示在文本中一切可能的双语言符号组合的出现概率,Pi(j) 表示在前面语言符号为 i 的条件下,语言符号 j 出现的条件概率。

  二阶条件熵按下面的公式来计算:

                           (5)

  其中,Pijk   表示一切可能的三语言符号组合的出现概率,Pij(k) 表示在语言符号 i, j 之后,语言符号 k 出现的条件概率。

  随着Markov链重数的增大,条件熵越来越小,我们总是有:

            (6)      

     这说明,每在前面追加一个语言符号,不会使包含在文本中一个语言符号的熵有所增加。另一方面,因为包含在文本的一个语言符号中的熵在任何场合总是正的,所以,存在着关系式:

                                       (7)       

  也就是说,熵是有下限的。当 k 逐渐增加时,熵逐渐趋于稳定而不再减少,这时,这个不再减少的熵就是包含在自然语言一个符号中的真实信息量,叫做极限熵。

  从等概率独立链的熵到不等概率独立链的熵,从不等概率独立链的熵到一阶条件熵,从一阶条件熵到二阶、三阶、......,一直到极限熵,是语言信息结构化的体现,它反映了语言的结构对于语言的信息的制约性。极限熵的概念,科学地把语言结构的这种制约性反映在语言符号的熵值中,它对于自然信息处理的研究具有重要的意义。

在很多场合,我们需要计算单词序列的熵;例如,对于一个语法来说,我们需要计算单词的序列W={... w0,w1,w2, ... ,wn}的熵,其中,w0,w1,w2, ... ,wn表示不同的单词。我们的办法之一是让变量能够覆盖单词的序列。例如,我们可以仿照上面的方法来计算在语言L中长度为n的单词的一切有限序列的随机变量的熵。计算公式如下:

          (8)     

我们可以把熵率(entropy rate)定义为用单词数n来除这个序列的熵所得的值(我们也可以把熵率想象成每个单词的熵):

                               (9)      

但是为了计算一种语言的极限熵,我们需要考虑无限长度的序列。如果我们把语言想象成产生单词序列的随机过程L,那么,它的熵率H(L)可定义为:

 

                (10)

Shannon-McMillan-Breiman(香农-麦克米兰-布莱曼)定理指出,如果语言在某种意义上是正则的(确切地说,如果语言既是平稳的,又是遍历的),那么有:

                               (11)

这意味着,我们可以取语言中一个足够长的序列来替代该语言中所有可能的序列的总合。Shannon-McMillan-Breiman定理的直觉解释是:一个足够长的单词序列可以在其中包含其他很多较短的序列,而且每一个这些较短的序列都可以按照它们各自的概率重复地出现在较长的序列之中。

如果随着时间的推移,随机过程指派给序列的概率是不变的,那么就说,这个随机过程是平稳的(stationary)。换言之,在平稳随机过程中,单词在时间t的概率分布与在时间t1的概率分布是相同的。Markov模型以及N元语法的概率分布都是平稳的。例如,在二元语法中,Pi只依赖于Pi1 因此,如果我们把时间的索引号移动到xPix仍然依赖于Pix1。然而自然语言却不是平稳的,在自然语言中,下一个单词的概率可能依赖于任意距离的事件并且依赖于时间。所以,我们的统计模型对于自然语言的正确分布和熵的描述,都是近似的。

最后,使用这种尽管不正确但是非常方便的简单假设,我们就能够取一个很长的输出样本,来计算某个随机过程的极限熵,并且计算它的平均对数概率。

我们在前面说过,某个模型的交叉熵可以用来作为某个随机过程的极限熵的上界。我们可以使用这样的方法来估计英语的极限熵。

为什么我们要关心英语极限熵呢?

第一个原因是英语的极限熵将为我们对概率语法的试验提供一个可靠的下界。另一个原因是我们可以利用英语极限熵帮助理解语言中的哪一部分提供的信息最大。例如,判断英语的预测能力主要是依赖于词序,还是语义,还是形态,还是组成符号,还是语用方面的线索?这可以大大地帮助我们了解我们的语言模型应该着重研究哪一方面。

计算英语极限熵的方法通常有两种。

第一种方法是Shannon使用的方法,这是他在信息论领域的开创性工作的一部分。他的思想是利用受试人来构造一个信息试验,要求受试人来猜测字母,观察他们的猜测的字母中有多少是正确的,从而估计字母的概率,然后估计序列的熵值。

实际的试验是这样来设计的:我们给受试人看一个英语文本,然后要求受试人猜测下一个字母。受试人利用他们的语言知识来猜测最可能出现的字母,然后猜测下一个最可能的字母,如此等等。我们把受试人猜对的次数记录下来。Shannon指出,猜测数序列的熵与英语字母的极限熵是相同的。Shannon这种观点的直觉解释是:如果受试人做n个猜测,那么,给定猜测数序列,我们能够通过选择第n个最可能的字母的方法,重建原来的文本。这样的方法要求猜字母而不是猜单词,受试人有时必须对所有的字母进行穷尽的搜索!所以,Shannon计算的是英语中每个字母的极限熵,而不是英语中每个单词的极限熵。他报告的结果是:英语字母的极限熵是1.3比特(对于27个字母而言[26个字母加上空白])。Shannon 的这个估值太低了一些,因为他是根据单篇的文本(Dumas Malose的《Jefferson the Virginian》)来进行试验的。Shannon还注意到,对于其他的文本(新闻报道、科学著作、诗歌),他的受试人往往会猜测错误,因此这时的熵就比较高。

第二种计算英语的熵的方法有助于避免导致Shannon 结果失误的单篇文本的问题。这个方法使用一个很好的随机模型,在一个很大的语料库上训练这个模型,用它给一个很长的英语序列指派一个对数概率,计算时使用Shannon-McMillan-Breiman定理:

            

例如,Brown(布朗)等在58,300万单词的英语文本上(293,181个“型”[type])训练了一个三元语法模型,用它来计算整个Brown语料库的概率(1,014,312个“例”[token])。训练数据包括新闻、百科全书、小说、官方通信、加拿大议会的论文集,以及其他各种资源。

       然后,他们使用词的三元语法给Brown语料库指派概率,把语料库看成是一个字母序列,从而来计算Brown语料库的字符的熵。他们得到的结果是:每个字符的极限熵为1.75比特(这里的字符集包含了95个可印刷的全部ASCII 字符)。这是在三元语法的情况下英语字母的条件熵。显而易见,这个条件熵比Shannon测出的极限熵1.3比特要大一些,而且Brown使用的字符集是ASCII 字符集,包含95个字符,很多字符超出了英语26个字母的界限。

大多数文献报道,包含在一个英语字母中的极限熵大约在 0.9296比特到1.5604比特之间,其平均值为 1.245比特,这个计算结果与Shannon测定的结果(1.3比特)相近,我们一般都采用这样的计算结果。

    在实践的迫切要求下,继Shannon测出了英语字母的不等概率独立链的熵H1之后,人们又测出了一些印欧语言的熵。到目前为止,英语已经测出了九阶条件熵,俄语已经测出了十四阶条件熵。下面,我们把法语、意大利语、西班牙语、英语、德语、罗马尼亚语、俄语的不等概率独立链的熵H1列表比较如下(表2-2):


 

中国冯志伟在上世纪70年代,模仿香农对于英语字母的熵的研究,采用手工查频的方法首次估算出汉字的熵H19.65比特,并提出了“汉字容量极限定理”。他根据Zipf定律,使用数学方法,证明了当统计样本中汉字的容量不大时,包含在一个汉字中的熵H1随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵H1就不再增加了,这意味着,在测定汉字的熵H1的时候,统计样本中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字的熵再也不会增加了,在这12366个汉字中,有4000多个是常用字,4000多个是次常用字,4000多个是罕用字。他认为,这12366个汉字可以代表古代和现代文献中汉字的基本面貌由此他得出结论:从汉语书面语总体来考虑,在全部汉语书面语中(包括现代汉语和古代汉语),包含在一个汉字中的熵H19.65比特。当然,这只是冯志伟的一个不成熟猜测。

1988年,北京航空学院计算机系刘源使用计算机自动查频计算出汉字的熵H19.71比特,1994年,新加坡国立大学计算机系赖金锭使用计算机计算出汉字的熵H19.59比特,他们的结果与冯志伟原来用手工查频方法猜测的结果是很接近的。

1996年,冯志伟还根据汉语与英语文本对比,首次估算出汉字的极限熵为4.0462比特;2006年,清华大学计算机系孙茂松、孙帆在大规模语料库(106-107汉字)的基础上,使用Brown的方法估算出汉字的极限熵为5.31比特,这个结果更为准确。

根据Shannon信道编码定理,在编码时,码字的长度不能小于符号的熵H1。汉字的熵H19.65比特,大于一个字节(1字节=8比特),因此,汉字不能像英文字符那样采用单字节编码,而必须采用双字节(2字节=16比特)编码或者三字节编码,冯志伟测定汉字熵的工作为20世纪80年代信息处理用汉字编码字符集的制定采用双字节编码提供了理论根据。

冯志伟还发现,文本的阅读速度V与字符的熵H1存在着反比关系,在不同字符的文本阅读中,字符的熵越小,阅读速度越快,字符的熵越大,阅读的速度越慢,阅读速度v与字符的熵H1的乘积是一个常数,这个常数k反映了人们阅读文本字符的能力,在不同字符的文本阅读中,尽管字符各有差异,所有的人阅读文本字符的能力是大致相同的。因此,应当存在下列的公式:

                     VH1 = k

这个公式反映了使用不同字符的人们阅读字符的一个普遍规律。当然,这只是冯志伟的一个大胆的假设,有待科学实验来检验。

熵是信息量的度量,在自然语言处理中,熵是用来刻画语言数学面貌的非常有价值的数据。熵可以用来度量一个特定的语法中的信息量是多少,度量给定语法和给定语言的匹配程度有多高,预测一个给定的N元语法中下一个单词是什么。如果有两个给定的语法和一个语料库,我们可以使用熵来估计哪一个语法与语料库匹配得更好。此外,我们可以使用熵来比较两个语音识别任务的困难程度,也可以使用它来测量一个给定的概率语法与人类语法的匹配程度,还可以使用它来估计人们阅读文本字符的能力的大小。


 

Markov用数学方法研究《欧根奥涅金》

$
0
0

Markov用数学方法研究《欧根 奥涅金》


冯志伟

早在1913年,俄国著名数学家 A. A. Markov(А.А.МАРКОВ马尔可夫,1856-1922,2-1)就注意到语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论。

Markov出生于俄罗斯的梁赞,他的父亲是一位中级官员,后来举家迁往圣彼得堡。1874Markov入圣彼得堡大学,毕业后留校任教。1886年当选为圣彼得堡科学院院士。Markov的主要研究领域在概率和统计方面。他的研究开创了随机过程这个新的领域,以他的名字命名的Markov链在现代工程、自然科学和社会科学各个领域都有很广泛的应用

                    

                       

为了研究随机过程这个数学问题,他在汗牛充栋的众多文学作品中进行选择,选中了著名俄罗斯诗人А.ПУШКИН(普希金)脍炙人口的叙事长诗《欧根·奥涅金》(图2-2),作为他研究数学问题的素材。

                      

                         

Markov把《欧根·奥涅金》中的连续字母加以分类,把元音记为 V,把辅音记为 C,然后,以连续字母为统计单元进行计算,研究元音和辅音字母出现概率之间的相互影响。由于当时还没有计算机,也没有大规模的语料库,所以 ,Markov只得使用手工查频的方法,统计了由元音和辅音字母组成的三字母序列在《欧根·奥涅金》中的出现次数,得到了如下的元辅音序列表(其中N表示字母序列的记数,即Count Number):  


从这个表中可以看出,在统计文本的总字母出现次数(包括元音和辅音)为 20000 次,其中,元音字母出现 8038 次,辅音字母出现 11362 次;当元音字母之后为元音字母时,字母序列 VV 出现 1104 次;当元音字母之后出现辅音时,字母序列VC 出现 7534 次;当字母序列VV 之后为元音字母时,字母序列 VVV 出现 115 次;当字母序列 VV 之后为辅音字母时,字母序列 VVC出现 989 次;...... 等等。

  根据上表中的数据,可以计算出有关元音字母和辅音字母出现的概率。

  例如,元音字母的出现概率为:

 

      

        

  元音字母在辅音字母之后的出现概率为

 

              

 

  元音字母在元音字母之后的出现概率为

 

           

 

  显而易见,在俄语中,元音字母在辅音字母之后出现的概率大于元音字母在元音字母之后出现的概率。Markov的这个表,确切地说明了元音字母和辅音字母之间出现概率的相互影响。

  上面的现象可以概括成随机过程加以研究。

  随机过程有两层含义:

  第一,它是一个时间的函数,随着时间的改变而改变;

  第二,每个时刻上的函数值是不确定的,是随机的,也就是说,每一时刻上的函数值按照一定的概率而分布。

  在我们写文章或讲话的时候,每一个字母(或音素)的出现随着时间的改变而改变,是时间的函数,而在每一时刻上出现什么字母(或音素)则有一定的概率性,是随机的,因此,我们可以把语言的使用看成一个随机过程。

  在这个随机过程中,所出现的语言符号是随机试验的结局,语言就是一系列具有不同随机试验结局的链。

  如果在随机试验中,各个语言符号的出现彼此独立,不相互影响,那么,这种链就是独立链。

  如果在独立链中,每个语言符号的出现概率相等,那么,这种链就叫做等概率独立链。

  如果在独立链中,各个语言符号的出现概率不相等,有的出现概率高,有的出现概率低,则这种链叫做不等概率独立链。

  在独立链中,前面的语言符号对后面的语言符号没有影响,是无记忆的,因而这种独立链是由一个无记忆信源发出的。这种独立链是一种没有后效的随机过程,在已知的当前状态的情况下,过程的未来状态与它过去的状态无关,这是一种原始形式的Markov过程。

Markov对于《欧根·奥涅金》中的元音和辅音系列的研究突破了原始形式的Markov过程,过程的未来状态与它过去的状态是有关系的。这样,就把Markov过程的研究向前推进了一步。

  在如像《欧根·奥涅金》中的元音和辅音系列这样的随机试验中,每个语言符号的出现概率不相互独立,每一个随机试验的个别结局依赖于它前面的随机试验的结局,那么,这种链就叫做“Markov链”(Markov chain)。

Markov链中,前面的语言符号对后面的语言符号是有影响的,这种链是由一个有记忆信源发出的。这正是Markov研究《欧根·奥涅金》的字母序列所面临的情况。正如Markov所指出的,语言就是由这种有记忆信源发出的Markov链。

  如果我们只考虑前面一个语言符号对后面一个语言符号出现概率的影响,这样得出的语言成分的链,叫做一重Markov链,也就是二元语法。

  如果我们考虑到前面两个语言符号对后面一个语言符号出现概率的影响,这样得出的语言符号的链,叫做二重Markov链,也就是三元语法。

  如果我们考虑到前面三个语言符号对后面一个语言符号出现概率的影响,这样得出的语言符号的链,叫做三重Markov链,也就是四元语法。

  类似地,我们还可以考虑前面四个语言符号、五个语言符号、...... 对后面的语言符号出现概率的影响,分别得出四重Markov链(五元语法)、五重Markov链(六元语法)、...... 等等,依此类推。

    随着Markov链重数的增大,随机试验所得出的语言符号链越来越接近有意义的自然语言文本。

美国语言学家N. Chomsky和心理学家G. Miller (米勒)指出,这样的Markov链的重数并不是无穷地增加的,它的极限就是语法上和语义上成立的自然语言句子的集合。这样,我们就有理由把自然语言的句子看成是重数很大的Markov链了。Markov链在数学上刻画了自然语言句子的生成过程,是一个早期的自然语言的形式模型,后来的很多研究(例如,“N元语法”的研究),都是建立在Markov模型的基础之上的。


 

语言计算研究的先驱

$
0
0

   语言计算研究的先驱


冯志伟

 

在电子计算机出现之前,就有一些具有远见卓识的学者研究过语言的计算问题,他们从计算的角度来研究语言现象,揭示语言的数学面貌。

1847年,俄国数学家B. Buljakovski(布良柯夫斯基)认为可以用概率论方法来进行语法、词源和语言历史比较的研究。

1851年,英国数学家A. De Morgen(摩尔根)把词长作为文章风格的一个特征进行统计研究。

1894年,瑞士语言学家De Saussure(德索绪尔)指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的《普通语言学教程》中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。

1898年,德国学者F.W. Kaeding(凯定)统计了德语词汇的在文本中的出现频率,编制了世界上第一部频率词典《德语频率词典》。

1904年,波兰语言学家Baudouin de Courtenay(博杜恩库尔特内)指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学,他表示坚信,语言学将日益接近精密科学,语言学将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。

1933年,美国语言学家L. Bloomfield(布龙菲尔德)提出一个著名的论点:“数学只不过是语言所能达到的最高境界”。

1935年,加拿大学者E.Varder Beke(贝克)提出了词的分布率的概念,并以之作为词典选词的主要标准。

1944年,英国数学家 G.U.Yule(尤勒)发表了《文学词语的统计分析》一书,大规模地使用概率和统计的方法来研究词汇。

这些事实说明,关于语言计算的思想和研究是源远流长的。

在本章中,我们着重讨论三项最值得我们重视的关于语言计算的先驱性研究,它们是:俄国数学家A. A. Markov(马尔可夫)关于马尔可夫链的研究,美国学者G.K.Zipf(齐夫)关于Zipf定律的研究,美国科学家Shannon(香农)关于熵的研究。这些先驱性的研究为尔后的自然语言处理形式模型的研究奠定了初步的基础。


 

Zipf定律

$
0
0

Zipf定律


冯志伟


20世纪初,随着不同语言中有关词的资料的大量积累以及频率词典的编纂,学者们便试图从理论上把这些语言材料中的事实从数学的角度加以总结。

在频率词典中,词的出现频率与词的序号是两个最基本的数据,它们刻画出了一个单词在词表中的性质,因此,学者们着重地研究了词表中着两个基本数据之间的相互关系,提出了词的频率分布规律。

J. Estoup(艾思杜),E. Condon(贡东),G.K. Zipf(齐夫),M. Joos(朱斯)和B. Mandelbrot(曼德布罗特)等学者先后对于这个问题做了探索。

1916年,法国速记学家J.Estoup 在从事速记文字体系的改善的研究中,观察到如下的规律:

假设有一个包含N个单词的文本(N应当充分地大),按这些单词在文本中出现的绝对频率的顺序n递减的顺序,把它们排列起来,并且按照自然数的顺序从1(绝对频率最大的单词)到L(绝对频率最小的单词)编上序号,造出这个文本中单词的词表。单词的频率用n表示,单词的序号用r表示,r可以取区间 内的全部自然数的值。频率词表的形式如下(图2-3):

 

单词的序号 1  2     ……………   r   ……………    L

单词的频率  n1 n2     ……………   nr   ……………   nL

 

 

 


 

                  频率词表

J. Estoup发现,单词的绝对频率nr与它相应的序号之间r的乘积大体上稳定于一个常数k,即

                       

1928年,美国贝尔电话公司物理学家E.Condon在研究提高电话线路通信能力的工作中发现了一个有趣的规律。

他根据单词的频率统计资料,做出了如下的函数图表(遗憾,公式和图表都不能显示):

 


 

横坐标记录单词的序号的对数log r,纵坐标记录单词的绝对频率的对数log nr,之所以采用对数,是为了使比例适当。例如,当r=1时,n=104,而当r=LL很大)时,nr=1,在坐标图上画起来很不方便,但是如果用对数表示,两者的悬殊就不太大,便于在坐标图上画出来。

    E.Condon发现,log rlog nr的分布关系接近于一条直线AB

    x = log r, y = log nr,

    OB = log kk是一个常数)

    直线与x轴在反方向上的夹角为α,

    tgα=γ,则有

根据直线的截距式方程,显然有

       

     

因而有

经过多次试验,发现α=45º,即

故上式变为  

用所考察的文本的总长度N除以等式两边,得到:

乃是常数,令

则得到

                         (2)

ECondon说明,公式(2)中的c是作为一个常数来处理的,但是,c是否为一个常数,还需要更多的试验来检验它。

1935年,美国哈佛大学教授、语言学家G.K.Zipf1902-1950)首先来检验E. Condon的结果。他根据M. HanleyJ. Joyce的中篇小说《尤利西斯》(Ulysses)一书所编的频率词典,文本容量为260,432个词,词典中收不同的单词29,899 [1],他在比E. Condon的文本规模大得多的基础上,来检验E. Condon的结果。

                        

                                 

G.K. Zipf根据有关的数据做出了类似于E. Condon所画的那种函数图表(图2-6

            

             

G. K. Zipf的结果与E. Condon的结果相同,即

                

当试验次数 时,频率fr变成了概率pr, 故有公式

                

接着,G. K. Zipf来测定c的值,开初,他指出,在上面的公式中,当r-1时,

可见,c就是序号为1的单词的概率,也就是在文本中出现频率最高的那个单词的概率。G.K. Zipf测出了c=0.1,因而认为c是一个常数。这样,他得出的结论与E. Condon的结论几乎是完全一致的,因为E. Condon也认为c是一个常数,他与E. Condon不同之处在于,他使用的语料规模比E. Condon大,而且他具体地测出了c的数值应该等于0.1

然而,后来大量的事实说明,大多数欧洲语言,序号为1的单词的相对频率一般都小于0.1,几乎没有一种欧洲语言的序号为1的单词的相对频率为0.1。因此,后来Zipf对他原来的说法做了修正,他指出,c不是一个常数,而是一个参数,它的值的区间为

          0

对于r = 1, , n, 这个参数c使得

        

这个单参数频率分布定律,在大部分的计算语言学和自然语言处理的文献中,被称为“Zipf(齐夫)定律”(Zipf’s law)。

1936年,就在G.K. Zipf发表其成果不久,美国语言学家M. Joos就对Zipf的公式进行了修正。

M. Joos指出,在Zipf公式

中,不仅c是一个参数,而且r的负指数-1中的1也是一个参数γ。这是因为,当词典收词多的时候,γ会增大,即图象中的α角会增大,当词典收词少的时候,γ会减少,即图象中的α角会变小,可见,γ并不永远等于1,α角并不永远都是45º,也就是说,γ并不是一个常数而是一个参数,若令这个参数γ=b,则有

           (3)

其中,b>0, c>0, 对于r = 1, , n, 参数b, c要使

                                                

这就是M. Joos的双参数频率分布定律。

M. Joos的公式中,当b=1时,公式变为

                                  

这就是Zipf的公式,因此,Zipf公式只不过是Joos公式当b=1时的一种特殊情况,所以,Joos 公式也可以叫做双参数Zipf定律。

20世纪50年代初期,英籍法国数学家B. B. Mandelbrot利用概率论和信息论方法来研究词的频率分布规律。他把单词看成是以空白为结尾的字母的随机序列,又把句子看成是用单词来编了码的单词的随机序列,把文章看成是由句子的增消过程而形成的句子的随机序列。从这样的观点出发,B.B. Mandelbrot通过严格的数学推导,从理论上提出了三参数频率分布定律,其形式是:

                             (4)

其中,0a<1, b>0, c>0 ,对于 r = 1,, n, 参数a, b, c要使

               

a, b, c三个参数的含义如下:

-- 参数c与出现概率最高的单词的概率的大小有关;

-- 参数b与高概率单词的数量的多少有关,对于r<50的高概率单词,b是非减函数,随着r的增大,参数b并不减小;

-- 参数a与单词的数量 N有关,由于a的选择自由较大,因而公式的灵活性很大,更能在各种条件下适应测定的数据。

B.B. Mandelbrot的公式中,

a=0时,公式形式为

                           

这就是Joos公式,它是双参数的Zipf定律。

a=0, b=1时,公式形式为

                           

这就是Zipf公式,它是单参数的Zipf定律。

可见,Joos 公式和Zipf公式,只不过是Mandelbrot公式的特殊形式。Mandelbrot公式就是三参数的Zipf定律。

       当然,关于词的频率分布问题是比较复杂的。上述公式并不能完全地反映其分布规律。例如,从公式看来,一个r的值只能对应于一个pr的值,因此,公式本身的性质决定了文本中不能存在频率相同的单词,这与语言的客观事实显然是不符合的。试验证明,当15的时候,频率相同的词群容量不大,但是,当r>1500时,也就是当单词的频率比较小的时候,频率相同的词群的容量就大大增加了。这时,就会出现数据稀疏的问题。可见,上述各个公式都不能用来描述低频率的单词的频率分布情况,事实上,前面的函数图象应该为如下的形式(图2-7):

 

                   2-7  AB实际上是一条破碎折线

 

实际上,AB并不是一条直线,而是一条阶梯形的破碎折线。从图中可看出,序号高的低频率单词,不同的序号很可能具有相同的低频率,因而这些低频率单词,序号不同而频率相同的很多,而序号低的高频率单词,频率相同的词随着序号的增高越来越多。越是频率低的单词,序号相同的越多,越是频率高的单词,序号相同的越少。这种事实,用上述各个公式都不能很好地描述。可见,词的频率分布规律尽管为频率词典的结构建立了一个初步的形式模型,但是,这个形式模型还不完善,还有必要进一步加以研究。

Mandelbrot公式

 

中,如果通过试验测得某种语言的a=0, b=1, c=0.1,则得

                                  

我们来计算频率最高的头1000个单词在该语言文本中占全部单词总数的百分比:

                           

可见,对于这种语言来说,频率最大的头1000个单词占了该语言文本的中全部单词总数的74.8%。也就是说,只要认识了这1000个使用频率最高的常用词,就可以读懂这种语言文本中的绝大部分内容。根据Zipf定律得出的这个结论,对于语言学习和外语教学是很有参考价值的。

当然,要真正读懂一篇文章,除了认识单词之外,还需要具备语法、语义、语用和其他背景知识,语言学习仍然是一件很不容易的事情。语言不是轻而易举就可以学好的,非下苦功不可。

冯志伟早在80年代就注意到Zipf定律,并于1983年写文章介绍这个定律 [2]。这是中国学者关于Zipf定律的最早的论文。

遗憾,这里不能显示公式和图标。

[1] M. Hanley《詹姆斯·裘易士的“尤利西斯”词汇索引》(Word index to James Joyce’s Ulysses)。

[2] 冯志伟. 齐普夫定律的来龙去脉. 情报科学.1983, (2).

 


 
Viewing all 562 articles
Browse latest View live