神经机器翻译中的词向量
冯志伟
2007年以来,采用深度学习的方法,以大规模的双语对齐的口语语料库作为语言知识的来源,从双语对齐的口语语料库中获取翻译知识,研制了神经机器翻译(Neural Machine Translation, NMT)系统,机器翻译的水平大大提高,口语神经机器翻译正确率已经超过了
90%,针对日常口语的神经机器翻译基本上已经可以付诸实用了,引起了自然语言处理学界的触目(冯志伟, 2018)。神经机器翻译系统的翻译原理如图12所示:
图12 神经机器翻译系统的原理(略)
图12中,e表示源语言英语,f表示目标语言法语,把e翻译为f通过一个“黑箱”(black box)来进行,这个“黑箱”从双语对齐语料库(corpora)中获取知识,把语言序列e翻译成语言序列f。例如,把英语的语言序列Economic growth has slowed down in recent years翻译成法语的语言序列 La croissance économique s’est ralentie ces dernières années。那么,这个“黑箱”的内幕究竟是什么呢?
目前,我们对于这个“黑箱”的内幕还不十分清楚,但是,初步的研究发现,这个“黑箱”就是通过词向量来表示单词信息的多层次神经网络,使用了如下的编码-解码框架:
图13 神经机器翻译系统的编码-解码框架(略)
在图13的编码-解码框架中,-W的左侧是编码器(encoder),-W的右侧是解码器(decoder)。A, B, C, 表示源语言的输入序列,X, Y, Z, 表示目标语言的输出序列,表示一个句子的终结符(End Of Sentence)。W是编码器对输入语言序列A, B, C, 编码的词向量表示,这样的词向量表示W在解码器中进行解码,得到线性化的目标语言的输出。这样看来,这个编码-解码框架的核心就是词向量。
构造单词的向量化特征表示也就是进行“词嵌入”(word embedding)。“嵌入”本来是一个数学上的概念,表示形如f(X) àY这样的函数,该函数需要满足“单射”(injection)和“结构保持”(structure preserving)的特征。“单射”要求函数f(X) àY中的每一个X的值只有一个Y的值与之对应。“结构保持”也叫做“态射”(morphism),是一个与具体任务有关的概念,例如,在输入空间中存在某种偏序关系,如果对于任意的偏序关系X12, 都存在偏序关系Y12,那么,就可以说在这个偏序关系上满足了“结构保持”的特征。在NMT系统中,“词嵌入”可以满足数学中“结构保持”的特征,能够把自然语言中的每一个单词映射到N维空间中的一个向量,并且在这个N维空间中形式化地定义自然语言的单词与单词之间的相互关系,而这样的关系又符合我们日常的语言直觉,从而满足了“结构保持”特征。由于词向量可以表示源语言句子和目标语言句子的上下文信息,N维空间的维数越高,源语言句子与目标语言句子的相似度就越大,充分地满足了词嵌入的“结构保持”特征,因而有效地保证了输入端的源语言句子能够在输出端翻译成与之最接近的目标语言句子,从而提高机器翻译的准确度和忠实度。自然语言处理通过“词向量”和“词嵌入”这样的手段,把传统语言学中“价值”和“分布”的概念用到极致,终于产生了这样突出的效果。
由此可见,词向量是我们打开NMT这个“黑箱”的一把钥匙,通过对于词向量的深入研究,可以帮助我们揭开NMT这个“黑箱”的神秘面纱。而词向量的语言学根据是“价值”和“分布”的概念,从这个意义上,我们可以说,NMT在理论上是与语言学有着密切关系的,促进神经机器翻译与语言学的结合,有助于我们进一步提高神经机器翻译研究的理论水平。
参考文献
1. Bloch B.,G.L.Trager,1942. Outline of Linguistic Analysis,p60, Baltimore.
2. Church K. W., F. Hanks, 1989. Word association norms, mutual information, and lexicography, ACL-89, Vancouver, B. C., p76-83.
3. Dagan I., L. Lee, and F. C. N. Peraira, 1999. Similarity-based models of cooccurrence probabilities, Machine Learning, 34(1-3), p43-69.
4. Firth J. R., 1957. A Synopsis of linguistic theory 1930-1955
5. Harris Z., 1951. Methods in Structural Linguistics.
6. Harris Z., 1954. Distributional structure, Word, 10, 146-162.
7. Harris Z.,1963. Structural Linguistics.
8. Joos M., 1950. Description of Language design, JASA, 22. 701-708.
9. Mikolov T, K. Chen, G. Corrado, et al., 2013, Efficient Estimation of Word Representation in Vector Space, Computer Science.
10. Nida E. A., 1975. Componential Analysis of Meaning: An Introduction to Semantic Structures, Mouton, The Hague.
11. Osgood C. E., G. J. Suci, and P. H. Tannenbaum, 1957. The Measurement of Meaning, University of Illinois Press.
12. Rohde D. L. T., L. M. Gonnerman, and D. C. Plaut, 2006. An improved model of semantic similarity based on lexico-occurrence. Communications of ACM, 8, 627-633.
13. Salton G., 1971. The SMART retrieval system: Experiments in Automatic Document Processing, Prentice Hall.
14. Saussure De Ferdinand, 1916. Cours de Linguistique Générale, Laussane..
15. Swadesh M.,1934. The phonemic principle,Language,10,p117.
16. 冯志伟,2011. 计算语言学的历史回顾与现状分析,《外国语》,2011年,第1期(总第191期),p9-17。
17. 冯志伟,2018. 机器翻译与人工智能的平行发展,《外国语》,2018年,第6期(总第238期), p35-48。
