如何解决神经机器翻译三大关键性问题?清华团队发表NMT最新技术综述

来源:智汇工业

点击:12327

A+ A-

所属频道:新闻中心

关键词:神经机器 翻译


    如今,计算机技术渗透人们生活的方方面面,而要说对我们工作学习帮助极大的,机器翻译(machine translation)必须榜上有名。


    近年来随着计算机技术的不断提高、AI 系统的日益精进,机器翻译一直为人们所质疑的质量问题,也有了非常显著的改善。其中,神经机器翻译(neural machine translation)技术所作的贡献与创新也是一大研究热点。


    近日,清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文,文章 对神经机器翻译方法进行回顾,并重点介绍与体系结构、解码和数据增强有关的方法,总结了对研究人员有用的资源和工具。最后,还讨论了该领域未来可能的研究方向。 清华大学计算机系教授、欧洲科学院外籍院士 孙茂松 与清华智能产业研究院副院长、国家杰青 刘洋 是该论文的两位教师作者。


    神经机器翻译技术的发展


    在 70 年的发展历程里,机器翻译经历了从兴起到高峰,从低迷到打开新研究思路的种种变化。


    早在 1949 年,美国科学家 Warren Weaver 就首次提出 “使用计算机进行翻译” 的思想,他也被公认为是机器翻译的先驱者之一。1952 年,以色列著名哲学家、语言学家和数学家 Yehoshua Bar-Hillel 组织召开了第一次机器翻译大会。


    此后,由于机器翻译质量难以达到要求,其发展在长达 30 年间始终缓慢,直到 1990 年之后,大量的双语、多语语料库给机器翻译注入新鲜血液,统计机器翻译(SMT)应运而生。这期间 IBM 研究人员也发表论文,详细论述了基于词典和转换规则的机器翻译方法和基于平行语料库的实例机器翻译方法。


    近些年,基于深度学习的神经机器翻译技术(neural machine translation,简称 NMT)发展迅猛。深度学习由图灵奖得主 Geoffrey Hinton 等人在 2006 年提出,是一种深层的非线性数据处理技术,与传统的浅层次线性处理相比,它在处理模型分析和分类问题上更准确,性能更高。


    NMT 与以前的机器翻译方法完全不同,一方面,NMT 在 SMT 中采用连续表示而不是离散符号表示;另一方面,NMT 使用单个大型神经网络对整个翻译过程进行建模,从而无需进行过多的特征工程。而且,NMT 的训练是端到端的(end-to-end),不像 SMT 中需要单独调整组件。除了简单之外,NMT 可适应多种语言之间的翻译,实现最先进的性能。


    如何解决三大关键性问题?


    综述中,论文作者首先阐释了 NMT 系统的三个关键性问题:


    建模(modeling),即如何设计神经网络来对条件分布建模?


    推理(inference),即给定源输入,如何从 NMT 模型生成翻译句子?


    学习(learning),即如何有效地从数据中学习 NMT 所需的参数?


    关于建模,NMT 通常采用编码器 - 解码器框架,由嵌入层 embedding,分类层 classifier,编码器网络 encoder 和解码器网络 decoder 组成。


    因此,构建强大的编码器和解码器对 NMT 性能来说至关重要,其方法大致可分为三类:基于递归神经网络(RNN),基于卷积神经网络(CNN)和基于自注意力网络(SAN)的方法。文章不仅详细阐释了三种方法的机制,还对比了其优点与缺陷,并提出相应的解决办法。例如 RNN 容易出现梯度消失 / 爆炸问题,CNN 接收领域有限较难扩张,SAN 则容易忽略序列中单词的顺序。


    关于推理,NMT 通常使用本地搜索算法(例如贪婪搜索或集束搜索)来找到最佳翻译结果。此外,NMT 通常使用最大对数似然(MLE)作为训练目标函数,这是一种估算概率分布参数的常用方法。


    除了 NMT 的计算机原理与构建机制,文中还综述了不同的 NMT 研究方法与应用,例如有关使用单语言数据和无监督 NMT 的研究,以及有关提升 NMT 可解释性和鲁棒性的研究。


    未来可能的研究方向


    尽管 NMT 取得了巨大的成功,但仍有许多问题有待探索,因此,文章列出了 NMT 的一些重要且具有挑战性的问题。


    第一,加深对 NMT 的了解。尽管如今已经有很多尝试,试图分析和解释 NMT,但显然,NMT 领域还有许多未 “解锁” 之处。未来,要想窥破 NMT 技术的瓶颈和弱点,弄清 NMT 究竟如何产生其翻译结果显得格外重要。


    第二,设计更好的 NMT 模型。目前常见的是 Transformer 体系结构,设计一种比它更加优越、能够平衡翻译性能和计算复杂性的新体系结构,对于 NMT 研究和生产意义重大。


    第三,充分利用单语言数据。尽管如今单语言数据取得了显著进步,但 NMT 在利用丰富的单语言数据方面,仍有巨大的上升空间。


    第四,对先前的知识进行整合。除了自然语言,将人类其他知识纳入 NMT 也是一个重要的问题。如何实现离散表示和连续表示之间的互相转换一直是 NMT 面临的问题,仍需进一步探讨。

    (审核编辑: monkey)