备案控制台

开发者社区新智元文章正文

对抗神经机器翻译：GAN＋NMT 模型，中国研究者显著提升机翻质量

2017-08-01 1567

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

文档翻译，文档翻译 1千页

图片翻译，图片翻译 100张

文本翻译，文本翻译 100万字符

简介：

今天介绍的是中山大学、中国科技大学、微软亚洲研究院与广东省信息安全技术重点实验室合作完成的一项研究。

第一作者 Lijun Wu 来自中山大学数据与计算机科学学院，二作 Yingce Xia 是中国科技大学，Li Zhao、Fei Tian、Tao Qin 都属于微软亚洲研究院，Jianhuang Lai、Tie-Yan Liu 则是广东省信息安全技术重点实验室的研究人员。Jianhuang Lai 同时也属于中山大学数据与计算机科学学院。

作者认为，最新的 NMT 系统虽然相比以前的统计机器翻译（SMT）性能有了显著提升，但翻译质量还有很大的改进空间。作者认为，其中一个主要原因是 NMT 在训练时通常采用最大似然估计（MLE）原理，换句话说，也就是尽可能将机器生成的译文与人类对源语的翻译进行匹配（maximize the probability of the target groundtruth sentence conditioned on the source sentence）。

作者认为，这样做并不能确保机器翻译的结果比人类翻译的更自然、准确和到位。

对抗 NMT，将模型翻译结果与人类翻译的差距最小化

于是，他们在研究 NMT 的学习范式后，采取了一种新的思路——训练 NMT，让模型翻译结果与人类翻译的差距最小化。为此，他们借助了生成对抗网络（GAN）的力量，并将新模型命名为“对抗 NMT”（Adversarial-NMT）。

在对抗 NMT 中，除了典型的 NMT 模型，还有一个对手（adversary）用于区分 NMT 生成的翻译与人类翻译。这个对手是一个精心设计的 CNN。训练时，NMT 和作为对手的 CNN 这两个模块相互提升性能。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

需要指出的是，作者写道，与以往 GAN 生成器都处于连续空间中不同，在他们提出这个新框架里，NMT 模型并非典型的生成模型，而是将源语言句子映射到目标语言句子的概率转换，而且都处于离散空间中。

这样的差异使得在训练 NMT 模型时需要设计新的网络架构和优化方法。于是，作者专门设计了一个卷积神经网络（CNN，如上图所示）模型作为对手，并将在强化学习中得到广泛应用的 REINFORCE 这一策略梯度方法用于优化。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

上图展示了对抗 NMT 架构。“Ref”是 Reference 的缩写，代表人类的（ground-truth）翻译结果，“Hyp”则是 Hypothesis 的缩写，表示模型生成的翻译句子。所有黄色部分代表 NMT 模型 G，将源句子 x 映射为译文。红色部分代表对抗网络 D，负责预测给定目标句子是真实翻译还是机器根据源句 x 生成的翻译。G 和 D 相互对抗，生成翻译样本 y’ 训练 D，以及训练 G 的奖励信号策略下降（蓝色箭头表示）。

BLEU 基准测试结果，性能提升显著

下图是论文中给出的对抗 NMT 性能测试实例。

作者提供了 2 个德语→英语的例子，分为上下两栏。从上到下分别显示了德语源句 x、实际（也即人类的）翻译 y、RNNSearch 生成的翻译句子 y’，以及对抗 NMT 生成的翻译 y’。D（x，y’）是模型译文 y’是真实翻译 x 的概率，x 由对手 CNN 计算得出。BLEU 是每个翻译句子的单句翻译 bleu 得分。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

下图是不同 NMT 系统在英语→法语之间翻译的性能。默认设置是单层 GRU + 30k 语料库（vocabs）+ 最大似然估计（MLE）训练对象，不是使用单语种数据训练，也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

下面是不同 NMT 系统在德语→英语之间翻译的性能。默认设置是使用 MLE 训练对象的单层 GRU 编码器-解码器模型，也即 Bahdanau 等人在 2014 年提出的 RNNSearch 模型。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

论文：对抗神经机器翻译

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

摘要

在本文中，我们研究了神经机器翻译（NMT）的新学习范式。以往的研究都将人类翻译的可能性最大化，我们则将人类翻译与 NMT 模型给出的翻译的差异最大限度地减少。为了实现这个目标，受近来生成对抗网络（GAN）成功的启发，我们采用对抗训练架构，并将其命名为对抗 NMT。在对抗 NMT 中，NMT 模型的训练对手是一个精心设计的卷积神经网络（CNN）。这个对手 CNN 的目标是区分 NMT 模型生成的翻译结果与人类翻译结果。NMT 模型的目标则是生成高质量的翻译，从而骗过对手。我们还利用策略梯度法协助训练 NMT 模型和对手 CNN。实验结果表明，在英语→法语和德语→英语的翻译任务中，对抗 NMT 在几个强大的基准上都显著提升了翻译质量。

文章转自新智元公众号，原文链接

文章标签：

机器翻译

机器学习/深度学习

自然语言处理

关键词：

机器翻译模型

机器翻译神经

神经机器翻译

神经机器翻译机器翻译

机器翻译机器翻译

知与谁同

目录

相关文章

拓端数据部落

|

2月前

|

机器学习/深度学习自然语言处理算法框架/工具

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译

拓端数据部落

33 5 5

小Lee

|

2月前

|

机器学习/深度学习自然语言处理网络架构

神经机器翻译（NMT）

神经机器翻译（NMT）

小Lee

45 2 2

-开发达人-

|

人工智能自然语言处理搜索推荐

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型（3）

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

198 0 0

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型（3）

-开发达人-

|

机器学习/深度学习自然语言处理算法

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型（2）

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

283 0 0

-开发达人-

|

机器学习/深度学习自然语言处理算法

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型（1）

FlowSeq、mBART、BERT-fused、mRASP、mRASP2...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

129 0 0

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型（3）

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

167 0 0

-开发达人-

|

机器学习/深度学习自然语言处理

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型（2）

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

121 0 0

-开发达人-

|

机器学习/深度学习自然语言处理算法

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型（1）

Unsupervised NMT、PBSMT、coarse-to-fine...你都掌握了吗？一文总结机器翻译必备经典模型

-开发达人-

68 0 0

Deephub

|

机器学习/深度学习自然语言处理算法

神经机器翻译的Subword技术

神经机器翻译的Subword技术

Deephub

140 0 0

神经机器翻译的Subword技术

Deephub

|

机器学习/深度学习自然语言处理 PyTorch

在PyTorch中使用Seq2Seq构建的神经机器翻译模型（三）

在PyTorch中使用Seq2Seq构建的神经机器翻译模型

Deephub

133 0 0

在PyTorch中使用Seq2Seq构建的神经机器翻译模型（三）

新智元

热门文章

最新文章

如何从零开始用Keras开发一个机器翻译系统

阿里巴巴机器翻译在跨境电商场景下的应用和实践

阿里云机器翻译Java使用Demo

利用最新AI技术，谷歌提高机器翻译质量

脑机接口利器：从脑波到文本，只需要一个机器翻译模型

阿里云机器翻译语种识别java调用指南

阿里云机器翻译Python使用Demo

1、MD /MDD /ML /MT /MTD的简单介绍

102个模型、40个数据集，这是你需要了解的机器翻译SOTA论文

算法竞赛入门【码蹄集新手村600题】(MT1101-1150）

使用阿里云智能翻译接口案例—

机器翻译语义层面

机器翻译句法层面

机器翻译在词法层面

神经机器翻译（NMT）

统计机器翻译（SMT）

自然语言处理机器翻译

外汇MT5/MT4交易所平台系统开发测试版/案例设计/策略步骤/功能需求/源码程序

MT4丨MT5外汇跟单交易所系统开发运营版/策略指南/逻辑方案/需求功能/源码项目

MT5/MT4外汇跟单交易所系统开发指南教程/海外版/多语言/详细步骤/源码策略

相关课程

更多

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

机器学习集成学习与模型融合

南瓜书《机器学习公式推导》

神经网络与深度学习

机器学习基础与回归算法

计算机视觉类比赛汇总

相关电子书

更多

揭秘阿里机器翻译

阿里巴巴机器翻译在跨境电商场景下的应用和实践

Machine Translation at Alibaba

相关实验场景

更多

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

使用PAI-快速开始，低代码实现大语言模型微调和部署

如何快速训练大模型

使用PAI-DSW x EasyPhoto快速完成AIGC人物写真生成

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

下一篇

通义千问API入门教程