【AAAI 2020 阿里巴巴论文】多模态机器翻译是指在存在配对图像的情况下将源语言句子翻译成另一种语言。先前的工作表明,视觉信息只在几种非常特殊的情况下(例如翻译歧义词)是有帮助的,在大多数情况下并不能改善翻译的性能。为了更好地利用视觉信息,这篇文章提出了基于视觉一致的正则化训练。本文的技术创新点在于提出的方法同时训练源语言到目标语言和目标语言到源语言的翻译模型,并鼓励它们在生成语义上等效的视觉单词(例如英语中的”ball”和法语中的“ballon”)时,共享相同的视觉关注信息。此外,创新点还包括引入了有效的多样化共同注意力模型来捕捉视觉和文本特征之间的相互作用。结果表明,在公开数据集Multi30k上,我们的方法可以大大优于基准模型。进一步的分析表明,我们提出的正则化方法可以有效地改善图像上的注意力一致性,从而更好地利用视觉信息来改进机器翻译性能。业务落地的场景是电商的商品详情的机器翻译,商品详情中往往除了文字介绍还有商品的图片,目前的机器翻译都是基于文字的,而图片可以用本文提出的方法来改进翻译的结果,从而提高商品的转发率。
Pengchen Yang;博兴;筱苡;Xu Sun