开发者社区> boxti> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

斯坦福大学 NLP 组开放神经机器翻译代码库

简介:
+关注继续查看

近日,斯坦福大学自然语言处理组(Stanford NLP)发布了一篇文章,总结了该研究组在神经机器翻译(NMT)上的研究信息。在这篇文章中,他们还放出了在多种翻译任务上(比如英德翻译和英语-捷克语翻译)实现了当前最佳结果的代码库(codebase)。除此之外,「为了鼓励再现和增加透明」,他们还放出了他们用于训练模型的处理过的数据以及可以通过他们的代码库使用的预训练好的模型。

image

参与成员:

Christopher D. Manning(斯坦福大学计算机科学和语言学教授)

Minh-Thang Luong(斯坦福博士,Google Brain 研究科学家)

Abigail See(斯坦福大学计算机科学在读博士)

Hieu Pham

代码库

对于混合 NMT(hybrid NMT),请使用这个代码库并且引用:

代码库:https://github.com/lmthang/nmt.hybrid

论文:使用混合词-字符模型实现开放词汇神经机器翻译(Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models)

摘要:几乎之前所有的神经机器翻译(NMT)使用的词汇都受限,随后可能用一个方法来修补未知的单词。本论文展示了一个全新的能实现开放词汇神经机器翻译(open vocabulary NMT)的词-字符解决方法。我们建立了一个混合的系统,能够实现大部分的词级(word level)翻译,并可查阅罕见词的字母组成。我们字符级的循环神经网络能计算源词的表征,并能在需要时恢复未知的目标词。这种混合的方法还有一个双重优点是,与基于字符的网络相比,它更快且更容易训练;同时,它不像基于词的模型那样会产生未知的词。在 WMT' 15 英语-捷克语的翻译任务上,这种混合方法还实现了一个额外的+ 2.1 BLEU 分的提升——超过已经能处理未知单词的模型 11.4 BLEU 分。我们的最佳系统在这个任务上达到了新的最佳表现:20.7 BLEU 分。我们证明了我们的字符模型不仅能成功地学习生成形式很好的捷克语词(这是一种词汇复杂高度屈折的语言),还能为英语源词建立了正确的表征。

对于通用的基于注意的 NMT(general attention-based NMT),请引用以下论文:

代码库:https://github.com/lmthang/nmt.hybrid

论文:实现基于注意的神经机器翻译的有效方法(Effective Approaches to Attention-based Neural Machine Translation)

摘要:最近一种在翻译过程中通过选择性地集中关注部分源句子的注意机制被用于提升神经机器翻译(NMT)结果。然而,探索用于基于注意的神经机器翻译(NMT)的有用架构的研究还不多。本论文探讨了两种简单有效的注意机制类别:一种能顾及到所有源词的全局方法,以及一种只能一次查看源词的一个子集的局部方法。我们证明了在英语-德语/德语-英语 WMT 翻译任务上,这两种方法都是有效的。使用局部注意方法,相比于已经结合了 dropout 等技术的非注意系统,我们的系统增长了 5.0 BLEU 点。我们的组合模型使用了不同的注意架构,在 WNT'15 英语-德语的翻译任务中,实现了目前最好的结果:25.9 BLEU 点;比现有的基于 NMT 和 一个 n-gram reranker 的最佳系统提升了 1.0 BLEU 点。

对于剪枝 NMT(pruning NMT),请引用以下论文(如果你对代码有兴趣,请联系我们):

论文:通过剪枝的神经机器翻译的压缩(Compression of Neural Machine Translation Models via Pruning)

摘要:和其它许多深度学习领域一样,神经机器翻译(NMT)常会遭遇过度参数化(over-parameterization)的问题,这会导致需要大量的存储空间。这篇论文检查了三种简单的基于幅度的(magnitude-based)用来压缩 NMT 模型的剪枝方案,即 class-blind、class-uniform 和 class-distribution;它们的不同之处在于剪枝的阈值为 NMT 架构中不同的权重类所计算的方式。我们表明权重剪枝(weight pruning)可作为一种用于当前最佳 NMT 压缩技术。我们表明一个带有超过 2 亿个参数的 NMT 模型可以在仅有非常少量的性能损失的情况下被剪去 40%——这个结果是在 WMT'14 英语-德语翻译任务上得到的。这揭示了 NMT 架构中的冗余的分布。我们的主要结果是:通过再训练(retraining),我们可以使用 80% 剪枝的模型来恢复甚至超越原有的表现。

文章转载自 开源中国社区 [http://www.oschina.net]

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
NLP:LSTM之父眼中的深度学习十年简史《The 2010s: Our Decade of Deep Learning / Outlook on the 2020s》的参考文献
17 0
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(下)
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(下)
72 0
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(上)
动手学深度学习(十四) NLP注意力机制和Seq2seq模型(上)
33 0
NLP 如何突破深度学习的能力边界?
自然语言本身是人类对世界各种具象和抽象事物以及他们之间的联系和变化的一套完整的符号化描述,它是简化了底层物理感知的世界模型。
347 0
NLP如何突破深度学习的能力边界?
自然语言本身是人类对世界各种具象和抽象事物以及他们之间的联系和变化的一套完整的符号化描述,它是简化了底层物理感知的世界模型。
778 0
2017年ACL的四个NLP深度学习趋势 (一):语言结构和词汇嵌入(Linguistic Structure and Word Embeddings)
作者通过分析2017年ACL的论文,以及演讲内容,得出了四个NLP深度学习趋势:Linguistic Structure 、 Word Embeddings、Interpretability 、Attention。今天我们就逐一分析一下这四个深度学习趋势。
3901 0
【翻译】Sklearn与TensorFlow机器学习实用指南 ——第12章 设备和服务器上的分布式TensorFlow(下)
并行运行 当 TensorFlow 运行图时,它首先找出需要求值的节点列表,然后计算每个节点有多少依赖关系。 然后 TensorFlow 开始求值具有零依赖关系的节点(即源节点)。 如果这些节点被放置在不同的设备上,它们显然会被并行求值。
786 0
+关注
boxti
12535
文章
问答
文章排行榜
最热
最新
相关电子书
更多
揭秘阿里机器翻译
立即下载
《搜索NLP行业模型和轻量化客户定制》
立即下载
《喜马拉雅智能语音与NLP应用实践》
立即下载