快9倍!Facebook开源机器学习翻译项目fairseq

简介:

Facebook的使命是让世界变得更加开放,让每个人都能以最高的准确性和最快的速度使用自己喜欢的语言来发帖子和视频进行互动,语言翻译对此十分重要。

雷锋网了解到,今天,Facebook的人工智能研究团队发表了他们的研究成果Fairseq,他们使用了一种新型的卷积神经网络来做语言翻译,比循环神经网络的速度快了9倍,而且准确性也是现有模型中最高的。此外,FAIR序列建模工具包的源代码和训练好的系统都已经在开源平台GitHub上公布,其他的研究者可以在此基础上建立自己的关于翻译、文本总结和其他任务的模型。

为什么选择卷积神经网络?

卷积神经网络在数十年前由Yann Lecun 提出,已经在诸如图像处理之类的领域取得了成功。 循环神经网络却是文本领域的现有技术,并且由于其极高的效率而成为语言翻译的首选。

尽管循环神经网络以前在语言翻译上比卷积神经网络表现的更好。但是其设计具有固有的局限性,这可以通过它们怎么处理信息来理解。计算机一句一句地来翻译一个文本然后去预测另外一种语言具有相同意思的单词序列。循环神经网络以严格的从左到右或者从右到左的来进行运算,一次处理一个单词。这和现在高度并行的GPU硬件有点不符合。由于单词只能一个接着一个进行处理,计算不能完全并行。而卷积神经网络可以同时计算所有的元素,充分利用了GPU的并行性。CNN的另一个优点是它对信息进行分层处理,这让它可以更容易获得数据之间的复杂关系。

雷锋网获悉,在先前的研究中,卷积神经网络在翻译任务上的表现要差于循环神经网络。然而,由于卷积神经网络架构上的潜力,FAIR开始了研究,发现所设计的翻译模型显示了CNN在翻译方面的优异性能。CNN优异的计算性能将有可能会扩展可翻译的语言,将包括全球的6500种语言。

最快最好的结果

Facebook团队的结果表明,在广泛应用的标准测试数据集(WMT会议提供)上,其比RNN表现的更好。尤其是卷积神经网络比先前在WMT发表的结果都要好。在英语-法语任务上提高了1.5 BLEU,在英语-德语任务上提高了0.5BLEU,在WMT2016的英语-罗马尼亚语任务上,提高了1.8BLEU。

对神经机器学习实际应用考虑的一个方面在于翻译一个句子所需要的时间。 FAIR的卷积神经网络模型计算的相当快速,比循环神经网络快乐整整9倍。许多研究都通过量化权重或者其他的方法的方法来加速神经网络,这也同样可以用于卷积神经网络。

用多跳注意和门控来获得更好的翻译效果

团队的架构一个重要的部分就是多跳注意。注意力的机制类似于一个人在翻译句子的时候会把句子分开翻译,而不是仅仅看一次句子然后就直接写下完整的翻译。所设计的网络会重复地扫描句子来决定它将要翻译的下一个单词。多跳注意是这种机制的加强版,它让网络更多次地扫描句子来产生更加好的结果。每一次扫描之间都相互影响。举一个例子,第一次扫描会注意到一个动词,然后第二次扫描会注意到相关联的助动词。

在下面这幅图中,Facebook团队展示了一个系统是怎么阅读一个法语短语然后再翻译成英语的。首先,用卷积神经网络来生成每一个法语单词的对应向量,在此同时进行计算。然后解码的CNN再生成对应的英语单词。在每一步,都扫描一下法语单词来看一下哪些词语与下一个要翻译的英文单词关系最为密切。在解码器中有两层,下面的动画说明了每一层的注意力机制是怎么完成的。绿线的强度表现了网络对每一个法语单词的注意力。当网络训练好之后,也就可以进行翻译了,英文单词的计算也可以同时进行。

image

系统的另一个方面是门控,其控制神经网络里面的信息流。在每个神经网络中,信息都流过所谓的隐藏单元。的门控机制精确的控制了传向下一个单元的信息,一个好的翻译才因此产生。例如,当预测下一个单词的时候,网络会把它前面的翻译部分考虑进去。门控允许它在翻译的一个特定方向进行放大—这一切都取决于网络认为其在上下文中认为合不合适。

以后的发展

这一种方法是机器翻译的一种替代框架,也给其它的文本处理任务提供了新的思路。例如,多跳机制在对话系统中允许网络注意对话的不同部分。例如对两个没有联系的事实,可以把它们联系在一起来更好地回答复杂的问题。

AI科技评论招聘季全新启动!

很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

AI科技评论自创立以来,围绕学界和业界鳌头,一直为读者提供专业的AI学界、业界、开发者内容报道。我们与学术界一流专家保持密切联系,获得第一手学术进展;我们深入巨头公司AI实验室,洞悉最新产业变化;我们覆盖A类国际学术会议,发现和推动学术界和产业界的不断融合。

而你只要加入我们,就可以一起来记录这个风起云涌的人工智能时代!\

本文转自d1net(转载)

相关文章
|
8月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
795 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
5月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
272 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
8月前
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
1038 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
8月前
|
人工智能 自然语言处理 物联网
阿里万相重磅开源,人工智能平台PAI一键部署教程来啦
阿里云视频生成大模型万相2.1(Wan)重磅开源!Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,轻松实现高质量的视频生成。同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型,可获得您的专属阿里万相服务。
|
8月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
147 0
|
11月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
913 4
AutoTrain:Hugging Face 开源的无代码模型训练平台
|
5月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
11月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1053 6
|
6月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。

热门文章

最新文章