利用最新AI技术,谷歌提高机器翻译质量

本文涉及的产品
文本翻译,文本翻译 100万字符
图片翻译,图片翻译 100张
语种识别,语种识别 100万字符
简介: 统计的力量正在提升翻译的质量。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:Google Translate是全球最流行的翻译服务之一,目前支持108种语言的互译,每天翻译的单词量达到1500亿。过去一年间,通过利用针对总体质量,延迟以及整体推理速度的一系列技术组合,其BLEU翻译质量平均又提高了5分多。Venturebeat的KYLE WIGGERS报道了相关的技术进展,原文标题是:How Google is using emerging AI techniques to improve language translation quality

v2_2cda2282e2f14daa9c43c3c8394881fb_img_jpg_jpeg

划重点
Google Translate支持108种语言互译,每日翻译的单词量达到1500亿
经过运用一系列技术之后,2019年5月至2020年5月期间,Translate的翻译表现平均提高了5分或更多
Transformer编码器+RNN解码器+爬虫升级为翻译质量提升做出了贡献
课程学习对噪声数据进行了更好的处理
Google Translate Community将是Google Translate重要的助手

Google近日表示,自己在提高没有大量书面文字的语言的翻译质量方面已经取得了进展。在一篇即将发表的博客文章里面,该公司详细介绍了自己新的创新技术。这些创新技术增强了目前Google Translate所支持的108种语言(尤其是缺乏数据的语言,如约鲁巴语和马拉雅拉姆语)的用户体验。据称,Google的这项服务平均每天翻译的单词量达到1500亿。

自Google Translate首次公开亮相以来的这13年间,神经机器翻译,基于重写的范式以及设备处理等技术已经让该平台翻译的准确性出现了可量化的飞跃。但是直到最近,哪怕是Translate最新的算法也落后于人类的表现。Google之外的努力说明了该问题的量级——旨在让非洲大陆上数千种语言能够自动翻译的Masakhane 项目,目前仍未摆脱数据收集和转录的阶段。自2017年6月发布以来,Mozilla为构建转录语音的开源数据集所做的努力Common Voice,至今也仅审核了40种语音。

Google表示,其翻译突破并不是由单一技术推动的,相反,那是针对低资源语言,高资源语言,总体质量,延迟以及整体推理速度的一系列技术的组合。2019年5月至2020年5月期间,经过人工评估和BLEU(一种基于系统翻译与人工参考翻译之间相似性的指标)进行衡量之后,发现Translate的表现为在所有语言当中平均提高了5分或更多,在50种最低资源水平的语言的翻译平均提高了7分或更多。此外,Google表示,翻译在面对机器翻译幻觉时已经变得更加健壮。(注:机器翻译幻觉是一种特殊的现象,当AI模型被赋予怪异输入时会产生这种现象,比方说“Shenzhen Shenzhen Shaw International Airport (SSH)”的泰卢固语文字为“ష ష ష ష ష ష ష ష ష ష ష ష ష ష ష”,意思是“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”)。

混合模型与数据爬虫

这些技术里面首当其冲的是一种翻译模型架构,这是一种混合型的架构,包含了一个Transformer编码器以及一个递归神经网络(RNN)解码器,用针对时序建模的TensorFlow框架Lingvo实现。

在机器翻译里面,编码器的工作通常是将单词和短语编码为内部表示,然后解码器将其用来生成所需语言的文本。2017年,Google相关研究人员首次提出,在这方面基于Transformer的模型要比RNN更为有效,但Google表示,其工作表明,所获得的大部分质量提升仅来自于Transformer的一个组件:编码器。原因可能是因为虽然RNN和Transformer都被设计为处理有序数据序列,但是Transformers并不需要按顺序来处理序列。换句话说,如果所讨论的数据是自然语言的话,则Transformer无需在处理结尾之前先得处理句子的开头。

尽管如此,在推理时,RNN解码器仍比Transformer当中的解码器“快得多”。在意识到这一点之后,Google Translate团队在开始优化RNN解码器,然后再与Transformer的编码器进行结合,从而创建出比四年前基于RNN的神经机器翻译模型延迟更低,质量更高,更稳定的混合模型,并替换了后者。

v2_cfcaad3ee1d349bcb5a9239a816d9d9c_img_gif

自2006年成立以来,Google翻译模型的BLEU得分情况

除了新颖的混合模型体系结构之外,Google还升级了自己已经使用了几十年,用来从数百万对文章、书本、文档以及web搜索结果的示例翻译中编译训练数据集的爬虫。这位新的数据爬虫(针对14种大型语言对采用嵌入式而不是字典式,意味着它利用的是实数向量来表示单词短语)更加注重精确度(相关数据在检索到的数据中所占的比例)而不是回忆(相关数据总量在实际检索到的数据中的占比)。Google表示,在生产环境下,这让爬虫析取的句子数平均增加了29%。

噪声数据与迁移学习

另一项翻译性能提升来自于一种建模方法,这种方法对训练数据中的噪声进行了更好的处理。因为观察到噪声数据(含有大量无法正确理解或解释的信息的数据)会损害数据丰富的语言的翻译,因此Google的翻译团队部署了一个系统,利用经过噪声数据训练的模型来对例子进行打分,然后对“清洗”后的数据进行调整。基本上,这些模型一开始利用所有的数据进行训练,然后逐步用规模小一点干净一点的子集进行训练,这种方法在AI研究社区里面被称为课程学习(curriculum learning)。

针对资源匮乏的语言,Google在Translate里面实现了反向翻译方案,给翻译添加了并行训练数据,让被翻译语言的每个句子都跟翻译进行配对。(机器翻译传统上依赖于源语言目标语言配对句子语料集源的统计数据。)在这种方案中,训练数据会自动跟合成的并行数据进行匹配,从而保证目标文本是自然语言,但源语言则通过神经翻译模型生成。其结果是Translate利用了更丰富的单一语言文本数据来训练模型,Google表示这对于提高流利性特别有用。

v2_96b5128905e44ddf828a38f8fce0e735_img_gif

带Translate功能的Google Maps

Translate现在还利用了M4建模,用一个大型模型M4实现多种语言与英语之间的互译。(去年的一篇论文里面首次提出了M4,证明在利用100多种语言的250亿对句子对进行训练之后,M4可提高30多种低资源语言的翻译质量。)M4建模令Translate里面的迁移学习成为可能,通过对包括法语,德语和西班牙语(有数十亿个并行示例)等高资源语言的训练收集而来的洞察,可以应用到诸如约鲁巴语,信德语和夏威夷语(仅有数万个示例)等低资源语言的翻译当中。

展望未来

根据Google的说法,自2010年以来,Google Translate每年至少都提高了1个BLEU点,但是自动机器翻译绝对还算不上已解决的问题。Google承认,即使是其增强的模型也容易出错,包括会将一种语言的不同方言混淆,产生过多的直译,在特定题材和非正式或口头语言的翻译上表现不佳等。

该科技巨头正常是多管齐下解决这一问题,包括通过它的Google Translate Community,这个游戏化的计划招募了一批志愿者,让他们翻译单词短语或者检查翻译是否正确来帮助改进低资源语言翻译的性能。今年1月,该计划在各种新兴机器学习技术的合作下,又为Translate增加了5种为7500万人使用的语言的翻译:其中包括卢旺达语(Kinyarwanda),奥里亚语(Odia),鞑靼语(Tatar),土库曼语(Turkmen)以及维吾尔语。

追求真正通用翻译这一目标的并不只有Google。2018年8月,Facebook就披露了一种结合了逐词翻译,语言模型和反向翻译的AI模型,这种模型在表现要优于语言配对系统。最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型(即可以从未经明确标记或分类的测试数据当中学习的模型),这种模型可以在没有直接翻译数据的情况下对两种语言的文本进行互译。

在一份声明中,Google婉转地对 “学术界和业界”的机器翻译研究表示了“感谢”,称其中一些对自己的工作起到了促进作用。该公司表示:“我们通过综合和扩展了各种最新进展来实现[Google Translate 最近的改进]。通过此次更新,我们为能提供相对一致的自动翻译而感到自豪,这种一致性甚至体现在我们所支持的108种语言当中资源最少的的语言翻译上。”

译者:boxi。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-06-15
本文作者:神译局
本文来自:“36kr”,了解相关信息可以关注“36kr

相关文章
|
6天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
38 3
|
4天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
11天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
64 11
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【10月更文挑战第35天】在软件开发的海洋中,自动化测试犹如一艘救生艇,它帮助团队确保产品质量,同时减少人为错误。本文将探索如何通过集成人工智能(AI)技术,使自动化测试更加智能化,从而提升软件测试的效率和准确性。我们将从AI在测试用例生成、测试执行和结果分析中的应用出发,深入讨论AI如何重塑软件测试领域,并配以实际代码示例来说明这些概念。
36 3
|
9天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
55 4
|
9天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
13天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
12天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
12天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。