同声传译,Skype完胜99.9%地球人

简介:

0

Skype前几天推出了实时语音翻译的预览版,让用户可以跨越语言的障碍畅快交流。今天我们就来聊聊微软是如何做到这一点的。


Skype 的翻译系统主要分三步:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中,识别实时语音并转换成文字一直是最棘手的部分


图像处理和语音识别是深度学习发展的两个主要方向。近几年来,由于深度学习的进步,语音识别依靠深度神经网络(deep neural networks)也取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在 2012 年,Google 让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。


微软研究员 John Platt 在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而 Skype 实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。


这一突破发生在 2009 年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾 Geoff Hinton 介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔巨款,让 Hinton 的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了 25%


Skype 的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。


其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献出的语音对话也是一个非常重要的训练集数据来源。同时,Skype 的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。


在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。


至于不同语言的文本翻译,Skype 利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而 Skype 翻译系统不仅包括 Bing 翻译的引擎技术,还额外增加了一层口语化的语言业务。


此外,Skype 还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。如何简单又高效的运作整个系统,也是一门不小的学问。


Skype 的实时语音翻译系统还面临着很多挑战,比如语言的变化的速度很快,每个人说话的方式又很独特,这些都会为实时翻译造成不少的麻烦。微软研究院总监 Vikram Dendi 说,截止到星期一,总共已经有 5 万个用户注册了预览版 Skype 翻译,而一天后,这个数字变成了两倍。对于这一种可能会真正改变人们交流方式的科技产品,越来越多的人为之感到激动。



原文发布时间为:2015-01-21

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
编解码 Android开发
索尼 Xperia Z4 正式登场:万年老样,诚意欠佳!
毫无征兆的,索尼今天正式在日本发布其 2015 年旗舰机 Xperia Z4。与突然登场形成鲜明对比的却是索尼 Xperia Z 系手机“万年不变”的老样子!
190 0
|
安全
一加8T&赛博朋克2077深度定制手机发布
夜之城和加州北部两种滤镜,这是游戏里的两个地名,不仅手机里是赛博朋克,如果用这个滤镜拍照,你的眼中也将是赛博朋克的世界。
197 0
一加8T&赛博朋克2077深度定制手机发布
|
机器人 atlas 定位技术
飞奔跳跃!波士顿动力人形机器人Atlas学会跑酷
今年 5 月份,大家熟知的机器人公司波士顿动力在 YouTube 上放出两段视频,展示了 Atlas 和 SpotMini 机器人的最新进展。这两段视频没有展示多少新鲜的东西,但让我们看到了这些机器人的活动是多么自然。今日,波士顿动力机器人再次吸引了大家的注意:会跑酷的 Atlas。
180 0
飞奔跳跃!波士顿动力人形机器人Atlas学会跑酷
|
算法 搜索推荐 测试技术
连线杂志:Google算法统治互联网的秘诀,互联网营销
谷歌如何搜索浩如烟海的信息      导语:美国《连线》杂志网站日前发表编辑史蒂文·列维(Steven Levy)的文章,揭开了Google搜索算法的神秘面纱。      以下是文章全文:   搜索改变生活   想知道Google将如何改变你的生活吗?那么周四去“瓦加杜古”会议室看一看吧。
1358 0
|
安全
奥巴马专用直升机被曝飞机蓝图被伊朗P2P用户分享
一家专业检测p2p文件共享网络的公司发现一个美国总统奥巴马专用直升机的潜在的严重安全漏洞,安全人员发现了一个P2P文件共享程序,程序的IP地址设置的为伊朗首都德黑兰,奥巴马专机"海军陆战队一号"的蓝图与航空电子设备完全的被共享.
865 0
|
新零售 程序员
在加州最古老的监狱教课是种什么样的体验?
彼得·斯登(Peter Stern)是阿里巴巴战略投资部的一名洋小二,是办公室出了名的“空中飞人”。斯登一年中大部分时间都在各大洲飞来飞去——但无论多忙,每个月他都会去圣昆丁监狱上课。
1406 0
现实版《三体》上演,麻省理工研究员要用激光吸引外星人来地球
虽然目前的方法和技术接触的概率很低,但未来几年的进展可能使其成为可能。
339 0
|
vr&ar
世界杯爆冷真相:这项技术九改判罚!帮西班牙起死回生
VAR成世界杯主角,扭转西班牙命运,介入将近1/2的点球判罚,“上帝之手”之类的足球冤案或将不复存在。6月28日消息,今年世界杯可谓戏剧化十足,反转剧情不断上演。在险象环生的西班牙伊朗一战后,VAR迅速攻占西班牙各大媒体头条。
1813 0