Android开发中文站

简介:

自IBM的Shoebox与Worlds of Wonders的Julie Doll问世以来,语音识别技术已经取得了长足进步。甚至有报道称,到2018年底,谷歌Google Assistant将支持超过30种语言。除此以外,高通已经开发出了一款能够识别单词和短语的语音识别设备,准确率高达95%。而微软也不甘示弱,其呼叫中心解决方案(智能语音客服)比人工展开的呼叫服务更准确,更高效。

但需要注意的是,尽管在机器学习的加持下,语音识别技术取得了巨大的进步,但现在的语音识别系统还是不完美的。比如,不同地区的口音,让这项技术拥有了很强的“地域歧视性”。通常情况下,口音对人类来说不是什么大问题,有时还会让人感觉到一种异国风情的魅力,但是对机器而言,这是一条难以跨越的鸿沟,可能是其发展过程中面临的最大挑战。

研究显示口音是语音识别技术的挑战之一

最近,华盛顿邮报与Globalme和Pulse Labs两家语言研究公司合作,对搭载了语音识别技术的智能音箱设备的口音问题进行了研究,研究范围来自美国近20个城市、超过100名参与者发出的数千条语音命令,结果显示,这些系统在理解来自不同地区的人的语言时存在显著差异。

举个例子,谷歌智能音箱Google Home识别西岸口音的准确率比识别南方口音高3%;而亚马逊语音助手Alexa识别中西部的口音的准确率要比东岸口音低2%。但面临最大问题的是持非本土口音的人:在一项研究中,通过对比Alexa识别的内容与测试组的实际话语,结果显示不准确率可达30%。此外,面对以西班牙语和汉语作为第一语言的人所说的英文,不管是Google Home还是Amazon Echo,其识别率都是最低的,要知道,拉丁裔和华裔是美国的两大移民族群。

9842d0d1b45c065dbbe8204182554e812a47b3ef

虽然这项研究是非正式的,也存在一定的限制,但其结果还是表明口音仍是语音识别技术面临的主要挑战之一。对此,亚马逊在一份声明中称,“随着越来越多的拥有不同口音的人与Alexa进行交流,Alexa的理解能力也会得到改善。”同时,谷歌也表示,“在扩大数据集的同时,我们也将继续提高Google Home的语音识别能力。”

事实上,不只是Amazon Echo和Google Home,采用率更低一些的微软Cortana和苹果Siri也是如此,它们都需要及时提高自家的语音识别技术,以便让用户感到满意的同时,又能在全球范围内扩大自己的影响力。

即使增加语料库,也无法解决口音识别问题

随着人工智能的发展,语音已经成为了人与计算机交互的核心方式之一,所以即使理解上有极其微小的偏差,也可能意味着一个巨大的障碍。也就是说,这种语言差异可能会给那些现代科技的基础系统带来潜在的隐患,毕竟除了厨房和起居室,智能音箱在用户的工作场所、学校、银行、医院以及酒店等地方也承担着越来越重要的责任,除了控制设备还要传递信息,并完成一些预订和购物工作等。

19c88b33a741117f6f56d03f8dea7f22b0f22c0a

为了改善语音助手的口音识别情况,亚马逊与谷歌等正在投入资源,用新的语言和口音训练测试系统,包括创建游戏以鼓励大家使用不同地区的方言进行交谈。而像IBM和微软这样的公司,都会通过Switchboard语料库来降低语音助手的出错率。但是事实证明,语料库也无法彻底解决语音助手的口音识别问题

对此,埃森哲全球责任AI监理Rumman Chowdhury表示,“数据是混乱的,因为数据反映了人性。这就是算法最擅长的:寻找人类的行为模式。”

算法的这一情况被称为“算法偏差”,用于反应机器学习模型对数据或设计产生的偏见程度。比如,现在有很多报告都显示了面部识别技术的敏感性——尤其是亚马逊AWS的图像识别技术Rekognition——有很大的偏见倾向。此外,算法偏差还会出现在其他方面,像预测被告是否会在未来犯罪以及Google News等应用背后的内容推荐算法。

构建语音识别模型,提升方言识别率

虽然已经有不少巨头针对算法偏见提出了解决方案,比如微软、IBM、Facebook、高通和埃森哲等已经开发出了自动化工具,用于检测AI算法中的偏见,但很少有企业针对语音识别技术面临的口音问题提出具体的解决方案。对此,Speechmatics和Nuance成为了少数者之一。

f223424c8d8f65b3936b5961dfd21720316d0200

Speechmetrics是一家专门从事企业语音识别软件的剑桥科技公司,12年前就开始展开一项雄心勃勃的计划,旨在开发比市场上任何产品都更准确,更全面的语言包。据了解,研究之初,该公司的主要工作是统计语言建模和循环神经网络,并以此开发出了一种可以处理内存输出序列的机器学习模型。

2014年,Speechmetrics通过一个10亿字节的语料库加速了其统计语言建模的进展,到2017年与卡塔尔计算研究所(QCRI)合作开发阿拉伯语言的文字转换服务,可以说,这是该公司取得的一个里程碑式的进展。

而到了今年7月,该公司再次有所突破——成功研发了一款语音识别系统Global English,包括了全球40多个国家的数千小时的语音数据和数百亿单词,可支持“所有主要”英语口音的语音文本转换。另外,这个系统是建立在Speechmatic的Automatic Linguist的基础上,这是一个AI框架,通过利用已知语言中识别的模式来学习新语言的语言基础。

而在特定的口音测试中,Global English的表现要优于谷歌的Cloud Speech API以及IBM Cloud中的英语语言包中。Speechmatic声称,在高端领域,该系统的准确率比其他产品还要高23%到55%。

但Speechmatics并不是唯一一家想要解决口音识别问题的公司。

06030ac5381ad0529754b8f60e73ddbecf433694

总部位于马萨诸塞州的Nuance表示,该公司正在采用多种方法确保其语音识别模型能够以同样的准确率来识别大约80种语言。

举个例子,在其英语语音识别模型中,该公司收集了20个特定方言区域的语音和文本数据,包括每种方言的特有单词及其发音。因此,Nuance的语音识别系统可以识别出单词“Heathrow”的52种不同变体。

最近Nuance的语音识别系统也有了很大的提升。较新版本的Dragon是该公司发布的定制语音到文本软件套件,所使用的机器学习模型,可根据用户的口音在几种不同的方言模型之间自动切换。另外,与没有自动切换功能的旧版本相比,新版对带有西班牙口音的英语识别的准确率要高22.5%,对于美国南部的方言来说,准确率要高16.5%,对于东南亚的英语口音的准确率要高17.4%。

事实上,研究人员很早之前就发现了语音识别面临的口音问题。对此,语言学家和AI工程师纷纷表示,非本地语言通常是很难进行训练的,因为语言之间的模式要一多种不同的方式进行切换。同时,语境也很重要,即使是细微差别也会改变对话双方的反应。但可以肯定的是,缺乏多样性的语音数据最终可能会无意中导致“地域歧视”的发生。也就是说,语料库中语音样本的数量和多样性越高,得到的模型就越准确——至少在理论上是这样

当然,这也不仅仅是美国企业需要解决的问题。百度硅谷办事处的高级研究员Gregory Diamos曾说,该公司面临着自己的挑战,即开发一款可以理解许多中国地方方言的人工智能。此外,很多工程师也表示,口音对于致力于开发那种不仅可以回答问题,还能随意进行自然对话的软件公司来说,是最严峻的挑战之一。

今年5月,谷歌推出了一款名为Duplex的系统,可以以逼真的语音语调打电话完成餐厅预订,整个过程是“语音不流畅”的,因为中间会夹杂“嗯”、“呃”等语气词。在一定程度上,这样的技术让人有这样的感觉:这个机器在倾听我的话语。有用户表示,自己好像被困在了一个灰色地带,虽然可以被理解,但又好像与机器人格格不入。

根据市场研究公司Canalys的数据,到2019年会有近1亿台智能音箱在全球销售,而到2022年,约55%的美国家庭会拥有一个智能语音系统。在小智君(ID:Aiobservation)看来,通过大量声音数据及其语音模式的学习,理解不同单词、短语和声音之间形成的清晰联系,人工智能便可以更加了解不同的口音,提高识别能力

但也不要期待“银弹”的出现,毕竟按照现在技术的发展,我们不能期待很快就能研发出一个准确率极高却又可以适用于所有用户语言的语音识别系统。如今,能满足正在使用的用户的口音需求,便足矣。


原文发布时间为:2018-08-13

本文作者:灰灰

本文来自云栖社区合作伙伴“人工智能观察”,了解相关信息可以关注“人工智能观察”。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
25天前
|
缓存 搜索推荐 Android开发
安卓开发中的自定义控件实践
【10月更文挑战第4天】在安卓开发的海洋中,自定义控件是那片璀璨的星辰。它不仅让应用界面设计变得丰富多彩,还提升了用户体验。本文将带你探索自定义控件的核心概念、实现过程以及优化技巧,让你的应用在众多竞争者中脱颖而出。
|
25天前
|
Java Android开发 Swift
安卓与iOS开发对比:平台选择对项目成功的影响
【10月更文挑战第4天】在移动应用开发的世界中,选择合适的平台是至关重要的。本文将深入探讨安卓和iOS两大主流平台的开发环境、用户基础、市场份额和开发成本等方面的差异,并分析这些差异如何影响项目的最终成果。通过比较这两个平台的优势与挑战,开发者可以更好地决定哪个平台更适合他们的项目需求。
94 1
|
2天前
|
编解码 Java Android开发
通义灵码:在安卓开发中提升工作效率的真实应用案例
本文介绍了通义灵码在安卓开发中的应用。作为一名97年的聋人开发者,我在2024年Google Gemma竞赛中获得了冠军,拿下了很多项目竞赛奖励,通义灵码成为我的得力助手。文章详细展示了如何安装通义灵码插件,并通过多个实例说明其在适配国际语言、多种分辨率、业务逻辑开发和编程语言转换等方面的应用,显著提高了开发效率和准确性。
|
1天前
|
Android开发 开发者 UED
安卓开发中自定义View的实现与性能优化
【10月更文挑战第28天】在安卓开发领域,自定义View是提升应用界面独特性和用户体验的重要手段。本文将深入探讨如何高效地创建和管理自定义View,以及如何通过代码和性能调优来确保流畅的交互体验。我们将一起学习自定义View的生命周期、绘图基础和事件处理,进而探索内存和布局优化技巧,最终实现既美观又高效的安卓界面。
11 5
|
3天前
|
存储 IDE 开发工具
探索Android开发之旅:从新手到专家
【10月更文挑战第26天】在这篇文章中,我们将一起踏上一段激动人心的旅程,探索如何在Android平台上从零开始,最终成为一名熟练的开发者。通过简单易懂的语言和实际代码示例,本文将引导你了解Android开发的基础知识、关键概念以及如何实现一个基本的应用程序。无论你是编程新手还是希望扩展你的技术栈,这篇文章都将为你提供价值和启发。让我们开始吧!
|
28天前
|
Android开发
Android开发表情emoji功能开发
本文介绍了一种在Android应用中实现emoji表情功能的方法,通过将图片与表情字符对应,实现在`TextView`中的正常显示。示例代码展示了如何使用自定义适配器加载emoji表情,并在编辑框中输入或删除表情。项目包含完整的源码结构,可作为开发参考。视频演示和源码详情见文章内链接。
62 4
Android开发表情emoji功能开发
|
26天前
|
Web App开发 安全 程序员
FFmpeg开发笔记(五十五)寒冬里的安卓程序员可进阶修炼的几种姿势
多年的互联网寒冬在今年尤为凛冽,坚守安卓开发愈发不易。面对是否转行或学习新技术的迷茫,安卓程序员可从三个方向进阶:1)钻研谷歌新技术,如Kotlin、Flutter、Jetpack等;2)拓展新功能应用,掌握Socket、OpenGL、WebRTC等专业领域技能;3)结合其他行业,如汽车、游戏、安全等,拓宽职业道路。这三个方向各有学习难度和保饭碗指数,助你在安卓开发领域持续成长。
56 1
FFmpeg开发笔记(五十五)寒冬里的安卓程序员可进阶修炼的几种姿势
|
9天前
|
Java API Android开发
安卓应用程序开发的新手指南:从零开始构建你的第一个应用
【10月更文挑战第20天】在这个数字技术不断进步的时代,掌握移动应用开发技能无疑打开了一扇通往创新世界的大门。对于初学者来说,了解并学习如何从无到有构建一个安卓应用是至关重要的第一步。本文将为你提供一份详尽的入门指南,帮助你理解安卓开发的基础知识,并通过实际示例引导你完成第一个简单的应用项目。无论你是编程新手还是希望扩展你的技能集,这份指南都将是你宝贵的资源。
34 5
|
7天前
|
设计模式 IDE Java
探索安卓开发:从新手到专家的旅程
【10月更文挑战第22天】 在数字时代的浪潮中,移动应用开发如同一座金矿,吸引着无数探险者。本文将作为你的指南针,指引你进入安卓开发的广阔天地。我们将一起揭开安卓平台的神秘面纱,从搭建开发环境到掌握核心概念,再到深入理解安卓架构。无论你是初涉编程的新手,还是渴望进阶的开发者,这段旅程都将为你带来宝贵的知识和经验的财富。让我们开始吧!
|
24天前
|
缓存 搜索推荐 Android开发
安卓开发中的自定义控件基础与进阶
【10月更文挑战第5天】在Android应用开发中,自定义控件是提升用户体验和界面个性化的重要手段。本文将通过浅显易懂的语言和实例,引导你了解自定义控件的基本概念、创建流程以及高级应用技巧,帮助你在开发过程中更好地掌握自定义控件的使用和优化。
31 10