每个人都能听懂你的话:Google 为语言障碍者开发专属ASR模型,错误率下降76%

简介: 在AI时代,残障人士也受到了更多来自技术上的关怀,例如专属的聊天训练机器人、手语翻译机器、自闭症患者VR训练等等,最近Google针对语言障碍人士开发了专属的语音识别模型,让你说的话可以被更多人听懂!

目前有数百万人遭受语言障碍(speech impairments)的影响,根本原因主要是神经或遗传疾病导致的身体损伤、脑损伤或听力丧失。
由此产生的症状也各有不同,包括口吃、构音障碍、失用症等,这些症状也会对自我表达、参与社会活动产生不利影响。 自动语音识别(ASR)技术能够通过语音助手帮助用户改善听写以及加强沟通,来帮助患有此类语音障碍的人训练。但ASR技术在显示应用中仍然有一个障碍,就是准确率仍然不够。 虽然深度学习系统计算能力相比和数据集的规模相比以往已经有很大提升,并且ASR系统的准确性也提高了很多,但对于许多患有言语障碍的人来说,性能仍然不够,在演讲的场景等都无法被语言障碍的人使用。

50.jpg

2019 年时,谷歌推出了Project Euphonia,并讨论了如何使用个性化的、定制的无序语音ASR模型来实现更精确的性能,并且和通用ASR 模型的性能已经相差无几。 2021 年,Google 又在Interspeech 2021上发表了两项研究成果,这两项研究旨在将个性化ASR模型的可用性扩展到更多用户群体。 

51.jpg

第一篇论文主要展示了一个数据集,包括了从Project Euphonia中大规模收集到的100多万次语音组成的无序语音数据。

52.jpg

第二篇论文主要讨论了如何基于该语料库生成个性化的ASR模型。与通用语音模型开箱即用的能力相比,定制ASR模型可以产生更高精度的模型,并在选定的域中可以实现高达85%的字错误率改进。 自2019年以来,在各种情况下患有不同程度严重言语障碍的演讲者为Project Euphonia 提供了语音样本,这项工作已经将Euphonia的语料库增加到100多万个样本,包括1330名发言者的长达1400多个小时语音记录。

53.jpg

为了简化数据收集过程,实验参与者在他们的个人笔记本电脑或电话(带耳机和不带耳机的情况都有)上使用了一个家庭录音系统,而非采用一个理想化的、基于实验室的环境来收集工作室级别超高质量的录音数据。 为了降低转录成本,同时保持高转录的一致性,在保存数据时优先考虑使用脚本的演讲。
参与者阅读基于浏览器的录制工具上显示的提示,短语提示涵盖了家居自动化的指令,例如「打开电视」、和护理工作人员的对话,如「我饿了」,或者是和其他人的非正式对话,如「你好吗?今天过得愉快吗?」等内容。 

54.gif大多数参与者收到了一个列表,包含超过1500个短语,其中有1100个短语只出现一次以及100个重复四次以上的短语。 语音专家在为每个说话人听语音的同时进行全面的听觉感知和语音评估,根据语音障碍类型(例如口吃、构音障碍、失用症)为每个说话人定级,总共包含24种异常语音特征的评级(例如,鼻音亢进、发音不精确、迷糊),以及技术上的问题(例如,信号丢失、分割问题)和声学问题(例如,环境噪声、次级扬声器串扰)相关记录质量评估。 有了数据才能训模型,这些新增的语音障碍的数据集也是开发新模型的基础:无序语音(disordered speech)的个性化的ASR模型。每个定制模型都使用标准的端到端RNN-T ASR模型,且仅使用目标说话者的数据进行微调。 

55.jpg

RNN-T 的模型架构中,编码器网络由8层组成,预测网络由2层单向LSTM单元组成。 个性化ASR 模型重点调整编码网络,也就是模型中处理给定说话人声学数据的部分。研究人员发现,在固定住前三个编码层(同时固定他们的连接层和解码层)的同时,只更新底部五个编码层,可以获得最佳结果,并能够有效避免过度拟合。 为了使这些模型对背景噪声和其他声学效应更具鲁棒性,还用了一种专门针对无序语音的主要特征进行调整的SpecAugment配置。此外研究人员还发现,选择预训练的基础模型至关重要,最后他们选了一个在大型的通用语音语料库上训练的基础模型。 

56.jpg目前Google总共为大约430名演讲者训练了专属他们的个性化ASR模型,这些演讲者每人录了至少300条语音,把其中10%的话语作为一个测试集(训练和测试之间没有短语重叠),在这个测试集上计算个性化模型和通用语音模型的单词错误率(WER)作为评估标准。 实验结果表明,Google 提出的个性化方法在所有严重语言障碍条件下都有显著的改进。即使对于严重受损的言语,家居自动化领域短语的WER中位数也从89%左右下降到13%。在其他领域,如会话和护理人员交流下,准确性也有显著提高。


57.jpg在进行消融实验时,将实验分为几组:1、HighWER和LowWER:将说话人按照具有基于 WER 分布的第 1 和第 5 个五分位数的高和低划分个性化模型。2、SurpHighWER:具有特别高 WER 的说话人(在HighWER组具有典型的或轻度言语障碍的参与者)。 可以预见到,不同的病理和语言障碍表现会不均匀地影响 ASR。根据HighWER组中言语障碍类型的分布表明,由于脑瘫引起的构音障碍特别难以建模。该组的中位语言受损程度也更高。 为了确定影响 ASR 准确性的说话人特定和技术因素,研究人员检查了ASR 性能较差 ( HighWER ) 和优秀 ( LowWER )的参与者之间评级数据的差异。 和预期相同,LowWER组的总体言语受损程度显着低于HighWER组(p < 0.01)。清晰度是HighWER组中最突出的非典型语音特征,还包括异常的韵律、发音和发声。而这些语音特征在日常生活中也会降低整体语音清晰度。 SurpHighWER与比较组LowWER组(p <0.01)具有较少训练数据和更低的SNR ,除了速度外,其他所有的因素都对结果有较小的影响。相比之下,HighWER组在所有因素上表现出比较大的影响。58.jpg最后研究人员将个性化 ASR 模型与人类听众进行了比较。三位演讲专家独立地为每位演讲者转录了 30 句话。可以发现,与人类听众的 WER 相比,个性化 ASR 模型的 WER 平均较低,并且随着语言受损严重程度的增加而增加。AI人工智能时代,残疾人士也能享受到科技带来的人文关怀,AI 技术的发展可以给残障人士加上耳朵、说话加上字幕、让盲人借助CV技术重新“看“到世界,愿科技真正向善。60.jpg

相关文章
|
5月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
201 4
|
5月前
|
定位技术 TensorFlow API
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
Google Earth Engine (GEE)——张量流水灾模型数据集(Sentinel-1)
136 0
|
5月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
211 0
|
4月前
|
机器学习/深度学习 人工智能 TensorFlow
TensorFlow 是一个由 Google 开发的开源深度学习框架
TensorFlow 是一个由 Google 开发的开源深度学习框架
67 3
|
1月前
|
JavaScript 前端开发 测试技术
一个google Test文件C++语言案例
这篇文章我们来介绍一下真正的C++语言如何用GTest来实现单元测试。
16 0
|
3月前
|
存储 数据库 Android开发
🔥Android Jetpack全解析!拥抱Google官方库,让你的开发之旅更加顺畅无阻!🚀
【7月更文挑战第28天】在Android开发中追求高效稳定的路径?Android Jetpack作为Google官方库集合,是你的理想选择。它包含多个独立又协同工作的库,覆盖UI到安全性等多个领域,旨在减少样板代码,提高开发效率与应用质量。Jetpack核心组件如LiveData、ViewModel、Room等简化了数据绑定、状态保存及数据库操作。引入Jetpack只需在`build.gradle`中添加依赖。例如,使用Room进行数据库操作变得异常简单,从定义实体到实现CRUD操作,一切尽在掌握之中。拥抱Jetpack,提升开发效率,构建高质量应用!
62 4
|
3月前
|
人工智能 自然语言处理 数据挖掘
详解:Google AI Gemini中文版本(基于API 开发实现对话)
谷歌旗下的人工智能应用Gemini,自问世以来凭借其强大的计算能力和高效的处理性能,迅速成为全球用户的宠儿。作为一款由世界顶尖科技公司开发的产品,Gemini不仅在语言处理、图像识别、数据分析等领域表现出色,还在多种复杂任务中展现了其卓越的智能决策能力。然而,由于网络限制等问题,国内用户往往无法直接访问和使用Gemini的网站,这也导致了许多技术爱好者和专业人士未能亲身体验这一先进技术所带来的便利和强大功能。
|
4月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
5月前
|
运维 监控 Serverless
一键开启 GPU 闲置模式,基于函数计算低成本部署 Google Gemma 模型服务
本文介绍如何使用函数计算 GPU 实例闲置模式低成本、快速的部署 Google Gemma 模型服务。
164969 58
|
5月前
|
JSON Android开发 数据格式
Android框架-Google官方Gson解析,android开发实验报告总结
Android框架-Google官方Gson解析,android开发实验报告总结