攻破“鸡尾酒会”难题,人声分离给生活带来了哪些改变?

简介: 试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。

24086fbac54b23b8a2c38bf782e2180e.jpg

试想一下,在一个嘈杂的鸡尾酒会上,同时存在着许多不同的声源:多个人同时说话的声音、餐具的碰撞声、音乐声等等。如何在酒会上分辨出特定人物的声音,这对于我们人类来说十分简单。


但对于计算机来说,要把一个音频信号分割成多个不同的语音来源,依然有许多棘手的问题需要解决。当许多人的语音交叠在一起的时候,AI时常措手不及。1953年Cherry提出“鸡尾酒会”问题至今,仍然没有人能够解决机器深度学习识别分离人声的问题。


但是,近日在GoogleResearch 软件工程师 Inbar Mosseri 和Oran Lang 发表的论文《Looking to Listen at the CocktailParty》中,采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道。



音频-视觉语音分离模型,解决“鸡尾酒会效应”

为了解决“鸡尾酒会”问题,谷歌从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本,通过约2000 个小时的视频片段分析,训练出基于多流卷积神经网络(CNN)的模型,将合成鸡尾酒会片段分割成视频中每个说话者的单独音频流。


d5a6882894e239c8488faec7effaeada.jpg该试验中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨,并对应上相应的说话者。


所谓的音频-视觉语音分离模型,就是加强选中人的语音,同时减弱同一时间其他人的音量。该方法适用于具有单一(主)音轨的常见视频,用户也可以自行选择倾听对象来生成对其的单一音轨,或者基于语境由算法进行对特定发声对象进行选择。


而在模型训练过程中,网络系统(分别)学习了视觉和音频信号的编码,然后将它们融合在一起形成一个音频-视觉表现。通过这种表现,网络系统可以学会为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而形成每一位说话者单独纯净的音频信号。


8ecda04f8f407fc39eff1590f6202ef5.jpg基于神经网络模型架构

此外,在多人发声的场景下,视觉信号除了有效提升语音分离的质量,还可以把分离之后的音轨和视频里的人物对应起来。此种方式为其后的语音识别领域提供了许多的可能性。 


解决“鸡尾酒会效应”这一难题意味着什么?

“鸡尾酒会效应”难题的解决为语音识别领域的许多问题提供了思考路径,同时视觉-音频网络识别系统的提出,也为人声分离提供了视觉+听觉的解决方式。随着技术落地,当人声分离技术真正应用于市场中会对产品有哪些改变呢?智能相对论分析师柯鸣认为,其在以下四个方面会有较大突破。


       1.    人声分离助力CC(隐藏式字幕)发展


隐藏字幕(Closed Captioning)是电视节目和电影中为有特殊情况或者需要的观众准备的字幕,其可以起到用解释性语言描述画面的作用。


Caption 这个词,有辅助听力障碍的人士用意。Caption一般还包含了效果音的提示,这些声音正常人可以分辨,而对于障碍人士则必须通过字幕。


比如美国的「流言终结者」节目,除了可以看到「TV PG」分级标签以外,也显示了 CC 标志表明节目提供隐藏式字幕,以此来服务那些需要特殊帮助的群体。



7a9715a704753d97f7a65d0498a6d244.jpg《流言终结者》

同样,谷歌人声分离技术对于促进CC发展有较大前景。多通道系统中对于特定人声的分离能够简化节目、电影制作流程,其在语音识别的预处理,以及视频字幕方面能产生良好效果。


对于视频自动字幕加载系统而言,多名发生者同时发声导致的语音重叠现象是一项已知的挑战,与此同时,将音频分离至不同的源也有助于呈现更加准确和易读的字幕。人声分离技术可以在语音原声的基础上直译出各个对话主题的声音,并将其分开,利用AI实现字幕自动化,这极大程度上保证了字幕的同步性与准确性。 


2. 人声分离降低AI同传“乌龙率”


在2018年博鳌论坛上,腾讯AI同传搞了一个大乌龙。除了翻译不准确的问题意外,现场还被曝光翻译系统崩溃“抽风”,出现乱码的情况,让现场相当尴尬。

ae469be524f52d16a67fbd289403c8b2.jpg

腾讯AI同传的“车祸”现场

事后,腾讯指出:出现此种乌龙的原因在于中英双语切换频率的问题。当声源在两种语言之间不断转换时,后台中、英文识别引擎就会同时开始工作,这会导致两种识别引擎互相“掐架”,语音识别混乱。最终翻译结果只能选择一种语言进行输出,导致引发错误。


而人声分离技术的应用,似乎为AI同传中的人声识别提供了一个有效的解决途径。对于多种语言的识别流畅化后,AI同传的质量也相应会得到一定的提高。


3. 或可为智能音响提供“保险箱”

086ec38d23faa38806dd17a2d6ad4815.jpg

AI人声分离加强智能音响识别精准度

智能音箱的问世,使得普通家庭进入了语音互动的时代,其使用的简易性甚至超过了智能手机。有业者认为,智能音箱将会取代智能手机,成为家庭自动化或者智能家居生活的入口,自然语言对话将成为主流和高效率的用户界面。


与此同时,智能音响在应用过程中,也面临着诸多挑战,其主要体现在语音识别技术、声纹识别等诸种技术上。目前,智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的场景。


为此,微软在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。


但是,效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。日后,随着智能家居的普及,智能音响成为了物联网环境下与其他家居沟通的“钥匙”,而AI人声分离技术的应用,攻克技术问题的同时也为智能音响提供了一个安全性较强的“保险箱”。


4. 为无人驾驶提供仿生启示


“鸡尾酒会效应”在动物界的应用为无人驾驶提供一定启示。以蝙蝠躲避障碍和捕食为例,其在飞行过程中会发射一系列超声波,超声波遇到障碍后反射回来,蝙蝠通过感知反射信号到达两耳的时间差来判断障碍物的方向,通过感知反射信号的强度来判断障碍物的距离。


蝙蝠发出的超声信号一般是在110kHz的一个扫频信号,通过感知不同频率信号的衰减程度,就可以辨别障碍物的材质,进而可以判断障碍物是否为捕食对象。


蝙蝠是如何区分自己和他人发出的超声波信号的呢?科学家通过研究发现,蝙蝠并没有改变发出的超声频率,而是通过叫声变大,持续时间变长,发射频率增多等方式来解决的。


动物界的“鸡尾酒会效应”启示无人驾驶:想提高雷达的定位精度,提高信噪比是根本。比如,蝙蝠叫声变大,相当于提高了信号的能量;而叫声持续时间变长和叫声频率增多,则是增加了信号的样本点数。在噪声不相关的情况下,经过简单的平均就可以降低噪声的影响。这一点,将会为机器人和无人驾驶汽车带来了新的启发。



ff5b348bd1fcbaa2f46aafda08be577e.jpg

无人驾驶的激光雷达探测

此外,视觉-音频语音识别分离模型应用于无人驾驶领域能大程度提高雷达、激光等距离传感器测量出路面信息的性能,而这正是无人驾驶安全保障的基础。


随着日后无人驾驶的普及,人声分离模式或可衍生出“雷声分离”,将雷达误收风险降到最低,从而保证无人驾驶障碍识别方面的安全性。


 诚然,新技术的应用需要一段时间。谷歌官方目前也表示:“正在探索使用这个技术到谷歌系列产品中去”。随着“鸡尾酒会”难题的解决,AI语音识别将会有长足进展。具体投入产品后表现怎样,还需要市场来检验。


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
透过现象看创本质的能力-从忒休斯之船到系统论
透过现象看创本质的能力-从忒休斯之船到系统论
|
5月前
全息近眼显示技术如何实现三维图像再现?
【6月更文挑战第26天】全息近眼显示技术如何实现三维图像再现?
38 4
|
5月前
|
5G 数据处理 数据安全/隐私保护
全息技术对环境有何影响?
【6月更文挑战第27天】全息技术对环境有何影响?
34 1
|
6月前
|
人工智能 边缘计算 自然语言处理
应对新的挑战!ChatGPT将如何改变多域作战?
应对新的挑战!ChatGPT将如何改变多域作战?
49 0
|
传感器 XML 定位技术
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
《移动互联网技术》第九章 感知与多媒体: 了解质感设计的基本原则和设计方法
98 0
|
机器学习/深度学习 编解码 人工智能
好的媒体处理框架都具备这三点特征
从 2017 年开始,音视频应用平台开始逐步关注带宽成本以及观看体验,腾讯从那个时候开始研发极速高清的技术,在研发过程中他们遇到了哪些挑战?业界在高清视频方面又有哪些技术方案?本期,我们采访了腾讯专家工程师赵军,他结合自己的实践经验给出了答案。以下是采访文章整理,期待对你有所启发~
162 0
好的媒体处理框架都具备这三点特征
|
人工智能 算法 搜索推荐
融合本地化差分隐私的去中心化社交网络图合成
大量有价值的信息存在于分散的社交图中,其中没有实体可以访问完整的图结构。相反,每个用户在本地维护图形的有限视图。例如,在电话网络中,每个用户都在本地电话中保留联系人列表,并且无法访问其他用户的联系人。所有用户的联系人列表形成一个隐含的社交图,这对研究不同人群之间的交互模式非常有用。
4258 0
《伟大的小细节:互联网产品设计中的微创新思维》——3.4 身份特征与使用习惯因素
本节书摘来自华章计算机《伟大的小细节:互联网产品设计中的微创新思维》一书中的第3章,第3.4节,作者:文哲著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1141 0