谷歌开发全新监督学习模型区分讲话者声音,准确率达92.4%

简介: 谷歌仍在持续改进这一模型,希望可以整合上下文信息并执行离线解码,进一步降低错误率

雷锋网消息,将含有多人语音的音频流分割为与每个人相关联的同类片段的过程,是语音识别系统的重要部分。通过解决“谁在讲话”的问题,区分讲话者的能力可以应用于许多重要场景,例如理解医疗对话和视频字幕等。

这个过程对人类来说相当容易,但对于计算机而言则完全不同,它需要先进的机器学习算法来训练它们以便挑选出每个人的声音,使用监督学习方法训练这些系统非常具有挑战性。

谷歌的人工智能研究科学家Chong Wang在一篇博客文章中说,他们最近开发出了一种名为“全监督讲话者区分”的新模型,该模型试图以更有效的方式使用受监督的讲话者标签。这里的“全”意味着讲话者区分系统中的所有模块,包括统计讲话者数量,都以受监督的方式进行训练,以便它们可以从增加可用的标记数据量中受益。

与标准监督区分任务不同,强大的区分模型需要能够将新个体与不参与训练的不同语音段相关联,这极大的限制了在线和离线区分系统的质量,且在线系统通常会受到更多影响,因为它们需要实时的分拣结果。

TB1UvIgphjaK1RjSZFAXXbdLFXa.gif

在NIST SRE 2000 CALLHOME基准测试中,该系统的DER(Diarization Error Rate,区分错误率)低至7.6%,优于之前基于聚类的方法的8.8%,以及基于DNN嵌入方法的9.9%。此外该系统基于在线解码,特别适用于实时应用。为了加速沿此方向的更多研究,谷歌选择了开源核心算法。

聚类与交错态RNN

现代讲话者区分系统通常基于聚类算法,如k均值或谱聚类。这些聚类方法是无监督的,无法充分利用数据中可用的监督讲话者标签。而在线聚类算法通常在具有流式音频输入的实时应用中区分质量较差。

(雷锋网(公众号:雷锋网)注1:k均值聚类是一种矢量量化方法,最初来自信号处理,是数据挖掘中聚类分析的常用方法。 k均值聚类的目的是将n个观测值划分为k个聚类,其中每个观测值属于具有最近均值的聚类,作为聚类的原型。)

(雷锋网注2:谱聚类技术利用数据相似矩阵的谱(特征值)进行降维,然后在更小的维数下聚类,提供相似性矩阵作为输入,并且包括对数据集中每对点的相对相似性的定量评估。)

谷歌的新模型和常见聚类算法的关键区别在于,所有讲话者的嵌入都是通过参数共享RNN建模的,并且使用了不同的RNN状态在时域内交错区分不同的讲话者。

为了了解其工作原理,谷歌制作了以下示例,其中有蓝、黄、粉、绿四种可能的讲话者,每个讲话者以其自己的RNN实例(在所有讲话者之间共享的公共初始状态)开始,并且在给定来自该讲话者的新嵌入的情况下保持更新RNN状态。

在示例中,蓝色讲话者不断更新其RNN状态,直到另一个讲话者黄色进入。如果蓝色稍后再说,它将恢复更新其RNN状态。(这只是下图中语音段y7的可能性之一,如果新的讲话者绿色进入,它将以新的RNN实例开始。)

TB1vCAcphYaK1RjSZFnXXa80pXa.gif

将讲话者表示为RNN状态使模型能够学习使用RNN参数在不同讲话者和话语之间共享的高级知识,这保证了更多标记数据的可用性。相比之下,常见的聚类算法几乎总是独立处理每个单独的话语,难以从大量标记数据中受益。

所有这一切的结果是,可以通过给定时间标记的讲话者标签(即知道谁在什么时候讲话),用标准的随机梯度下降算法训练模型,训练好的模型可以对没有听过的讲话者的新话语进行区分。此外,使用在线解码使其更适合对延迟敏感的应用程序。

(雷锋网注3:随机梯度下降算法也称为增量梯度下降算法,是用于优化可微分目标函数的迭代方法,是梯度下降优化的一种随机近似。被称为随机是因为样本是随机选择(或混洗)而不是作为单个组(如标准梯度下降)或按训练集中出现的顺序选择的。)

未来的工作

Constellation Research的分析师Holger Mueller表示,人类的说话速度比打字速度快,语音是一种更为自然的输入法。

“在嘈杂的环境中进行语音识别很难,特别是在多人说话时。”Holger Mueller说,“这个领域的任何进展都将进一步推动语音交互的应用,谷歌这套系统的出现,似乎正在尝试打破用户与智能设备的互动极限。”

尽管已经通过该系统取得了令人印象深刻的性能,谷歌仍在持续改进这一模型,希望可以整合上下文信息并执行离线解码,进一步降低DER,这对延迟不敏感的应用程序更有用。其次谷歌还想直接模拟声学特征而不是使用d向量,通过端到端的方式训练整个讲话者区分系统。

与此同时,Chong Wang的团队还决定将新算法开源并提供给GitHub,以便其他人参与并作出贡献。

目录
打赏
0
0
0
0
22
分享
相关文章
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。
89 13
Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
Emotion-LLaMA 是一款多模态情绪识别与推理模型,融合音频、视觉和文本输入,通过特定情绪编码器整合信息,广泛应用于人机交互、教育、心理健康等领域。
261 11
Emotion-LLaMA:用 AI 读懂、听懂、看懂情绪,精准捕捉文本、音频和视频中的复杂情绪
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
100 8
ICML 2024 Spotlight:在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好
【7月更文挑战第13天】ICML 2024 Spotlight: Decoding-time Realignment改善语言模型,减少幻觉,增强人类偏好一致性。研究提出在解码阶段动态调整模型对齐,通过控制参数实现对齐与性能平衡,提高泛化能力。尽管面临参数选择及计算资源挑战,该技术为优化AI文本生成对齐提供了新途径。[论文链接](https://openreview.net/forum?id=n8g6WMxt09&noteId=E3VVDPVOPZ)**
124 9
3D-Speaker说话人任务的开源项目问题之提升语种识别的特征鲁棒性的问题如何解决
3D-Speaker说话人任务的开源项目问题之提升语种识别的特征鲁棒性的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
AI让失语者重新说话!纽约大学发布全新神经-语音解码器
【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)
123 5
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等