技术视界|多模态说话人开源项目3D-Speaker

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 技术视界|多模态说话人开源项目3D-Speaker

本文来源:阿里云语音AI


3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。


本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究,供各位AI开发爱好者品鉴。



‍▎结合视觉信息的说话人日志技术


在现实场景中,传统的纯音频说话人日志方案往往受限于低质量语音环境而性能表现下降。特别是在信道切换、噪声干扰的复杂声学环境中,容易产生说话人混淆和说话人转换点不清晰等错误。


相比之下,视觉信息不会受到相应的干扰,许多研究也表明视觉信息可以增强人类对语音信息的感知,提升相应的理解和识别能力。因此,在3D-Speaker项目中,我们开源了结合视觉信息的多模态说话人日志技术,通过挖掘视觉信息进一步改进说话人识别能力。

系统如下图所示,除了基于声学的识别路线,我们增加了视觉模态识别pipeline。前者仍然采用声学编码器提取包含说话人信息的声学特征。后者,考虑到人物脸部的动作行为和语音活动高度相关,并且受到声学环境的影响较小,我们重点分析和提取人物脸部的活动特征,通过视觉-音频多模态检测模块识别出当前画面中正在说话的人物信息。最后我们采用一个联合的多模态无监督聚类得到最终的识别结果。 image.svg

image.png

我们在一个2-10人且包含访谈、综艺等多种类型视频数据集上进行试验,实验结果表明,结合了视觉信息的说话人日志系统在分割错误率(Diarization Error Rate)上有着显著的提升。 image.svg

image.png


开源代码链接向下:

https://github.com/alibaba-damo-academy/3D-Speaker/blob/main/egs/3dspeaker/speaker-diarization/run_video.sh


执行即可下载样例视频并进行多模态说话人识别,生成包含说话人标签的结果文件。


‍▎结合语义的说话人日志技术


3D-Speaker开源了结合语义信息的说话人日志技术,将说话人日志任务从传统的根据时间戳切割音频,转化为直接对识别的文本内容进行说话人区分。


>>>结合局部语义说话人日志系统


经典的纯声学方案的说话人日志在说话人音色相近,频繁发生切换、抢话等现象,以及声学环境复杂的情况下往往容易产生说话人混淆、说话人转换点不清晰等错误,针对这些问题我们提出了结合语义的说话人日志系统。


我们的系统如下图所示,区别于直接进行聚类的说话人日志系统的pipeline,我们通过引入Forced-Alignment模块来对齐文本和speaker embedding过程,并且将ASR输出的文本结果输入到语义模块中来提取说话人相关的语义信息。


关于语义部分,我们提出了两个用于提取语义中说话人信息的模块:对话预测(Dialogue Detection)说话人转换预测(Speaker-Turn Detection),这两个模型基于Bert模型,使用大量带说话人ID的会议文本进行训练,可以用于判断多人对话的局部是否有说话人转换发生以及说话人转换发生的具体文本位置。

image.png

由于语义模块的结果也包含一些错误,尤其是在ASR系统解码出的文本上,文本错误会使得语义模型的性能有所下降,我们同时设计了一系列简单而有效的fusion策略来结合语音信息的说话人聚类结果,可以显著提升上述两个子模块的效果。


通过结合传统说话人聚类的结果和语义说话人信息,我们可以对纯音频信息的说话人日志结果进行优化。我们在AIShell-4和M2MeT(Alimeeting)数据上的结果表明,结合语义的说话人日志系统在speaker-wer和cp-wer上都有显著提升。

image.png

相关模型已经开源:


语义对话预测模型👇:


https://modelscope.cn/models/iic/speech_bert_dialogue-detetction_speaker-diarization_chinese/summary


语义说话人转换预测👇:


https://modelscope.cn/models/iic/speech_bert_semantic-spk-turn-detection-punc_speaker-diarization_chinese/summary


相关技术论文👇


https://aclanthology.org/2023.findings-acl.884.pdf


>>>语义说话人信息的全局扩散


上述语义说话人信息模块对说话人日志系统的主要作用在于说话人日志局部结果的修正,缺少对于全局说话人结果的优化。因此,我们提出了基于成对约束扩散方法的说话人日志系统(Joint Pairwise Constraints Propagation,JPCP),将局部说话人语义信息对全局说话人日志结果产生影响。


首先我们利用语义模块将说话人语义信息总结成两类成对约束(Pairwise Constraints):Must-Link和Cannot-Link。例如Dialogue Detection判断为非多人对话的一段时间中所有的speaker embedding都在Must-Link中,而Speaker-Turn Detection判断为转换点前后两段的speaker embeddings都在Cannot-Link中,这样我们就可以将语义信息抽象成方便使用的约束信息。


为了减少部分语义结果解码错误或者ASR解码文本错误,我们还设计了一个简单但有效的方法对Must-Link和Cannot-Link进行修正。

image.png

接下来将这些成对约束用于speaker embedding降维和说话人聚类过程中:(1)利用SSDR(semi-supervised dimension reduction)策略,利用特征值优化将成对约束引入到speaker embedding降维之中,调整了其用于聚类的speaker embedding分布。(2)引入了E2CP(exhaustive and efficient constraint propagation)方法,利用成对约束调整聚类相似度矩阵,从而改进说话人聚类的效果。

image.png

我们的实验基于AIShell-4数据集,该数据集包括人数较多的多说话人会议,输入进入语义模块的文本则来自于ASR系统的解码结果。可以看到我们提出的JPCP方案可以有效提高说话人聚类的效果,并且说话人人数预测错误也得到一定的缓解。


同时为了探索我们方案的上限,我们还在仿真的成对约束上充分探索了我们方案的上限,可以看到当constraints的质量和数量进一步提升时,最终的结果有显著的提升,并且可以更好的减少说话人日志系统说话人人数预测错误。

image.png


相关技术论文

https://arxiv.org/pdf/2309.10456.pdf


‍▎基于经典声学信息进行说话人和语种识别


3D-Speaker作为一个说话人开源项目,也包含了基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中,说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。


3D-Speaker提供了多种数据增强算法,多模型训练,多损失函数等内容,在各通用数据集上(3D-Speaker, VoxCeleb和CN-Celeb)实现一键式训练推理,简单高效。


多种数据增强算法包括在线WavAugment和SpecAugment增强方式,与离线增强相比,具有增加音频多样性和随机性,提高特征提取鲁棒性,减小磁盘存储等优势。


多模型训练支持各经典模型多卡并行训练,不仅包含经典模型ECAPA-TDNN, ResNet和Res2Net训练代码,还新增自研轻量级模型CAM++和短时鲁棒ERes2Net模型,提升效率的同时增强识别准确率。


多损失函数包含margin-based softmax系列损失函数,提供准确的学习率调节方案和margin变换值,也可使用large-margin-finetune提取区分性更强的说话人矢量。


>>>说话人识别


典型的说话人识别框架一般由帧级别的特征学习层,特征聚合层,段级别表征学习层和分类层构成。通过说话人区分性的训练准则学习鲁棒性说话人特征矢量。


全监督说话人识别框架


在全监督说话人识别中,我们提出一种基于上下文感知的说话人识别网络(CAM++)和基于全局和局部特征融合的增强式网络(ERes2Net)。

(1) 一个基于上下文感知的说话人识别网络


在说话人识别领域中,主流的说话人识别模型大多是基于时延神经网络或者二维卷积网络,这些模型获得理想性能的同时,通常伴随着较多的参数量和计算量。因此我们提出高效的说话人识别模型CAM++。该模型主干部分采用基于密集型连接的时延网络(D-TDNN),每一层的输入均由前面所有层的输出拼接而成,这种层级特征复用可以显著提高网络的计算效率。同时,D-TDNN的每一层都嵌入了一个轻量级的上下文相关的掩蔽(Context-aware Mask,CAM)模块。


CAM模块通过全局和段级的池化操作,提取不同尺度的上下文信息,生成的mask可以去除掉特征中的无关噪声。TDNN-CAM形成了局部-段级-全局特征的统一建模,可以学习到特征中更加丰富的说话人信息。CAM++前端嵌入了一个轻量的残差二维卷积网络,可以捕获更加局部和精细的频域信息,同时还对输入特征中可能存在的说话人特定频率模式偏移具有鲁棒性。

image.png

(图示:CAM++模型结构示意图)



相关技术论文:

https://www.isca-speech.org/archive/pdfs/interspeech_2023/wang23ha_interspeech.pdf


(2)基于全局和局部特征融合的增强式网络


有效融合多尺度特征对于提高说话人识别性能至关重要。现有的大多数方法通过简单的操作,如特征求和或拼接,并采用逐层聚合的方式获取多尺度特征。本文提出了一种新的架构,称为增强式Res2Net(ERes2Net),通过局部和全局特征融合提高说话人识别性能。


局部特征融合将一个单一残差块内的特征融合提取局部信号;全局特征融合使用不同层级输出的不同尺度声学特征聚合全局信号。为了实现有效的特征融合,ERes2Net架构中采用了注意力特征融合模块,代替了求和或串联操作。

image.png

(图示:ERes2Net模型结构示意图)

相关技术论文:https://www.isca-archive.org/interspeech_2023/chen23o_interspeech.pdf


自监督说话人识别框架


自监督学习是从一种无标签的数据中发掘潜在标签信息从而提取鲁棒性特征的方法。在当前海量无标签语音数据的条件下,训练一个鲁棒性强的说话人识别系统是一个极具挑战性的任务。基于此,我们提出了两种非对比式自监督学习框架正则化DINO(Regularized Distillation with NO labels)和自蒸馏原型网络(Self-Distillation Prototypes Network)。


(1) 正则化DINO框架的自监督说话人识别


传统的非对比式自监督学习框架存在模型坍塌的问题。基于此,我们将自监督学习框架DINO应用于说话人识别任务,并针对说话人识别任务提出多样性正则和冗余度消除正则。多样性正则提高特征多样性,冗余度正则减小特征冗余度。不同数据增强方案的优劣在该系统中得以验证。大量的实验在公开数据集VoxCeleb上开展,表现出Regularized DINO框架的优越性。

image.png

(图示:正则化DINO框架图)


相关技术论文:


https://arxiv.org/pdf/2211.04168.pdf


(2)基于自蒸馏原型网络的自监督说话人识别


深度学习在说话人识别中广泛应用并取得优异性能,但是利用大量有标签语音数据训练神经网络提取说话人嵌入矢量需要耗费极大的人工成本,所以如何利用海量无标签数据获取优质说话人矢量成为一大研究痛点。


因此我们提出一种基于自蒸馏原型网络的自监督学习说话人确认方法,提高说话人嵌入矢量的泛化性能。

image.png

(图示:自蒸馏原型网络框架图)


自蒸馏原型网络由教师模型和学生模型构成,如上图所示,将同一条语音切分成若干长时和短时语音,长时语音输入教师特征编码器,教师多层感知机以及原型网络,短时语音输入学生特征编码器,学生多层感知机以及原型网络,使用教师模型输出指导学生模型输出,完成自蒸馏过程。


相关技术论文:


https://arxiv.org/pdf/2308.02774.pdf


>>>语种识别


语种识别通过网络提取语音中具有语种信息的矢量进行语种判别。主要分为传统的语种识别算法与结合音素信息的语种识别算法。传统的语种识别算法与说话人识别框架相似,通过上述网络(CAM++, ERes2Net或ECAPA-TDNN)提取具有语种信息的矢量,通过训练收敛的分类器来直接输出当前语种信息。传统语种识别算法无法准确识别背景噪声大,远场数据,短时数据以及非同源数据等情况。


基于此,我们结合语音识别中提取的音素信息来进一步提升特征鲁棒性。当前训练脚本使用开源数据集3D-Speaker中各方言数据,包含普通话,粤语以及各地官话等,也可自行构造训练集识别其他语种。

image.png

(图示:结合音素信息的语种识别框图)


‍▎3D-Speaker数据集开源


3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究。

image.png


下载地址:


https://3dspeaker.github.io/


数据集论文:


https://arxiv.org/pdf/2306.15354.pdf



参考文献:

[1] Park, Tae Jin, et al. "A review of speaker diarization: Recent advances with deep learning." Computer Speech & Language 72 (2022): 101317.[2] Tao Ruijie, Pan Zexu, et al. "Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection." Proceedings of the 29th ACM International Conference on Multimedia.[3] Devlin, Jacob et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” North American Chapter of the Association for Computational Linguistics (2019).[4] Fu, Yihui, et al. "Aishell-4: An open source dataset for speech enhancement, separation, recognition and speaker diarization in conference scenario." arXiv preprint arXiv:2104.03603 (2021).[5] Yu, Fan, et al. "M2MeT: The ICASSP 2022 multi-channel multi-party meeting transcription challenge." ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022.[6] Zhang, Daoqiang, Zhi-Hua Zhou, and Songcan Chen. "Semi-supervised dimensionality reduction." Proceedings of the 2007 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics, 2007.[7] Lu, Zhiwu, and Yuxin Peng. "Exhaustive and efficient constraint propagation: A graph-based learning approach and its applications." International journal of computer vision 103.3 (2013): 306-325.

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
57 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
1月前
|
人工智能 自然语言处理 搜索推荐
ECCV 2024:一眼临摹:瞥一眼就能模仿笔迹的AI
 【10月更文挑战第10天】在人工智能领域,手写文本生成技术迎来新突破。最新研究提出“一眼临摹”AI技术,仅需一个手写样本文即可模仿任意书法风格。该技术核心为One-DM模型,结合扩散模型与风格增强模块,实现高效、多样且高质量的手写文本生成,广泛应用于数字签名、个性化信件及艺术创作等领域。
27 2
|
1月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
3月前
|
前端开发 语音技术
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
|
3月前
|
人工智能 算法 数据挖掘
技术沙龙直播|3D-Speaker多模态说话人开源详解
技术沙龙直播|3D-Speaker多模态说话人开源详解
|
4月前
|
vr&ar 计算机视觉
太全了!苹果上新视觉模型4M-21,搞定21种模态
【7月更文挑战第4天】苹果携手EPFL发布4M-21模型,能处理21种模态,如图像、文本、音频,实现多模态任务处理。该模型通过多任务学习和模态转换技术,提升泛化与生成能力,广泛应用于内容创作及分析。然而,高数据需求、计算资源消耗和可解释性是其挑战。[链接: https://arxiv.org/pdf/2406.09406]
60 1
|
5月前
支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
【6月更文挑战第14天】华科等机构推出 UniAnimate 框架,能生成逼真的人类跳舞视频,尤其适合动画、虚拟偶像和游戏领域。该框架采用视频扩散模型,减少优化难度,确保时间一致性,且支持生成长达一分钟的高清视频。虽然存在动作不自然和计算成本高的问题,但已在实验中展现出优于现有技术的表现。[链接](https://arxiv.org/abs/2406.01188)
110 4
|
6月前
|
机器学习/深度学习 人工智能 语音技术
AI让失语者重新说话!纽约大学发布全新神经-语音解码器
【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)
74 5
|
5月前
|
机器学习/深度学习 人工智能 算法
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
601 0