3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

简介: 3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。
  2. 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。
  3. 应用:适用于会议记录、法庭记录、广播电视制作、电话客服和安全监控等场景。

正文(附运行示例)

3D-Speaker 是什么

公众号: 蚝油菜花 - 3D-Speaker

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,旨在通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。

3D-Speaker的最新更新增强了多说话人日志功能,提升了识别效率和准确性,适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

  • 说话人日志:将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。
  • 说话人识别:确定音频中说话人的身份。
  • 语种识别:识别音频中说话人所使用的语言。
  • 多模态识别:结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。
  • 重叠说话人检测:能识别出音频中任意说话人重叠的区域。

3D-Speaker 的技术原理

  • 声学信息处理:声学编码器提取包含说话人信息的声学特征,应用数据增强算法提高特征提取的鲁棒性。
  • 视觉信息融合:分析和提取人物脸部活动特征,基于视觉-音频多模态检测模块识别出当前画面中正在说话的人物信息。
  • 语义信息融合:结合语义信息,将说话人日志任务转化为对识别的文本内容进行说话人区分,使用基于Bert模型的对话预测和说话人转换预测模块提取语义中的说话人信息。
  • 端到端说话人日志(EEND):采用EEND网络直接输出每个说话人的语音活动检测结果,识别任意说话人重叠区域。
  • 无监督聚类:结合传统的“特征提取-无监督聚类”框架进行全局人数检测,输出粗粒度的说话人ID段落结果。

如何运行 3D-Speaker

安装 3D-Speaker

git clone https://github.com/modelscope/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行实验

# 说话人验证:ERes2NetV2 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-eres2netv2/
bash run.sh

# 说话人验证:CAM++ 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-cam++/
bash run.sh

# 说话人验证:ECAPA-TDNN 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-ecapa/
bash run.sh

使用预训练模型进行推理

# 安装 modelscope
pip install modelscope

# ERes2Net 训练于 200k 标记说话人
model_id=iic/speech_eres2net_sv_zh-cn_16k-common

# ERes2NetV2 训练于 200k 标记说话人
model_id=iic/speech_eres2netv2_sv_zh-cn_16k-common

# CAM++ 训练于 200k 标记说话人
model_id=iic/speech_campplus_sv_zh-cn_16k-common

# 运行 CAM++ 或 ERes2Net 推理
python speakerlab/bin/infer_sv.py --model_id $model_id

# 运行批量推理
python speakerlab/bin/infer_sv_batch.py --model_id $model_id --wavs $wav_list

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
人工智能 运维 算法
通义灵码软件工程大模型获顶会最高奖!
近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文
|
5月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
920 0
|
2月前
|
JSON 缓存 测试技术
程序出错瞎找?教你写“会说话”的错误日志,秒定位原因
错误日志是排查问题的“导航地图”。本文详解错误三大来源:参数非法、交互故障、逻辑疏漏,并分享写好日志的6大原则——完整、具体、直接、集成经验、格式统一、突出关键字,助你快速定位问题,提升系统可维护性。
197 0
|
3月前
|
人机交互 API 开发工具
基于通义多模态大模型的实时音视频交互
Qwen-Omni是通义千问系列的全新多模态大模型,支持文本、图像、音频和视频的输入,并输出文本和音频。Omni-Realtime服务针对实时交互场景优化,提供低延迟的人机交互体验。
541 23
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型

热门文章

最新文章

下一篇
开通oss服务