3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

简介: 3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持说话人日志、说话人识别、语种识别、多模态识别和重叠说话人检测。
  2. 技术:结合声学、语义和视觉信息,采用EEND网络和无监督聚类技术。
  3. 应用:适用于会议记录、法庭记录、广播电视制作、电话客服和安全监控等场景。

正文(附运行示例)

3D-Speaker 是什么

公众号: 蚝油菜花 - 3D-Speaker

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,旨在通过结合声学、语义和视觉信息,实现高精度的说话人识别和语种识别。项目提供了工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,支持高挑战性的语音研究。

3D-Speaker的最新更新增强了多说话人日志功能,提升了识别效率和准确性,适用于大规模对话数据的高效处理。

3D-Speaker 的主要功能

  • 说话人日志:将音频划分为属于不同说话人的多个段落,识别出每个说话人的开始和结束时间。
  • 说话人识别:确定音频中说话人的身份。
  • 语种识别:识别音频中说话人所使用的语言。
  • 多模态识别:结合声学、语义、视觉信息,增强识别能力,尤其是在复杂声学环境中。
  • 重叠说话人检测:能识别出音频中任意说话人重叠的区域。

3D-Speaker 的技术原理

  • 声学信息处理:声学编码器提取包含说话人信息的声学特征,应用数据增强算法提高特征提取的鲁棒性。
  • 视觉信息融合:分析和提取人物脸部活动特征,基于视觉-音频多模态检测模块识别出当前画面中正在说话的人物信息。
  • 语义信息融合:结合语义信息,将说话人日志任务转化为对识别的文本内容进行说话人区分,使用基于Bert模型的对话预测和说话人转换预测模块提取语义中的说话人信息。
  • 端到端说话人日志(EEND):采用EEND网络直接输出每个说话人的语音活动检测结果,识别任意说话人重叠区域。
  • 无监督聚类:结合传统的“特征提取-无监督聚类”框架进行全局人数检测,输出粗粒度的说话人ID段落结果。

如何运行 3D-Speaker

安装 3D-Speaker

git clone https://github.com/modelscope/3D-Speaker.git && cd 3D-Speaker
conda create -n 3D-Speaker python=3.8
conda activate 3D-Speaker
pip install -r requirements.txt

运行实验

# 说话人验证:ERes2NetV2 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-eres2netv2/
bash run.sh

# 说话人验证:CAM++ 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-cam++/
bash run.sh

# 说话人验证:ECAPA-TDNN 在 3D-Speaker 数据集上
cd egs/3dspeaker/sv-ecapa/
bash run.sh

使用预训练模型进行推理

# 安装 modelscope
pip install modelscope

# ERes2Net 训练于 200k 标记说话人
model_id=iic/speech_eres2net_sv_zh-cn_16k-common

# ERes2NetV2 训练于 200k 标记说话人
model_id=iic/speech_eres2netv2_sv_zh-cn_16k-common

# CAM++ 训练于 200k 标记说话人
model_id=iic/speech_campplus_sv_zh-cn_16k-common

# 运行 CAM++ 或 ERes2Net 推理
python speakerlab/bin/infer_sv.py --model_id $model_id

# 运行批量推理
python speakerlab/bin/infer_sv_batch.py --model_id $model_id --wavs $wav_list

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
2838 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
12月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
本文介绍了阿里集团A+流量分析平台的日志查询优化方案,针对万亿级日志数据的写入与查询挑战,提出基于Flink、Paimon和StarRocks的技术架构。通过Paimon存储日志数据,结合StarRocks高效计算能力,实现秒级查询性能。具体包括分桶表设计、数据缓存优化及文件大小控制等措施,解决高并发、大数据量下的查询效率问题。最终,日志查询耗时从分钟级降至秒级,显著提升业务响应速度,并为未来更低存储成本、更高性能及更多业务场景覆盖奠定基础。
|
Java 微服务 Spring
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录——使用Logger在项目中打印日志
本文介绍了如何在项目中使用Logger打印日志。通过SLF4J和Logback,可设置不同日志级别(如DEBUG、INFO、WARN、ERROR)并支持占位符输出动态信息。示例代码展示了日志在控制器中的应用,说明了日志配置对问题排查的重要性。附课程源码下载链接供实践参考。
1385 0
|
12月前
|
Java 应用服务中间件 Linux
Tomcat运行日志字符错乱/项目启动时控制台日志乱码问题
总结: 通过以上几种方法,概括如下:指定编码格式、设置JVM的文件编码、修改控制台输出编码、修正JSP页面编码和设置过滤器。遵循这些步骤,你可以依次排查和解决Tomcat运行日志字符错乱及项目启动时控制台日志乱码问题。希望这些建议能对你的问题提供有效的解决方案。
2114 16
|
人工智能 数据可视化 数据挖掘
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
QVQ-Max是阿里通义推出的新一代视觉推理模型,不仅能解析图像视频内容,还能进行深度推理和创意生成,在数学解题、数据分析、穿搭建议等场景展现强大能力。
1371 15
QVQ-Max:阿里通义新一代视觉推理模型!再造多模态「全能眼」秒解图文难题
|
人工智能 搜索推荐 图形学
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
阿里巴巴通义实验室推出的ChatAnyone框架,通过高效分层运动扩散模型和混合控制融合技术,实现高保真度、自然度的实时肖像视频生成。
558 13
ChatAnyone:阿里通义黑科技!实时风格化肖像视频生成框架震撼发布
|
12月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
1689 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
存储 NoSQL Redis
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 + 无锁架构 + EDA架构 + 异步日志 + 集群架构
阿里面试:Redis 为啥那么快?怎么实现的100W并发?说出了6大架构,面试官跪地: 纯内存 + 尖端结构 +  无锁架构 +  EDA架构  + 异步日志 + 集群架构

热门文章

最新文章