技术沙龙直播|3D-Speaker多模态说话人开源详解

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 技术沙龙直播|3D-Speaker多模态说话人开源详解

本文来源:阿里云语音AI


3D-Speaker是通义实验室语音团队贡献的一个结合声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。


该项目上线以来,受到了诸多开发者们的关注和喜爱,本次特别推出多种模态结合的新开源代码,并邀请三位代码贡献者工程师进行直播讲解。


本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究,供各位AI开发爱好者品鉴。



‍▎技术分享环节


NO.1 基于经典声学信息进行说话人和语种识别


3D-Speaker包含基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中,说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。代码提供多种数据增强算法,支持各SOTA模型多卡并行训练以及多种损失函数。


NO.2 结合视觉信息的说话人日志


除了传统的纯音频说话人日志路线,3D-Speaker开源了结合视觉信息的技术方案,通过同时挖掘音、视频特征,显著提高在复杂对话场景中的识别准确率。


NO.3 结合语义的说话人日志


音频中的说话人相关的语义信息不容易受复杂声学场景影响,3D-Speaker开源了相关语义说话人信息建模模块,并探索了语义信息结合的说话人日志技术。


NO.4 语义+视觉信息的说话人日志


3D-Speaker提出了一种将语义、视觉信息同时作用于基于聚类算法的说话人日志任务的统一框架,将多模态的信息统一建模为成对约束并应用到说话人日志任务中。


NO.5 3D-Speaker数据集开源


3D-Speaker同时开源了一个研究数据集3D-Speaker dataset,包含多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)信息的说话人数据集。


相关开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker



‍▎3D-Speaker数据集开源


3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究。


image.png


下载地址:


https://3dspeaker.github.io/


数据集论文:


https://arxiv.org/pdf/2306.15354.pdf

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
|
机器学习/深度学习 人工智能 数据可视化
社区供稿|语音情感基座模型emotion2vec
SOTA效果的通用语音情感表征模型emotion2vec,魔搭社区已开源,可下载体验!
|
7月前
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
5月前
|
机器学习/深度学习 算法 图形学
华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频
【7月更文挑战第17天】华为腾讯联合开源AniPortrait,技术利用音频和图片生成栩栩如生的说话视频。通过音频分析面部表情,结合扩散模型与运动模块创建2D动画,实现自然的肖像动效。虽有高质量表现,但尚处研究阶段,面临隐私、伦理及应用局限性挑战。[论文链接](https://arxiv.org/abs/2403.17694)**
107 5
|
1月前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS D&B 2024 突破短视频局限!MMBench-Video解读MLLM视频理解能力
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
|
2月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
4月前
|
前端开发 语音技术
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
3D-Speaker说话人任务的开源项目问题之全监督说话人识别框架的问题如何解决
|
4月前
|
机器学习/深度学习 算法 数据挖掘
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
4月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
76 4
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
1341 1
|
4月前
|
数据挖掘 语音技术
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决
3D-Speaker说话人任务的开源项目问题之视觉信息在说话人日志技术中的问题如何解决

热门文章

最新文章