技术沙龙直播|3D-Speaker多模态说话人开源详解

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 技术沙龙直播|3D-Speaker多模态说话人开源详解

文章来自 阿里语音AI公众号

3D-Speaker是通义实验室语音团队贡献的一个结合声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。


该项目上线以来,受到了诸多开发者们的关注和喜爱,本次特别推出多种模态结合的新开源代码,并邀请三位代码贡献者工程师进行直播讲解。分享嘉宾陈亚峰、王绘、程路遥时间2024年5月22日晚 20:00-21:30

本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究,供各位AI开发爱好者品鉴。


▎技术分享环节

NO.1 基于经典声学信息进行说话人和语种识别

3D-Speaker包含基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中,说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。代码提供多种数据增强算法,支持各SOTA模型多卡并行训练以及多种损失函数。NO.2 结合视觉信息的说话人日志

除了传统的纯音频说话人日志路线,3D-Speaker开源了结合视觉信息的技术方案,通过同时挖掘音、视频特征,显著提高在复杂对话场景中的识别准确率。NO.3 结合语义的说话人日志音频中的说话人相关的语义信息不容易受复杂声学场景影响,3D-Speaker开源了相关语义说话人信息建模模块,并探索了语义信息结合的说话人日志技术。NO.4 语义+视觉信息的说话人日志3D-Speaker提出了一种将语义、视觉信息同时作用于基于聚类算法的说话人日志任务的统一框架,将多模态的信息统一建模为成对约束并应用到说话人日志任务中。NO.5 3D-Speaker数据集开源3D-Speaker同时开源了一个研究数据集3D-Speaker dataset,包含多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)信息的说话人数据集。

相关开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker




魔搭ModelScope社区


3D-Speaker数据集开源

3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究。

下载地址:https://3dspeaker.github.io/数据集论文:https://arxiv.org/pdf/2306.15354.pdf

相关实践学习
日志服务之数据清洗与入湖
本教程介绍如何使用日志服务接入NGINX模拟数据,通过数据加工对数据进行清洗并归档至OSS中进行存储。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 数据可视化
社区供稿|语音情感基座模型emotion2vec
SOTA效果的通用语音情感表征模型emotion2vec,魔搭社区已开源,可下载体验!
|
2月前
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
27 0
|
2月前
|
人工智能 达摩院 并行计算
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
君不言语音识别技术则已,言则必称Whisper,没错,OpenAi开源的Whisper确实是世界主流语音识别技术的魁首,但在中文领域,有一个足以和Whisper相颉顽的项目,那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型,它具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,最重要的是,FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能,也就是说,它不仅可以实现语音转写,还能在转写后进行标注,一石二鸟。
中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽
|
18天前
|
机器学习/深度学习 人工智能 算法
技术视界|多模态说话人开源项目3D-Speaker
技术视界|多模态说话人开源项目3D-Speaker
|
7月前
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身
|
10月前
|
存储 人工智能 BI
倒计时1天!《AI模型时代的多模态数据存储、管理和应用》特邀主题演讲邀你共同收看!(文末送好礼)
QCon 全球软件开发大会·北京站将于 9 月 3 - 5 日正式开幕,评论区留言免费送大会3日联票(包3天午餐);另外还有定制充电宝和限量款奥运云小宝盲盒等你拿!
413 0
|
11月前
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
|
机器学习/深度学习 敏捷开发 人工智能
CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术
CVPR 2022 | 高质量捕捉人物动作,网易互娱AI Lab提出高效视频动捕技术
364 0
|
机器学习/深度学习 人工智能 算法
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
213 0
|
机器学习/深度学习 数据采集 存储
AI 音辨世界:艺术小白的我,靠这个AI模型,速识音乐流派选择音乐 ⛵
音乐领域,借助于歌曲相关信息,模型可以根据歌曲的音频和歌词特征,将歌曲精准进行流派分类。本文讲解如何基于机器学习完成对音乐的识别分类。
2454 2
AI 音辨世界:艺术小白的我,靠这个AI模型,速识音乐流派选择音乐 ⛵