M2MeT2.0新赛道报名启动|ASRU 2023 Special Session Challenge多通道多方会议转录挑战赛

简介: 多人对话的会议场景,由于其复杂多样的空间和声学条件,以及说话人不同的讲话风格,容易出现重叠讲话、不同数量的发言者、大会议室的远场信号以及环境噪声和混响等声音处理任务,这在语音AI技术迅速发展的当下仍是一项颇具挑战的技术难题。为探寻更优技术解决方案,今年达摩院再次融聚产学研界专家智识,在上一届多通道多方会议转录挑战赛(M2MET)的基础上,达摩院语音实验室联合希尔贝壳和多位国内外颇具影响力的行业专家在ASRU2023上举办M2MET2.0挑战赛。

M2MeT2.0新赛道及数据集

在上一届M2MET挑战赛中,评估指标是说话人无关的字符错误率(Character error rate, CER),只转录音频对应的文本,而不分配说话人标签。

为了将当前的多说话人语音识别系统推向实用化,M2MET2.0挑战赛将在说话人相关语音识别(Speaker-attributed ASR, SA-ASR)的任务上评估,并且同时设立限定数据不限定数据两个子赛道。SA-ASR任务通过给转录文本分配说话人标签,提高了多说话人ASR系统在实际应用场景中的准确性和适用性。

M2MET2.0竞赛将在M2MET发布的AliMeeting数据集的基础上额外发布10小时全新的测试集。

赛事日程及奖励机制


主办方在Github的FunASR社区上,提供了一个端到端的基线系统, 包括代码实现以及实验结果作为参考。基线系统👉:https://github.com/alibaba-damo-academy/FunASR/tree/main/egs/alimeeting/sa-asr竞赛即日起开始注册报名,报名截止5月22日参加竞赛成绩排名前列且有创新性工作的团队有机会将技术方案写成论文在ASRU2023会议上发表,收录进会议论文集

详情及赛事直通

>>>竞赛报名网址:

https://alibaba-damo-academy.github.io/FunASR/m2met2_cn/index.html(中文版)https://alibaba-damo-academy.github.io/FunASR/m2met2/index.html(英文版)>>>竞赛数据地址:AliMeeting(https://openslr.org/119/AISHELL-4(https://openslr.org/111/CN-Celeb(https://openslr.org/82/

相关文章
|
1月前
|
机器学习/深度学习 开发者 内存技术
阶跃星辰 Step 3.5 Flash 预训练/中训练/训练框架全部开源!
阶跃星辰开源Step 3.5 Flash——迄今最强开源Agent基座模型,含Base/Midtrain权重及Steptron全栈训练框架,支持预训练、SFT与强化学习,专为智能体设计。已登OpenRouter榜首,获社区广泛好评。(239字)
504 22
|
9月前
|
人工智能 资源调度 数据可视化
ModelScope魔搭25年7月发布月报
七月流火,这个夏天火热的开场已然揭开。6月30号,我们在北京举办了首届魔搭开发者大会(ModelScope DevCon 2025),邀请了国内外知名的开源模型,以及头部开源工具的研发团队,与广大开发者共聚一堂进行分享。顶尖的AI 模型首次从线上 Hub走进线下盛会,为大家呈现了一场“模型全明星”盛会。同时我们还邀请了社区开发者参加我们的“搭友之夜”(aka 大规模面基大会)。大会分享场场爆满,现场只能用一句话来描述:“好~多~人~啊”,不提前占位根本挤不进去~~
502 3
|
12月前
|
机器学习/深度学习 人工智能 算法
零训练成本优化LLM: 11种LLM权重合并策略原理与MergeKit实战配置
随着大语言模型快速发展,如何优化性能同时降低计算成本成为关键问题。本文系统介绍了11种零训练成本的LLM权重合并策略,涵盖线性权重平均(Model Soup)、球面插值(SLERP)、任务算术、TIES-Merging等方法,通过MergeKit工具提供实战配置示例。无论研究者还是开发者,都能从中找到高效优化方案,在有限资源下实现模型性能显著提升。
797 10
零训练成本优化LLM: 11种LLM权重合并策略原理与MergeKit实战配置
|
8月前
|
人机交互 API 开发工具
基于通义多模态大模型的实时音视频交互
Qwen-Omni是通义千问系列的全新多模态大模型,支持文本、图像、音频和视频的输入,并输出文本和音频。Omni-Realtime服务针对实时交互场景优化,提供低延迟的人机交互体验。
1513 23
|
人工智能 自然语言处理 测试技术
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。
696 1
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
727 2
|
人工智能 自然语言处理 语音技术
Baichuan-Audio:端到端音频大模型,实时双语对话+语音生成
Baichuan-Audio 是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现高质量、可控的实时中英双语对话。
1486 3
|
机器学习/深度学习 数据可视化
【tensorboard】深度学习的日志信息events.out.tfevents文件可视化工具
【tensorboard】深度学习的日志信息events.out.tfevents文件可视化工具
|
Java 图形学 Python
用Python和Pygame打造绚丽烟花效果+节日祝福语
本文介绍了一款基于Python和Pygame库实现的烟花效果程序,模拟烟花发射、爆炸及粒子轨迹,结合动态文本显示祝福语,营造逼真的节日氛围。程序包括烟花类、粒子类、痕迹类和动态文本显示功能,通过随机化颜色、速度和粒子数量增加效果多样性。用户可以看到烟花从屏幕底部发射、上升并在空中爆炸,伴随粒子轨迹和动态祝福语“蛇年大吉”、“Happy Spring Festival”。文章详细解析了核心代码逻辑和技术要点,帮助读者理解如何利用Pygame库实现复杂视觉效果,并提供了未来改进方向,如优化性能、增加特效和增强交互性。
1341 20
用Python和Pygame打造绚丽烟花效果+节日祝福语

热门文章

最新文章

下一篇
开通oss服务