ICASSP 2022 多通道多方会议转录挑战项目(M2MeT)成功举办

简介: 近日,ICASSP 2022 多通道多方会议转录挑战(M2MeT)完成了测试集评测及结果公布。本次挑战由阿里巴巴达摩院语音实验室和希尔贝壳联合举办,多位国际知名行业专家包括达摩院语音实验室负责人鄢志杰、研究员马斌,希尔贝壳CEO卜辉,希尔贝壳基金会谢磊教授,美国俄亥俄州立大学汪德亮教授,丹麦奥尔堡大学谭政华教授,上海交通大学钱彦旻教授,新加坡A*STAR资讯通信研究院高级科学家Kong Aik Lee等参与大会组织和评审。

近日,ICASSP 2022 多通道多方会议转录挑战(M2MeT)完成了测试集评测及结果公布。本次挑战由阿里巴巴达摩院语音实验室和希尔贝壳联合举办,多位国际知名行业专家包括达摩院语音实验室负责人鄢志杰、研究员马斌,希尔贝壳CEO卜辉,希尔贝壳基金会谢磊教授,美国俄亥俄州立大学汪德亮教授,丹麦奥尔堡大学谭政华教授,上海交通大学钱彦旻教授,新加坡A*STAR资讯通信研究院高级科学家Kong Aik Lee等参与大会组织和评审。


M2MeT 关注真实线下多人会议场景的说话人日志和多说话人语音识别任务,吸引了包括腾讯、字节跳动、小米、同花顺、喜马拉雅、Intel Labs、Sony Research India、University of Augsburg、中国科学技术大学和昆山杜克大学等国内外工业界和学术界的79个接受挑战的团队。


会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。该场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。然而,该领域的发展一直以来因为缺乏大型公开真实会议数据而受到制约。由于会议转录涉及复杂的处理过程,因此必须仔细收集和标注更丰富的信息,如说话人身份、语音上下文、开始和结束时间等,所有这些信息都需要准确的标注,不仅昂贵而且耗时。


为了促进该方向的研究,阿里巴巴达摩院语音实验和希尔贝壳分别开源了AliMeeting和AISHELL-4数据集,其中AliMeeting作为本次挑战任务的主体数据集。


|| AliMeeting

AliMeeting数据集由阿里巴巴达摩院语音实验室开源,OpenSLR链接:http://www.openslr.org/119/


AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。


该数据集收集于13个不同的会议室,按照大小规格分为小型、中型和大型三种,房间面积从8到55平方米不等。不同房间具有不同的布局和声学特性,每个房间的详细参数也将发送给参与者。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的家具包括沙发、电视、黑板、风扇、空调、植物等。音频的录制采用8麦克风阵列


音频录制过程中,8麦环形阵列放置于桌上,多个说话人围坐在桌边进行自然对话。麦克风阵列离说话人距离约0.3到5.0米之间。所有说话人的母语均是汉语,并且说的都是普通话,没有浓重的口音。在会议录制期间可能会产生各种室内的噪音,包括键盘声、风扇声、气泡声、开门和关门声等。所有说话人在会议的录制期间均保持相同位置,不发生走动。我们还使用头戴式麦克风记录了每个说话人的近场音频信号,并确保只转录对应说话人自己的语音。8麦环形阵列录制的远场音频和头戴式麦克风录制的近场音频在时间上是同步的。


下图是音频录制会议室布局的一个示意图。

image.png


每场会议的说话人数量从2到4人不等,训练集和验证集的说话人没有重复。会议的所有抄本均以TextGrid格式存储,内容包括会议的时长、说话人信息(说话人数量、说话人ID、性别等)、每个说话人的片段总数、每个片段的时间戳和转录内容。同时为了覆盖各种内容的会议场景,选择了多种会议主题,包括医疗、教育、商业、组织管理、工业生产等不同内容的例会。训练集和验证集的平均语音重叠率分别为42.27%和34.76%。训练集和验证集中不同发言者人数会议的语音重叠率和会议数量如下表:

image.png


|| M2MeT介绍

M2MeT包含两个挑战:说话人日志(Speaker Diarization)和多说话人语音识别(Multitalker ASR)。每个挑战分别包含限定数据和非限定数据的两个子挑战任务。其中限定数据挑战使用AliMeeting、AISHELL-4和CN Celeb三个数据集。为了简化训练和评测程序,使参与者能够轻松灵活地进行实验和验证方法,主办方提供了说话人日志和多说话人语音识别的基线系统代码,详见Github链接:https://github.com/yufan-aslp/AliMeeting


具体的挑战介绍和最终结果总结如下:

挑战1: 说话人日志

说话人日志也称为说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来实现显示“WHO SPOKE WHEN”的目的。该任务中说话人日志系统的准确度通过日志错误率(DER)来衡量,其中DER的计算公式为:说话人混淆(SC)、误报(FA)和漏检(MD)三种不同错误的总时长除以总持续时长:


image.png

image.png


挑战1 说话人日志总共有14支参与挑战的队伍提交了结果,上表是Top8团队的DER结果以及方法的汇总。我们可以看到随着会议场景中说话人数量的增加,也就是语音重叠比例的变大,大部分团队的DER也随之增加。对于大多数团队来说,不同说话人数量的会议之间仍然存在着明显的性能差距,多人的会议场景仍然充满挑战。


我们主要对模型方法、数据增强策略、前端处理方法以及后处理方法进行了详细的分析。模型方法上,由于聚类的说话人日志系统假设每个语音帧只对应一个说话人,因此其在没有额外模块的情况下无法处理重叠语音。而我们的AliMeeting数据具有较高的说话人重叠率,因此需要采用额外的模块方法来减少重叠语音带来的误差是必要的。


Top3团队都使用TS-VAD来预测说话人重叠的语音部分,其他团队采用重叠语音检测 (OSD)的方法来改进基于聚类的算法,OSD能够高效地将oracle VAD 段划分为单说话人语音段和多说话人重叠语音段。


数据增强方面,由于发布的训练数据量相对较小,大多数团队都采用了各种数据增强的策略。例如,模拟噪声和混响来提高模型的鲁棒性。此外,由于AliMeeting说话人重叠现象比较频繁,一些团队基于 AliMeeting 和 CN-celeb 数据模拟了大量说话人重叠语音来提升模型对重叠语音的说话人识别效果。同时对于本次挑战赛的远场语音任务,去混响、波束成形和语音增强等前端处理方法都带来了显著的收益。


后处理方面,大多数团队均使用 DOVER-Lap来融合多个模型的结果。DOVER-Lap 模型融合带来的性能提升取决于模型的数量和类型,相对 DER 减少范围从 2% 到 15%。虽然传统的VBx聚类在重叠语音上的效果没有TS-VAD好,但它在模型融合后仍然能够对最终的结果带来额外的增益。

挑战2: 多说话人语音识别

多说话人语音识别挑战要求识别出混叠语音里每个说话人的内容,实现“WHO SPOKE WHAT”的目的。多说话人语音识别赛道的精度采用字符错误率(CER)来衡量。对于给定的预测输出,CER计算将其转化为参考转录本所需的最小字符插入数(Ins)、替换数(SUB)和删除数(Del)与转录抄本的字符总数(包括空格)的比值:


image.png

考虑到置换不变训练(PIT)问题,我们提出了两种计算重叠语音CER的方案:第一种计算方案是基于语句的先进先出(FIFO)方法:我们根据每条语句的开始时间对真实标签进行排序,并使用标记连接这些语句,然后按照这种固定的排列顺序计算CER; 二种方法基于说话人的方法:参与挑战的团队直接预测得到每个说话人的抄本或者自行对相同说话人的抄本进行合并,然后组办方会对所有说话人的连接方式进行计算。

image.png


挑战2 多说话人语音识别总共有12支团队提交了结果,上表是Top5团队的CER结果以及方法汇总。与挑战1观察的现象类似,随着会议场景中说话人数量的增加,大部分团队的CER也随之增加,其主要是由于在有更多说话人的会议中说话人音频重叠的比率更高。对于所有参与挑战的团队来说,不同说话人数量的会议之间仍然存在着显著的性能差距,如何去解决多说话人的语音识别将会是未来的一个研究热点。


接下来,我们主要对模型方法、数据增强策略、前端处理方法以及后处理方法进行了详细的分析。模型方法上,Top5团队都采用了基于SOT训练策略的Conformer多说话人ASR模型,该模型相比Conformer单说话人ASR模型在CER上降低了15% 以上。SOT训练策略具有出色的建模不同说话人依赖关系的能力,并且不需要对说话人的数量进行限制,同时Conformer模型是目前语音领域最为SOTA的模型之一。


挑战2使用的数据增强策略和挑战1类似,噪声和混响的模拟、速度扰动和SpecAugmentation是目前ASR领域主流的数据增强方法,一般来说都会带来稳定的性能提升。数据模拟策略,尤其是多通道远场数据的模拟,能够给模型带来显著的性能提升,比Tran-Ali-far原始数据训练得到的基线系统能够产生13.5%的相对 CER 降低。值得注意的是,团队R62在数据增强和模拟方面做出了巨大的努力。最后,他们将原始训练数据扩展至约 18,000 小时,与基线系统相比,实现了 9.7% 的绝对 CER 降低。前端处理方面,去混响、波束成形、DOA和语音增强等前端处理方法也同样适用于多说话人ASR领域,为模型带来了显著的性能提升。


团队B24和X18考虑到前端和后端分别优化产生的不匹配性,采用了前后端联合优化的方案,该方案使得模型在Eval 集的CER下降了13.3%,也就是从24.0%下降到了20.8%。




相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
66 4
|
3月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
46 2
|
4月前
|
存储 人工智能 语音技术
ACL 2024:引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV
【7月更文挑战第16天】在ACL 2024会议上,四校合作推出M3AV,一个涵盖367小时跨学科视频的多模态、多类型、多用途学术讲座数据集。包含语音、肢体语言、幻灯片内容,支持多任务学习,如内容识别、语音处理。高质量人工标注,尤其是命名实体,提供丰富分析机会。尽管规模大、处理复杂,且标注主观性影响可比性,M3AV仍为视听研究带来新挑战和机遇。[论文链接](https://arxiv.org/abs/2403.14168)
64 4
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
202 0
|
机器学习/深度学习 编解码 人工智能
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
210 0
|
人工智能 算法
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(1)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
395 0
|
机器学习/深度学习 数据采集 人工智能
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(2)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
198 0
|
机器学习/深度学习 达摩院 前端开发
INTERSPEECH 2022论文解读|针对多方会议场景下说话人相关语音识别的对比研究
INTERSPEECH是由国际语音通讯协会 (International Speech Communication Association, ISCA) 创办的语音信号处理领域顶级旗舰国际会议。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。 ‍本文主要对比研究三种SA-ASR的方法,通过对说话人日志、语音分离和语音识别模块的耦合,在M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验,有效地降低了说话人相关字错误率(SD-CER)。论文已被INTERSPEECH 2022接收。
751 0
|
机器学习/深度学习 存储 人工智能
AI分析手机实现精准扶贫:伯克利研究登上Nature
AI分析手机实现精准扶贫:伯克利研究登上Nature
176 0
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
【OpenCall】ICASSP2023通用会议理解及生成挑战赛邀请函
下一篇
无影云桌面