近日,ICASSP 2022 多通道多方会议转录挑战(M2MeT)完成了测试集评测及结果公布。本次挑战由阿里巴巴达摩院语音实验室和希尔贝壳联合举办,多位国际知名行业专家包括达摩院语音实验室负责人鄢志杰、研究员马斌,希尔贝壳CEO卜辉,希尔贝壳基金会谢磊教授,美国俄亥俄州立大学汪德亮教授,丹麦奥尔堡大学谭政华教授,上海交通大学钱彦旻教授,新加坡A*STAR资讯通信研究院高级科学家Kong Aik Lee等参与大会组织和评审。
M2MeT 关注真实线下多人会议场景的说话人日志和多说话人语音识别任务,吸引了包括腾讯、字节跳动、小米、同花顺、喜马拉雅、Intel Labs、Sony Research India、University of Augsburg、中国科学技术大学和昆山杜克大学等国内外工业界和学术界的79个接受挑战的团队。
会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。该场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。然而,该领域的发展一直以来因为缺乏大型公开真实会议数据而受到制约。由于会议转录涉及复杂的处理过程,因此必须仔细收集和标注更丰富的信息,如说话人身份、语音上下文、开始和结束时间等,所有这些信息都需要准确的标注,不仅昂贵而且耗时。
为了促进该方向的研究,阿里巴巴达摩院语音实验和希尔贝壳分别开源了AliMeeting和AISHELL-4数据集,其中AliMeeting作为本次挑战任务的主体数据集。
|| AliMeeting
AliMeeting数据集由阿里巴巴达摩院语音实验室开源,OpenSLR链接:http://www.openslr.org/119/
AliMeeting总共包含118.75小时的语音数据,包括104.75小时的训练集(Train)、4小时的验证集(Eval)和10小时的测试集(Test)。训练集和验证集分别包含212场和8场会议,其中每场会议由多个说话人进行15到30分钟的讨论。训练和验证集中参与会议的总人数分别为456人和25人,并且参会的男女比例人数均衡。
该数据集收集于13个不同的会议室,按照大小规格分为小型、中型和大型三种,房间面积从8到55平方米不等。不同房间具有不同的布局和声学特性,每个房间的详细参数也将发送给参与者。会议场地的墙体材料类型包括水泥、玻璃等。会议场地的家具包括沙发、电视、黑板、风扇、空调、植物等。音频的录制采用8麦克风阵列。
音频录制过程中,8麦环形阵列放置于桌上,多个说话人围坐在桌边进行自然对话。麦克风阵列离说话人距离约0.3到5.0米之间。所有说话人的母语均是汉语,并且说的都是普通话,没有浓重的口音。在会议录制期间可能会产生各种室内的噪音,包括键盘声、风扇声、气泡声、开门和关门声等。所有说话人在会议的录制期间均保持相同位置,不发生走动。我们还使用头戴式麦克风记录了每个说话人的近场音频信号,并确保只转录对应说话人自己的语音。8麦环形阵列录制的远场音频和头戴式麦克风录制的近场音频在时间上是同步的。
下图是音频录制会议室布局的一个示意图。
每场会议的说话人数量从2到4人不等,训练集和验证集的说话人没有重复。会议的所有抄本均以TextGrid格式存储,内容包括会议的时长、说话人信息(说话人数量、说话人ID、性别等)、每个说话人的片段总数、每个片段的时间戳和转录内容。同时为了覆盖各种内容的会议场景,选择了多种会议主题,包括医疗、教育、商业、组织管理、工业生产等不同内容的例会。训练集和验证集的平均语音重叠率分别为42.27%和34.76%。训练集和验证集中不同发言者人数会议的语音重叠率和会议数量如下表:
|| M2MeT介绍
M2MeT包含两个挑战:说话人日志(Speaker Diarization)和多说话人语音识别(Multitalker ASR)。每个挑战分别包含限定数据和非限定数据的两个子挑战任务。其中限定数据挑战使用AliMeeting、AISHELL-4和CN Celeb三个数据集。为了简化训练和评测程序,使参与者能够轻松灵活地进行实验和验证方法,主办方提供了说话人日志和多说话人语音识别的基线系统代码,详见Github链接:https://github.com/yufan-aslp/AliMeeting
具体的挑战介绍和最终结果总结如下:
挑战1: 说话人日志
说话人日志也称为说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来实现显示“WHO SPOKE WHEN”的目的。该任务中说话人日志系统的准确度通过日志错误率(DER)来衡量,其中DER的计算公式为:说话人混淆(SC)、误报(FA)和漏检(MD)三种不同错误的总时长除以总持续时长:
挑战1 说话人日志总共有14支参与挑战的队伍提交了结果,上表是Top8团队的DER结果以及方法的汇总。我们可以看到随着会议场景中说话人数量的增加,也就是语音重叠比例的变大,大部分团队的DER也随之增加。对于大多数团队来说,不同说话人数量的会议之间仍然存在着明显的性能差距,多人的会议场景仍然充满挑战。
我们主要对模型方法、数据增强策略、前端处理方法以及后处理方法进行了详细的分析。模型方法上,由于聚类的说话人日志系统假设每个语音帧只对应一个说话人,因此其在没有额外模块的情况下无法处理重叠语音。而我们的AliMeeting数据具有较高的说话人重叠率,因此需要采用额外的模块方法来减少重叠语音带来的误差是必要的。
Top3团队都使用TS-VAD来预测说话人重叠的语音部分,其他团队采用重叠语音检测 (OSD)的方法来改进基于聚类的算法,OSD能够高效地将oracle VAD 段划分为单说话人语音段和多说话人重叠语音段。
数据增强方面,由于发布的训练数据量相对较小,大多数团队都采用了各种数据增强的策略。例如,模拟噪声和混响来提高模型的鲁棒性。此外,由于AliMeeting说话人重叠现象比较频繁,一些团队基于 AliMeeting 和 CN-celeb 数据模拟了大量说话人重叠语音来提升模型对重叠语音的说话人识别效果。同时对于本次挑战赛的远场语音任务,去混响、波束成形和语音增强等前端处理方法都带来了显著的收益。
后处理方面,大多数团队均使用 DOVER-Lap来融合多个模型的结果。DOVER-Lap 模型融合带来的性能提升取决于模型的数量和类型,相对 DER 减少范围从 2% 到 15%。虽然传统的VBx聚类在重叠语音上的效果没有TS-VAD好,但它在模型融合后仍然能够对最终的结果带来额外的增益。
挑战2: 多说话人语音识别
多说话人语音识别挑战要求识别出混叠语音里每个说话人的内容,实现“WHO SPOKE WHAT”的目的。多说话人语音识别赛道的精度采用字符错误率(CER)来衡量。对于给定的预测输出,CER计算将其转化为参考转录本所需的最小字符插入数(Ins)、替换数(SUB)和删除数(Del)与转录抄本的字符总数(包括空格)的比值:
考虑到置换不变训练(PIT)问题,我们提出了两种计算重叠语音CER的方案:第一种计算方案是基于语句的先进先出(FIFO)方法:我们根据每条语句的开始时间对真实标签进行排序,并使用标记连接这些语句,然后按照这种固定的排列顺序计算CER; 第二种方法基于说话人的方法:参与挑战的团队直接预测得到每个说话人的抄本或者自行对相同说话人的抄本进行合并,然后组办方会对所有说话人的连接方式进行计算。
挑战2 多说话人语音识别总共有12支团队提交了结果,上表是Top5团队的CER结果以及方法汇总。与挑战1观察的现象类似,随着会议场景中说话人数量的增加,大部分团队的CER也随之增加,其主要是由于在有更多说话人的会议中说话人音频重叠的比率更高。对于所有参与挑战的团队来说,不同说话人数量的会议之间仍然存在着显著的性能差距,如何去解决多说话人的语音识别将会是未来的一个研究热点。
接下来,我们主要对模型方法、数据增强策略、前端处理方法以及后处理方法进行了详细的分析。模型方法上,Top5团队都采用了基于SOT训练策略的Conformer多说话人ASR模型,该模型相比Conformer单说话人ASR模型在CER上降低了15% 以上。SOT训练策略具有出色的建模不同说话人依赖关系的能力,并且不需要对说话人的数量进行限制,同时Conformer模型是目前语音领域最为SOTA的模型之一。
挑战2使用的数据增强策略和挑战1类似,噪声和混响的模拟、速度扰动和SpecAugmentation是目前ASR领域主流的数据增强方法,一般来说都会带来稳定的性能提升。数据模拟策略,尤其是多通道远场数据的模拟,能够给模型带来显著的性能提升,相比Tran-Ali-far原始数据训练得到的基线系统能够产生13.5%的相对 CER 降低。值得注意的是,团队R62在数据增强和模拟方面做出了巨大的努力。最后,他们将原始训练数据扩展至约 18,000 小时,与基线系统相比,实现了 9.7% 的绝对 CER 降低。前端处理方面,去混响、波束成形、DOA和语音增强等前端处理方法也同样适用于多说话人ASR领域,为模型带来了显著的性能提升。
团队B24和X18考虑到前端和后端分别优化产生的不匹配性,采用了前后端联合优化的方案,该方案使得模型在Eval 集的CER下降了13.3%,也就是从24.0%下降到了20.8%。