说话人相关语音识别 (Speaker-Attributed Automatic Speech Recognition,SA-ASR) 是多方会议转录的主要目的,旨在解决“谁说了什么”这个问题。与多说话人语音识别相比,SA-ASR 不仅需要转录重叠语音段内不同说话人的抄本,同时还需要对识别的抄本分配说话人的标签。
多方会议场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、会议室中的远场拾音、噪音和混响等挑战,是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因此,SA-ASR 系统需要更多地考虑相关的多个语音处理模块,如说话人日志模块来统计和识别说话人,语音分离模块来处理重叠语音,ASR 模块从分离的信号中识别语音内容。
论文题目:A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings
作者:俞帆,杜志浩,张仕良,林宇箫,谢磊
论文地址:https://arxiv.org/abs/2203.16834
研究背景
SA-ASR 的准确性受到语音识别模型和说话人日志模型共同的影响。近年来,学术界致力于设计一种端到端直接输出多说话人识别结果的系统。串行输出训练 (Serialized Output Training, SOT) 策略[1]是目前主流的多说话人语音识别方案之一。
该策略在不改变模型结构的基础上,仅修改了训练数据的抄本格式,通过引入一个特殊的分隔符,串行地输出重叠音频中多个说话人的预测文本。并且 SOT 对于说话人数量没有限制,理论上可以处理任意数量参会人的会议多人讨论场景。
在最近的 M2MeT 挑战赛中[2,3],SOT 得到了很好的应用,并取得了显著的成绩。因此,我们探讨了第一种方法,也就是帧级别的说话人日志结合基于 SOT 的语音识别模型 (FD-SOT),它由一个用于确定说话人身份的帧级说话人日志模型和一个用于识别语句的多说话人 ASR 模型组成。FD-SOT 是通过对齐说话人日志模型的预测结果和 ASR 模型的预测文本来获取带有说话人标签的预测文本。
但是在 FD-SOT 方案中,由于各个模块是独立的,这种对齐策略很容易因为错误的时间戳影响模型的识别性能。因此,为了消除模型对于时间戳对齐的过度依赖性,本文提出了第二种方法——字级别的说话人日志结合基于 SOT 的语音识别模型 (WD-SOT)。该方法引入了字级别的说话人日志模型,基于 SOT 的预测文本来确认对应语句的说话人身份,从而有效解决错误对齐的问题。同时,本文采用自注意机制的方法来获取更多的上下文信息,进一步提高了说话人日志模型的效果。
FD-SOT 和 WD-SOT 都依赖于 SOT 模型的输出,而 SOT 的误差会严重影响整个框架的性能。因此,我们转向 SA-ASR 的另一种解决方案,即使用分离模型处理重叠语音,从而摆脱对多说话人 ASR 模型输出的依赖。本文进而提出了第三种方法——目标说话人分离和 ASR 模型的联合优化 (TS-ASR),也就是前端目标说话人分离模块根据相应的说话人表征提取对应说话人的高维表示来给后端的单说话人 ASR 模型识别解码。
在真实会议场景语料库 AliMeeting 上,本文对上述三种 SA-ASR 方法进行了对比。实验结果表明 WD-SOT 方法相比 FD-SOT 方法在说话人相关字符错误率 (SD-CER) 上相对降低了10.7%;TS-ASR 方法相比 FD-SOT 方法在 SD-CER 上也相对降低了16.5%。
多通道多方会议转录M2MeT挑战赛与AliMeeting数据集
达摩院语音实验室,公众号:阿里语音AIICASSP 2022 Grand Challenge -- 多通道多方会议转录挑战赛 (M2MeT)正式开启
三种SA-ASR方案
SOT 方法[1]能够同时对不同说话人的输出进行建模,并且对最大说话人的数量不进行限制,可以处理任意数量的说话人语句。为了识别多个重叠的语句,SOT 在不同的语句之间引入了一个特殊的分隔符 <sc>,该分隔符用于连接不同语句的转录文本。为了避免对所有可能的连接方式进行复杂的全排列计算,SOT 按每个句子的开始时间进行排序,也就是采用“先进先出” (First-In First-Out, FIFO )的方法。
图1 FD-SOT、WD-SOT和TS-ASR方法流程图对比
FD-SOT方法
M2MeT 挑战赛前三名团队都使用了 TS-VAD 模型[4]来预测重叠音频部分的说话人标签。我们也同样复现了该方案,并在 AliMeeting Eval 和 Test 集上分别实现了 4.20% 和 5.42% 的 DER。为了进一步获得 SA-ASR 的结果,我们通过时间戳的对齐将 TS-VAD 和 SOT 的结果结合起来。这种方法被称为带有 SOT 的帧级别的说话人日志方法 (FD-SOT)。
FD-SOT的详细流程如下:
- 使用 TS-VAD 模型对预分割后的句子预测每一帧的说话人标签,定义当前预分割句子中包含了 N1 个语句。
- 定义 SOT ASR 模型输出的语句数量为 N2。如果 N1 等于 N2,则不需要进行额外的操作,可以直接按照时间顺序对齐即可。
- 如果 N1 大于 N2,则从 TS-VAD 得到的 N1 个预测语句中选择持续时间最长的 N2 个语句,丢弃其他的短话语。
- 如果 N1 小于 N2,我们从 SOT ASR 模型输出中选择文本长度最长的 N1 个语句文本,并丢弃其他的短语句文本。
- 最后,我们将 TS-VAD 和 SOT 之间的语句按时间顺序进行对齐匹配。
WD-SOT方法
本文提出的字级别的说话人日志模型结构如图2所示,首先使用三个单独的编码器对多说话人预测抄本、语音特征和说话人特征进行编码。对于多说话人预测抄本和语音特征的编码表征,使用多头注意力机制生成每个字的聚合特征表示:
接下来,通过说话人特征的编码表征和聚合表征的点积得到上下文无关 (CI) 分数:
CI 分数只考虑当前说话人相关特征,而不同说话人的上下文信息对于当前当前说话人的判断也是有帮助的。因此,我们进一步设计了上下文相关 (CD )分数,其定义如下:
其中 f 是上下文感知函数,例如,自注意力机制 (self-attention)。最后,将 CI 和 CD 分数结合起来,输入到后处理网络,预测每个字符对应的说话人。
图2 本文提出的字级别说话人日志方法结构图
TS-ASR方法
目标说话人分离模块通过提前处理得到的说话人特征,从多说话人信号中提取目标说话人的表征给后端的 ASR 模型进行识别。前端分离模块和后端 ASR 模块如果分别优化会导致性能没办法达到最优的状态,因此本文采用联合优化的方式,使用 ASR 的损失函数更新整个前后端模型框架。同时,我们采用上文所述的 TS-VAD 说话人日志模型[4]和 d-vector 提取网络来获得每个说话人的特征。
在网络结构方面,前端分别尝试了 Conformer[5] 和 CRN[6]。说话人特征和音频特征的结合采用 FILM 的方式来进一步提升模型的性能。同时为了使 TS-ASR 模型参数和之前的 ASR 模型保持一致,我们采用了减少了该方法中 ASR 模块 encoder 的层数。
实验验证
实验数据
本文使用 AliMeeting 语料库评估各种 SA-ASR 系统。同时对于阵列采集的多通道远场信号,我们还采用了 CDDMA Beamforer[7] 产生了相应的单通道增强数据 (Ali-far-bf)。同时,为了提高本文所使用的语音分离模块的性能,我们使用 Train-Ali-near 模拟了50小时的带有说话人重叠的音频 Train-Ali-simu。SOT ASR 模型是直接使用 Train-Ali-far-bf、Train-Ali-near 和 Train-Ali-simu 训练。对于前端和后端联合优化模型,我们分别用 Train-Ali-simu 和 Train-Ali-near 预训练分离模块和 ASR 模块,然后使用 Train-Ali-far-bf 数据进行微调,并使用 ASR 损失函数更新整个模型的参数进行联合训练。
评价指标
我们在实验中使用了两个评价指标,即说话人无关字符错误率 (SI-CER) 和说话人相关字符错误率 (SD-CER)。SI-CER 被设计用来计算多说话人 ASR 任务的性能,忽略说话人标签。而 SD-CER 不仅需要识别多个说话人对应的文本,同时还需要确定每个文本属于具体的哪个说话人。
不同SA-ASR方法的对比
如表1所示,我们在 AliMeeting 的 Eval 和 Test 集上评估了三种 SA-ASR 方法。我们将第一行 SOT 模型基于 SI-CER 评测的结果作为下面基于 SOT 的 SA-ASR 方法的 SD-CER 评测结果的 topline,也就是假设 SOT 的每个输出 token 都与正确的说话人匹配。从表1中我们可以看到,我们提出的 WD-SOT 方法优于 FD-SOT 方法,在 Eval 和 Test 集上分别实现 12.2%(41.0% -> 36.0%) 和 9.6%(41.2% -> 37.1%) 的相对 SD-CER 降低。与基于 SOT 的 SA-ASR 模型相比,我们提出的 TS-ASR 模型实现了最低的 SD-CER。TS-ASR(CRN) 方法在 Eval 和 Test 集上的 SD-CER 分别为 32.5% 和 35.1%。
表1 各种模块化的SA-ASR方法在Eval和Test集上的结果(%)
针对WD-SOT方法的各种策略对比
如表2所示,我们进一步比较了各种策略对于 WD-SOT 方法的效果。WD-SOT 的第一行结果是只使用了 Train-Ali-far-bf 的真实抄本进行训练。为了提高模型的鲁棒性,我们在训练集中加入了 SOT 的预测输文本,该方法使得模型的 SD-CER 从 39.1% 降到 37.9%,显著提升了模型的性能。
当 WD-SOT 使用自注意机制获取更多的上下文信息时,平均 SD-CER 相对降低 2.9% (37.9% -> 36.8%),性能得到了显著提升。我们的 WD-SOT 方法是基于 SOT 的输出结果,所以 SOT 的识别结果会严重影响整个方法的性能。
考虑到 SOT 中的分隔符 <sc> 可能存在位置偏移的问题,我们研究了分隔符预测精度对模型性能的影响。使用 oracle 真实标签的分隔符之后,整体性能从 36.8% 提高到 36.3%,主要是测试集上 SD-CER 相对降低了 2.5%(37.1% -> 36.2%)。
表2 WD-SOT方法的各种策略在Eval和Test集上的比较结果(%)
说话人日志结果对TS-ASR方法的影响
在 TS-ASR 方法中,我们需要确定当前预分割的句子中包含了哪几个说话人。我们可以通过两种方法得到这个信息,一种是直接利用真实标签中每个人的时间戳,第二种方法是利用说话人日志模型预测的结果。
令人惊讶的是,我们使用第二种说话人日志模型预测的结果来获取每个句子包含的说话人信息,反而比使用真实标签获得的结果更好,Conformer 和 CRN 两种前端的 TS-ASR 方法在 Eval 和 Test 集上 SD-CER 分别相对减少 7.0%/8.2%(37.4%/35.3% -> 34.3%/31.9%) 和 2.5%/3.4%(35.6%/36.3% -> 34.2%/34.3%),如表3所示。
通过对解码结果的分析,我们发现当目标说话人的语音时长较短的时候,比如就是简单的”嗯“”啊“的附和,目标说话人分离模块并不能很好的提取出对应说话人的表征,从而导致后端的 ASR 模块识别出其他人的干扰语音,进而导致大量的插入错误。与该误识别导致的大量插入错误相比,忽略说话人日志模型预测的短时语句导致的删除错误反而更少。
基于这一发现,本文进一步研究了删除说话人日志结果中不同长度的最短语句对于 TS-ASR 方法的影响。从表3中我们可以看出,两种不同前端结构的 TS-ASR 模型在删除持续时间小于0.5秒的说话人日志预测语句时都达到了最佳效果。
表3 TS-ASR方法删除不同长度的最短语句在Eval和Test集上的比较结果(%)
联合训练对TS-ASR方法的影响
不同优化策略下 Conformer 和 CRN 两种不同前端的 TS-ASR 方法的比较结果如表4所示。其中前端分离模块使用 Train-Ali-simu 数据进行预训练,后端 ASR 模块使用 Train-Ali-near 数据进行预训练。
单独优化策略和联合优化策略的区别在于使用 Train-Ali-far-bf 数据对整个模型进行微调时,是否使用 ASR 损失函数更新前端分离模块。根据表4的结果, Conformer 和 CRN 两种不同前端的 TS-ASR 方法采用了联合优化策略之后,相比单独优化策略在在 Eval 和 Test 集上平均 SD-CER 分别相对降低了 26.8%(47.4% -> 34.7%) 和 23.9%(45.1% -> 34.3%)。
因而,我们可以得出结论,联合优化策略可以使前端模块更适合于后端 ASR,减少目标说话人分离带来的失真对于后端 ASR 的损伤。
表4 TS-ASR方法的单独和联合优化策略在Eval和Test集上的比较结果(%)
Future work
我们认为 SA-ASR 是未来多说话人语音识别的一个重要研究方向,其不仅需要转录重叠语音段内不同说话人的抄本,同时还需要对识别的抄本分配说话人的标签。本文所提出的 SA-ASR 可以认为是级联的 SA-ASR 方案,是多个分离、说话人日志和语音识别模块地高效耦合,其优点在于可以直接利用目前已用的模块,快速的实现落地部署。而缺点在于各个模块的都是使用各自的评测指标进行优化。后续我们也会往完全联合建模的端到端 SA-ASR 方向上进行研究探索,同时采用非自回归的结构加快模型的推理速度。
其次本文 SA-ASR 的方案都是基于单通道的输入,但是如何高效地利用多通道的音频也是我们的研究重点。基于 cross-channel attention 的多通道 SOT 方案我们已经投递 2022 IEEE Spoken Language Technology Workshop (SLT 2022) ,目前在 AliMeeting 数据集上已经取得了业界最为 SOTA 的结果,后续我们也将基于此研究进一步推出多通道的 SA-ASR 方案。
References:
[1] N. Kanda, Y. Gaur, X. Wang, Z. Meng, and T. Yoshioka, “Serialized output training for end-to-end overlapped speech recognition,” in Proc. INTERSPEECH. ISCA, 2020, pp. 2797–2801.[2] F. Yu, S. Zhang, Y. Fu, L. Xie, S. Zheng, Z. Du et al., “M2MeT:The ICASSP 2022 multi-channel multi-party meeting transcription challenge,” in Proc. ICASSP. IEEE, 2022.[3] F. Yu, S. Zhang, P. Guo, Y. Fu, Z. Du, S. Zheng, L. Xie et al.,“Summary on the ICASSP 2022 multi-channel multi-party meeting transcription grand challenge,” in Proc. ICASSP. IEEE, 2022.[4] I. Medennikov, M. Korenevsky, T. Prisyach, Y. Khokhlov, M. Korenevskaya et al., “Target-speaker voice activity detection: a novel approach for multi-speaker diarization in a dinner party scenario,” in Proc. INTERSPEECH. ISCA, 2020, pp. 274–278.[5] A. Gulati, J. Qin, C.-C. Chiu, N. Parmar et al., “Conformer: Convolution-augmented transformer for speech recognition,” in Proc. INTERSPEECH. ISCA, 2020, pp. 5036–5040.[6] K. Tan and D. Wang, “A convolutional recurrent neural network for real-time speech enhancement,” in Proc. INTERSPEECH. ISCA, 2018, pp. 3229–3233.[7] W. Huang and J. Feng, “Differential beamforming for uniform circular array with directional microphones.” in Proc. INTERSPEECH. ISCA, 2020, pp. 71–75.