IEEE SLT 2022论文解读｜基于多帧跨通道注意力机制的多说话人语音识别-阿里云开发者社区

此外，该论文还提出了一种多层卷积模块以融合多通道输出和一种通道掩码策略以解决训练和推理之间的音频通道数量不匹配的问题。在ICASSP2022 M2MeT竞赛上发布的真实会议场景语料库AliMeeting上进行了相关实验，该多通道模型在Eval和Test集上比单通道模型CER分别相对降低了31.7%和37.0%。此外，在同等的模型参数和训练数据下，本文提出的模型获得的识别性能超越竞赛期间最佳结果，在AliMeeting上实现了目前最新的SOTA性能。以下对该论文进行简要的解读。

论文题目：MFCCA: Multi-Frame Cross-Channel attention for multi-speaker ASR in Multi-party meeting scenario

作者：俞帆，张仕良，郭鹏程，梁宇灏，杜志浩，林宇箫，谢磊

论文地址：https://arxiv.org/abs/2210.05265

研究背景

多说话人语音识别的目标是识别包含多个说话人的语音，特别针对说话人语音重叠问题开展研究工作。近年来，在深度学习的推动下，许多基于神经网络的端到端多说话人ASR方法应运而生，在诸如LibriCSS在内容的仿真数据集上取得了良好效果。然而，包括会议在内的真实场景中包含了更多的挑战，如说话人重叠率较高的多人讨论、自由对话风格的语音、说话人数量未知、远场语音信号衰减、噪声和混响干扰等。近期，基于实录数据的多说话人语音识别成为大家关注的热点，其中包括多通道多方会议转录挑战赛(M2MeT)[1,2,3]和多模态信息语音处理挑战赛(MISP)[4]等。

多通道多方会议转录M2MeT挑战赛与AliMeeting数据集达摩院语音实验室，公众号：阿里语音AIICASSP 2022 Grand Challenge -- 多通道多方会议转录挑战赛 (M2MeT）正式开启说话人相关语音识别（SA-ASR）俞帆，公众号：音频语音与语言处理研究组论文推介：针对多方会议场景下说话人相关语音识别的对比研究

在现实应用中，麦克风阵列通常用于远距离拾音，结合波束形成（beamforming）等算法利用空间信息进行多通道语音增强。在深度神经网络的帮助下，基于时频掩模（Mask）的波束形成方法取得了卓越的性能，在诸如AMI[5]、CHiME[6]和M2MeT[1,2,3]竞赛方案中被普遍采用。掩码估计网络大多都是在模拟数据上使用信号级别的损失函数进行训练，并且需要干净参考音频来计算损失函数。然而，真实场景录制的远场音频，通常无法获得干净的参考音频来进行训练。同时，仿真数据与真实数据有明显的差距，同时对前端模块使用信号级损失函数进行优化，并不一定能提升后端ASR的识别效果。因而，针对这种不匹配问题，多通道前端与ASR的联合优化方案成为大家关注的一种解决方案。在联合优化框架下，我们采用真实场景录制的数据进行联合训练，然后使用ASR损失函数更新前端模块，不需要干净的音频作为参考。

最近，注意力（Attention）机制被引入到基于神经网络的波束形成方法中，它对潜在表示空间中的数据表征进行递归非线性波束形成。同时，跨通道（cross-channel）的注意力机制也被引入到了语音识别系统中，它可以直接利用多通道的声学信号实现多通道的ASR任务[7]。令人印象深刻的是，这种方法可以绕过复杂的传统前端模块，将波束形成和声学建模集成到一个端到端网络里面进行完全联合。这种跨通道的注意力机制将帧级的多通道信号作为输入，然后学习不同通道序列之间的全局相关性。简单来说，就是将每个通道的高维表示(query)与一组通道平均高维表示对(key-value)映射到输出，即帧级跨通道注意力机制(Frame-Level Cross-Channel Attention，FLCCA)。与此同时，通道级跨通道注意力机制(Channel-Level Cross-Channel Attention，CLCCA)在语音分离[8]和说话人日志[9,10]任务上已经取得了显著效果，采用该方法的方案在M2MeT挑战赛中获得了说话人日志赛道第一名突出成绩[10]。与FLCCA相比，CLCCA是在通道的维度上进行计算，也就是对于每个时间步中的通道信息进行注意力机制的计算，起到了一个类似于波束形成的作用。

我们认为FLCCA和CLCCA在获取时序和空间信息时是可以互补的。帧级跨通道注意力机制FLCCA提取细粒度通道信息的能力较弱，因为其直接在时间维度平均通道的高维表征可能会破坏每个通道的独特信息，例如通道i对于某个特征是峰值，另外一个通道j对于该特征是低谷，直接平均的话该特征信息就被“中和”，通道区分性消失。而另一方面，通道级跨通道注意力机制CLCCA缺点在于只关注当前时间步上的通道信息，而不考虑前后时间步的通道信息。因此，本文利用帧级和通道级跨通道注意机制之间的互补性，通过同时建模通道级和帧级信息，提出了一种多帧跨通道注意力机制(Multi-Frame Cross-Channel Attention，MFCCA)。众所周知，波达方向定位（Direction Of Arrival，DOA）估计已被广泛用于语音增强，它利用麦克风阵列接收信号的延迟来估计声源方向。受DOA思想的启发，我们提出的方法将更多地关注相邻帧之间的通道上下文，以建模帧级和通道级的相关性。

我们在基于注意力机制的编码器-解码器（Attention based Encoder-Decoder，AED）结构中构建基于 MFCCA 的多通道 ASR。此外，编码器的多通道输出通过多层卷积模块进行融合，以逐渐减小通道维度的数量。虽然跨通道注意力机制与麦克风的数量和几何形状无关，但当实际应用推理阶段麦克风数量减少时，它的性能会明显下降。为了解决该问题，我们引入了一个通道掩码策略。通过在训练期间随机掩码原始多通道输入中的多个通道，本文提出的MFCCA模型对于处理任意通道数量和几何形状的麦克风阵列采集音频的鲁棒性得到大幅度提升。

据我们所知，本文是第一个在真实的会议语料库 AliMeeting 上利用跨通道注意力机制来验证其对多说话人识别的能力的工作。在AliMeeting语料库上的实验表明，相比单通道多说话人ASR模型而言，本文提出的多通道多说话人ASR模型在 Eval和Test集上CER相对降低31.7% 和 37.0%。

单通道及多通道方法介绍

我们首先回顾端到端网络常用的单通道的多头自注意力机制，然后分别介绍帧级和通道级的跨通道注意力机制。单通道特征的输入定义为，然后多通道特征的输入定义为，其中为通道的数量。

图1 不同注意力机制的图示:(a) 单通道注意力机制 (b)帧级跨通道注意力机制(FLCCA) (c) 通道级跨通道注意力机制(CLCCA) (d) 多帧跨通道注意力机制(MFCCA)

单通道注意力机制

单通道注意力机制采用多头缩放的点积来学习语音信号单通道内的上下文信息，如图1(a)所示。第个头的单通道注意的输出计算公式为:

其中是是指Softmax函数，和分别是第个头的可学习权值和偏差参数。

帧级跨通道注意力机制(FLCCA)

帧级跨通道注意力机制不仅学习时序维度的上下文信息，同时还学习跨通道的空间信息，如图1(b)所示。FLCCA的第个头的计算公式为：

，是除第个通道外的其他所有通道在时间维度的平均，其计算公式为。和分别是第个头的可学习权值和偏差参数。

通道级跨通道注意力机制(CLCCA)

通道级跨通道注意机制关注于利用空间多样性和细粒度地建模每个时间步上的通道信息，如图1(c)所示。CLCCA的个头可以表示为：

和分别是第个头的可学习权值和偏差参数。

本文提出的方案

多帧跨通道注意力机制(MFCCA)

在FLCCA和CLCCA的基础上，本文提出了多帧跨通道注意力机制(MFCCA)，以利用帧级和通道级信息之间的互补性，如图1(d)所示。MFCCA的第个头计算为：

和分别是第个头的可学习权值和偏差参数，。是前后几帧通道信息的拼接，计算公式为。是每个时间步上往过去和未来看的帧数，这个值也可以认为是性能和计算成本之间的权衡。受DOA利用麦克风阵列的延迟估计语音增强源方向的思路启发，我们提出了MFCCA关注相邻帧的通道上下文信息，以提高帧级和通道级上下文信息共同建模的能力。

Conformer模块

我们的Encoder层也采用了Conformer结构，它包括一个多头自注意力机制模块(MHSA)、一个卷积模块(CONV)和一对前馈网络模块(FFN)。需要注意的是，CONV和FFN模块直接跟随多帧跨通道注意机制（MFCCA）会降低模型的性能，根据我们的实验，这将带来1%的绝对CER提升。我们猜测是由于CONV模块和FFN模块都是帧级模块，因此会影响多帧跨通道注意机制对通道之间相关性的学习。因此，我们采用图2中的模型结构。

多层卷积模块

为了融合Encoder输出的多通道高维表征，以往的研究多是对多通道特征进行平均或拼接。为了减少直接降低通道维度对通道独特信息的破坏，采用多层卷积模块逐步降低通道的数量。如图3所示，多层卷积模块由5个二维卷积层组成。多层卷积模块的输入通道数是固定的。因此，如果输入的通道数小于预先配置的值，则需要通过重复特征来扩展通道。

通道掩码策略

跨通道注意力机制具有独立于麦克风数量和几何形状的性质。但在实际应用中，特别是在推理和训练阶段所涉及的通道数量不同的情况下，通道级跨通道注意力机制的性能容易受到通道数量的影响。为了提高模型对不同通道数量测试的鲁棒性，我们引入了一种通道掩码（Mask）策略，对多通道输入随机掩码。具体来说，使用统一概率来决定多通道输入是否将被掩码。当选择掩码时，我们随机选择通道进行掩码，为通道总数，同时以相等概率来确定的值。基于通道掩码策略，我们的多通道ASR模型可以很容易地推广到不同的通道数量和不同的麦克风阵列几何形状，使得模型适用于更加丰富的实际场景。

训练策略

针对现实会议场景中语音重叠和说话人数量未知的问题，我们采用串行输出训练策略(Serialized Output Training, SOT)来实现多说话人识别的能力。SOT方案摆脱了说话人数量的限制，以一种高效而简单的方式建模了不同说话人输出之间的依赖关系。在训练期间，不同说话人的识别结果被序列化为一个长序列，并且在不同句子之间插入一个特殊的标记作为分隔。识别的顺序按照每个句子的开始时间排序。

实验验证

实验数据

本文使用AliMeeting语料库评估我们的多通道多说话人ASR模型。AliMeeting语料库收集于真实多人会议中，包含104.75小时的训练数据(Train)， 4小时的评估数据(Eval)和10小时的测试数据(Test)。其中每场会议由多个说话人进行15到30分钟的讨论，并且参会的男女比例人数均衡。每场会议不仅采用了8麦环阵录制远场数据(Ali-far)，同时也使用头戴麦克风记录了每个说话人的近场音频信号(Ali-near)，并确保只转录对应说话人自己的语音。同时对于阵列采集的多通道远场信号，我们还采用了CDDMA Beamforer产生了相应的单通道增强数据(Ali-far-bf)。同时，遵循M2MeT挑战赛限定数据子赛道的规则，我们也是用了Aishell4和用Train-Ali-near模拟的600小时的带有说话人重叠的音频Train-Ali-simu作为我们的训练数据。

基线系统

我们将基于MFCCA的多通道多说话人ASR模型与四个基线模型进行比较:

(1)单通道模型(Single channel model):单通道基线系统。具体来说，我们使用Train-Ali-far的第一个通道进行训练和测试。

(2) 波束形成(Beamformer):CDDMA波束形成器在语音增强方面表现出良好的效果，它使用所有的通道进行波束形成，为ASR模型生成增强的单通道数据(Ali-far-bf)。

(3) 随机选择(Random selection):采用动态策略，在训练时随机选择一个Train-Ali-far的通道作为ASR模型的输入。需要注意的是，在测试解码的时候固定选择第一个通道作为输入。

(4) 复数卷积(Complex convolution):对短时傅里叶变换(STFT)后的结果进行多通道实部和虚部的复数卷积。其卷积结构类似于图3。

不同多通道ASR方法的对比

如表1所示，我们提出的MFCCA模型优于四个基线模型，特别是对于单通道模型，在8-ch的Eval和Test集上CER分别相对减少了31.7% (32.3% -> 19.4%)和37.0% (33.8% -> 21.3%)。和其他多通道注意力机制模型相比，我们的MFCCA模型表现出了优越的性能，在8-ch的Eval和Test集上获得了最低的CER，分别为20.2%和22.0%。当结合多层卷积模块之后，模型性能得到了进一步的改进，在8-ch的Eval和Test集上CER分别从20.2%/22.0%降低到19.9%/21.8%。跨通道注意机制模型在测试集的通道数量较多时表现良好，但当测试集的通道数较小时，如1-ch和2-ch，其性能会有明显的损失。通道掩码策略可以提高模型对于不同通道数量测试集的鲁棒性。结果表明，当通道掩码的概率设置为20%时，我们的模型在大多数测试集上获得了最佳结果，在1-ch的Eval和Test集上分别实现了7.1% (37.8% -> 35.1%)和6.4% (38.8% -> 36.3%)的相对CER降低。同时，通道掩码策略对多通道的测试集也有改善效果，在8-ch的Eval和Test集上分别实现了19.4%和21.3%的CER。

表1 各种多通道ASR方法在Eval和Test集上的结果(%)

MFCCA拼接上下文的帧数对模型性能的影响

如表2所示，F是每个时间步中MFCCA模型处理过去和未来的帧数。当F从0增加到2时，我们观察到CER在Eval集上从20.6%降低到20.0%，在Test集上从22.4%降低到22.0%。当进一步将F从2增加到4时，Test集上几乎没有增益，只有在Eval集上CER减少0.1%。原因可能是相邻帧的通道信息在跨通道注意机制中更为重要，这也说明了麦克风之间的延迟时间的重要性。同时也表明了我们模型带来的提升效果，并不是单纯的由于计算量的增加而带来的。基于此结论，在剩下的实验中，回顾和展望的帧数都设置为2。

表2 拼接不同上下文帧数的MFCCA模型在Eval和Test集上的结果(%)

MFCCA分数的可视化

为了分析我们提出的MFCCA模型的实际效果，图4可视化了MFCCA的注意分数和麦克风阵列的拾音细节。

如图4(e)所示，在录音过程中，说话人到麦克风的距离可能会导致不同麦克风之间接收信号会存在时间延迟。例如，对于Spkr1发出的声音，麦克风阵列的通道7和通道4之间会有轻微的时间延迟，因为通道4的麦克风更接近于Spkr1。图4 (a-d)是我们的MFCCA模块为不同说话人计算的平均注意力分数的热图。正如之前MFCCA小节描述的，对于特定时间，他会去查询当前时刻，过去时刻（2帧）和未来时刻（2帧）的上下文通道信息，MFCCA模块尝试去建立相邻帧之间的跨通道依赖关系。结合图4(a)和图4(e)，可以发现我们的模型确实学习到了麦克风延迟的信息，类似于波束形成的作用。模型在时更多地参考通道4/5，在时间t时更多地参考通道7。需要注意的是，我们图4中的注意力分数均来自Encoder第一层的MFCCA模块，其中每个通道都尚未融合其他通道的信息。

图4 图示：(a-d)不同说话人的注意力得分 (e)麦克风阵列拓扑结构和8-ch麦克风波形图

不同训练数据规模的影响

如表3所示，我们比较了不同训练数据规模下MFCCA模型在Eval和Test集上的结果。为了增强模型的声学建模能力，我们将Train-Ali-near和Aishell4加入到我们的训练集中，其在Eval和Test集上的CER分别相对降低了10.8% (19.4% -> 17.3%)和13.6% (21.3% -> 18.4%)。

为了与ICASSP2022 M2MeT挑战赛提交的结果进行公平的比较，我们还基于Train-Ali-near模拟了600小时的8通道会议数据，在Eval和Test集上CER分别达到16.5%和18.0%。同时，我们还将神经网络语言模型(NNLM)集成到我们的模型中，以提高语言泛化能力，Eval和Test集上的CER分别相对减少了2.4%(16.5% -> 16.1%)和2.7%(18.0% -> 17.5%)。

M2MeT挑战赛中第二名的团队采用了前端和后端联合建模的方案，我们提出的MFCCA模型得到的结果相比该结果在Eval和Test集上CER分别相对减少了16.1% (19.2% -> 16.1%)和15.9% (20.8% -> 17.5%)，同时模型参数和训练数据都是在同等的规模下。

此外，我们的MFCCA模型甚至优于竞赛第一的团队提交的大规模扩充数据（14000小时）上训练的大参数模型，在Eval和Test集上CER分别相对减少了8.0% (17.5% -> 16.1%)和6.9% (18.8% -> 17.5%)。

表3 不同训练数据规模下MFCCA模型在Eval和Test集上的结果(%)

Future work

本文提出的方法，其相应的代码和模型未来会在ModelScope开源，欢迎大家前往达摩院模型开源社区ModelScope体验多种语音AI模型。社区官网链接（可点击阅读原文直达）：modelscope.cn

2022年达摩院设计出创新性非自回归端到端语音识别模型paraformer，将模型推理服务成本降低10倍，目前已上线ModelScope社区：https://modelscope.cn/models/damo/speech_paraformer_asr_nat-zh-cn-16k-common-vocab8358-tensorflow1/summary

INTERSPEECH 2022论文解读｜Paraformer: 高识别率、高计算效率的单轮非自回归端到端语音识别模型

References：

[1] Fan Yu, Shiliang Zhang, Yihui Fu, Lei Xie, Siqi Zheng, Zhihao Du, et al., “M2MeT: The ICASSP 2022 multi-channel multi-party meeting transcription challenge,” in Proc. ICASSP. IEEE, 2022, pp. 6167–6171.

[2] Fan Yu, Shiliang Zhang, Pengcheng Guo, Yihui Fu, Zhi hao Du, Siqi Zheng, Lei Xie, et al., “Summary on the ICASSP 2022 multi-channel multi-party meeting transcription grand challenge,” in Proc. ICASSP. IEEE, 2022, pp. 9156–9160.

[3] Fan Yu, Zhi hao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie, “A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings,” in Proc. INTERSPEECH. ISCA, 2022, pp. 560–564.

[4] Hang Chen, Hengshun Zhou, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe, Sabato Marco Siniscalchi, et al., “The first mul-timodal information based speech processing (MISP) challenge: Data, tasks, baselines and results,” in Proc. ICASSP. IEEE, 2022, pp. 9266–9270.

[5] Iain McCowan, Jean Carletta, Wessel Kraaij, Simone Ashby, S Bourban, M Flynn, et al., “The AMI meeting corpus,” in Proc. ICMT. Citeseer, 2005, vol. 88, p. 100.

[6] Jon Barker, Shinji Watanabe, Emmanuel Vincent, and Jan Trmal, “The fifth ’CHiME’ speech separation and recognition challenge: Dataset, task and baselines,” in Proc. INTERSPEECH. ISCA, 2018, pp. 1561–1565.

[7] Feng-Ju Chang, Martin Radfar, Athanasios Mouchtaris, Brian King, and Siegfried Kunzmann, “End-to-end multi-channel transformer for speech recognition,” in Proc. ICASSP. IEEE, 2021, pp. 5884–5888.

[8] Dongmei Wang, Zhuo Chen, and Takuya Yoshioka, “Neural speech separation using spatially distributed microphones,” in Proc. INTERSPEECH. ISCA, 2020, pp. 339–343.

[9] Weiqing Wang, Xiaoyi Qin, and Ming Li, “Cross-channel attention-based target speaker voice activity detection: Experimental results for the m2met challenge,” in Proc. ICASSP. IEEE, 2022, pp. 9171–9175.

[10] Shota Horiguchi, Yuki Takashima, Paola Garcia, Shinji Watanabe, and Yohei Kawaguchi, “Multi-channel end-to-end neural diarization with distributed microphones,” in Proc. ICASSP. IEEE, 2022, pp. 7332–7336.