INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术-阿里云开发者社区

近年来，智能出行和办公智能化等领域产业的迅猛发展对于口语语言处理（Spoken Language Processing，SLP）能力的需求急速上升。SLP 和传统的自然语言处理（Natural Language Processing，NLP）有所不同，前者针对口语场景，系统输入一般是自动语音识别（ASR）系统的输出，而主流 NLP 任务的输入是比较规范比较书面化的文本。相比传统的 NLP，SLP 面临着多项挑战。其中两个主要的挑战，一是 ASR 识别错误可能会损害下游口语语言处理模块的性能，二是往往缺乏大量的有标注的口语语言处理数据。本文介绍的两篇论文即为解决这两个挑战所做的研究。论文地址：

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21g_interspeech.pdf

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21d_interspeech.pdf

预训练和微调：联合文本-语音的表征学习

口语语言处理传统上使用级联架构，即 ASR 将口语语音转写为文本，ASR 输出作为下游自然语言处理模块的输入。根据以往的研究观察，在此架构中，ASR 错误可能严重损害自然语言处理的性能。近年来，端到端 (E2E) Spoken Language Understanding (SLU) 模型已被提出，使用单个模型将语音输入直接映射到所需的语义表征，从而减轻 ASR 错误的传播，并且学术界也有很多关于 E2E 模型预训练技术的探索。在本文中，我们提出了一种新的联合文本-语音的预训练方法来学习口语表征，旨在探索语音信息的全部潜力，以提高 SLU 对 ASR 错误的鲁棒性。我们将音素标签作为高级语音特征进行探索，并设计和比较了条件掩码语言模型目标和句间关系目标的预训练任务。我们还研究了在微调过程中结合文本和语音信息的效果。在口语理解基准任务 FSC 和 Snips 上的实验结果表明，所提出的方法显著优于基线模型，提高了口语理解对 ASR 错误的鲁棒性。值得注意的是，本文中的工作处理 ASR 输出的1-best, 考虑的是 SLU 系统不能获得语音的场景，但是我们的模型框架可以扩展到使用比起音素标签更为低层的语音表征。

在本节中，我们首先介绍所提出的从文本和语音信息中学习联合语义表征的预训练方法；然后介绍在微调过程中结合文本和语音信息的方法。

预训练模型

我们提出的预训练方法的架构如下图所示。我们使用 Librispeech 和 Fisher 数据作为预训练模型的口语预训练数据集。对于预训练数据集中的每个人工转录的句子，我们使用 CMU 发音词典来获得每个单词的音素序列，然后使用音素标签来表示高级语音特征。

每对 <单词，音素>序列（<W,P>）是预训练模型的输入训练样本，通过token embedding，position embedding 和 segment embedding 的求和来作为双向 Transformer 编码器的输入，用于学习文本和语音序列的联合上下文表征。

预训练任务

我们设计了三个用于学习联合文本-语音语义表征的预训练任务。为了学习 token-level 文本和音素信息的融合，我们设计了以音素序列为条件的掩码语言建模（condMLM）以及以词序列为条件的掩码语音建模（condMSM）。为了学习 instance-level 文本和音素信息融合，我们设计了 word-speech alignment (WSA)。

CondMLM 任务中，我们在 text token sequence W 中随机选择 M% tokens, 并且和 BERT 一致，在选中的 tokens 中 80% 替换为 [MASK]，10% 使用其他随机词替换，10% 保持不变。模型通过最小化交叉熵损失学习使用 W 中其余 unmasked tokens 以及音素序列 P 来预测被掩蔽的 tokens。

CondMSM 的设计与 condMLM 思路相同，为了避免在从一个词的音素序列映射到 WordPiece tokenization 过程中引入噪声，文本和音素侧的掩码均在整词上进行。考虑到从文本预测音素和从音素预测文本的难度是不对等的，我们研究了仅在文本/音素的单侧掩码 (oneMod) 以及双侧同时掩码 (twoMod) 的掩码策略。One Mod 策略下，对于每个预训练样本，我们随机选择文本或者音素单侧掩码，并执行上述的掩码和预测。Two Mod 策略下，每个预训练样本的文本和音素侧同时随机掩码。

WSA 任务的构造如下。针对每个预训练样本 <W,P>，我们构造正例 [CLS]W[SEP]P 以及随机采样 Prand 构造负例 [CLS]W[SEP]Prand，模型通过最小化交叉熵损失学习使用 [CLS] 的 final hidden state 进行分类。总训练目标是 conMLM，condMSM 和 WSA 预训练任务目标的组合。

SLU微调

在这项工作中对 SLU 的微调包括意图分类 (IC)，以及通过多任务学习框架联合执行 IC 和槽填充 (SF)。其中多任务学习框架中联合执行 IC 和 SF 的方法见我们之前的工作 [1]。我们提出了一种在 SLU 微调期间引入音素标签的方法。对于输入嵌入层，给定一个单词和表示其发音的音素序列，我们对其进行加权和。

实验结果

SLU学术公开数据集的结果

和近期一些工作不同，我们提出的预训练和微调方法均与级联 SLU 中的 ASR 系统无关。我们所有的 SLU 微调都使用 SLU 训练集人工转录和 NLU 标签，并且相同的微调模型用于推断测试集上不同ASR系统生成的 ASR 1-best 上的意图和槽。

如下表所示，在英文 SLU 学术公开数据集 Fluent Speech Commands (FSC) 和 Snips上，口语预训练数据上进一步的 Masked Language Model (MLM) 训练可以提升意图分类 accuracy (ICAcc)，而我们提出的融合文本和音素的预训练和微调方法可以进一步稳定提升 SLU 的效果。在 FSC 数据集的不同 WER的 ASR 1-best 上，我们的预训练方法可以在 BERT-Base 基线上绝对提升 ICAcc 1.6% 和 1.8%，加入微调方法后最终 ICAcc 获得绝对提升 2.9% 和 2.7%。在 Snips 数据集上，我们的预训练方法相比 BERT-Base 在 ICAcc 和句子语义错误率（semER）上绝对提升 1.6% 和 1.8%，加入微调方法后最终 ICAcc 和 semER 绝对提升 3.3% 和 3.7%。

模型分析

为了分析所提出的预训练模型在对齐文本和语音表征方面的性能，我们从 FSC 验证集 ASR 1-best (WER 36.7%) 中选择最频繁的 20 个混淆词对，并排除未包含在 BERT 里的词汇。每个词对都用于检索，其中 ASR 假设词作为查询，参考词作为参考。

我们通过计算来自预训练模型的训练输入嵌入之间的余弦距离来评估平均倒数秩 (MRR) 以进行检索。下表显示，与来自 BERT-Base 的 MRR 0.1012 相比，通过使用 condMLM 100%+condMSM 100% (oneMod) 进一步预训练 BERT-Base 所获得的预训练模型显著将 MRR 提高到 0.1591，证实了所提出的预训练模型显著减少了声学易混淆词之间的表征距离，从而能够有效的提升 SLP 对于 ASR 错误的鲁棒性。

区分式自训练

口语语言处理功能的开发往往缺乏大量的有标注数据。在这项工作中，我们提出了一种带有加权损失和区分式标签平滑的区分式自训练方法，来利用未标记的语音转录文本。

我们在 ASR 输出的标点符号预测任务上验证该方法的有效性。ASR 输出转录文本的标点符号预测对于提高 ASR 转录文本的可读性和提高下游自然语言处理任务的性能起着至关重要的作用。然而，在标点符号预测上实现良好的性能通常需要大量有标记的语音转录本，既昂贵又费力。在英语 IWSLT2011 标准测试集和内部中文口语数据集上的实验结果表明，我们所提出的方法在包括 BERT [2]、RoBERTa [3] 和 ELECTRA [4] 模型在内的强基线上实现了标点符号预测准确性的显著提高，提出的区分式自训练方法效果优于原始自训练方法。我们在 IWSLT2011 测试集上建立了一个新的最先进 (SOTA) 模型，比当前的 SOTA 模型的 F1 绝对高出 1.3%。

模型结构

我们的模型将标点符号预测视为序列标记任务，输入是没有标点符号的文本。对于没有明确单词边界的语言，例如中文，输入被分割成单词。我们的模型预测每个单词后是否有特定的标点符号。单词进行 WordPiece tokenization 后，输入到 Transformer 编码器。最后一个 sub-token 对应的编码器的最终隐藏状态作为 softmax 分类器的输入用于标点预测。

区分式自训练

下图概述了提出的用于标点符号预测的区分式自训练方法。给定大规模书面语言数据，带有标点标签的人工标记的口语数据和未标记的口语数据，首先，我们通过掩码语言建模（MLM）和下一句预测（NSP）等自监督任务在大规模格式良好的书面语文本语料库上预训练语言模型，以获得深度双向语言表征。

然后，使用原始自训练方法 (vanilla ST) 的操作如下：我们从预训练的语言模型中初始化一个教师模型，并通过最小化交叉熵损失在带有人工标注的标点符号的口语数据上训练它。接下来，我们在未标记口语数据上推断伪标签。然后，我们从预先训练的语言模型中初始化一个学生模型，并通过最小化人工标记的口语数据和伪标记的口语数据组合的交叉熵损失来训练它。

和上述的原始自训练方法不同，我们提出了一种新型的区分式自训练方法（Discriminative Self-training, or Disc-ST），在对人工标记数据和伪标记数据的组合进行训练时，我们的方法以区分方式采用加权损失和标签平滑。直观地说，伪标记数据比人工标记数据具有更多的噪声。因此，我们使用不同的权重来组合人工标记数据和伪标记数据的损失（表示为weighted loss）。

同时，我们探索输出正则化器之一，标签平滑，来处理带有噪声标签的训练。在未来的工作中，我们计划探索其他输出正则化器，例如 focal loss 和 bootstrapping loss。与加权损失的动机类似，考虑到人工标记数据和伪标记数据中不同的噪声水平，我们有区别地使用标签平滑，即我们使用不同的因子用于人工标记数据和伪标记数据。

在一轮 Disc-ST 之后，我们将学生重新作为老师，并重复这个过程，直到性能收敛。在人工标注的验证集上取得最佳性能的学生模型被选为我们的最终模型。

标点预测实验结果

英文标准数据集IWSLT2011上的表现

如下表所示，在英文标准数据集 IWSLT2011 上，我们将提出的方法与以前的模型（第一组）进行比较。第二组展示了这项工作的实验结果。我们使用人工标注的训练集微调 BERT-base 和 ELECTRA-large 模型，并观察到 ELECTRA-large 优于当前的 SOTA（RoBERTa-base）（F1 84.4 vs 83.9），并且显著优于 BERT-base（F1 84.4 vs 77.4）。

BERT-base 上的原始自训练（vanilla ST）将 F1 从 77.4 提高到 79.0（+1.6），在 ELECTRA-large 上将 F1 从 84.4 提高到 84.7（+ 0.3），表明 Vanilla ST 在强基线上获得了显著的收益。

用基于 BERT 的区分式自训练 (Disc-ST) 替换 vanilla ST 可将 F1 从 79.0 进一步提高到 79.6 (+0.6)；对于 ELECTRA-large，Disc-ST 将 F1 从 vanilla ST 的 84.7 提高到 85.2 (+0.5)。这些提升均具备统计显著性。我们的 ELECTRA-large+Disc-ST 以 1.3 绝对 F1 增益优于当前的 SOTA（RoBERTa-base）。 内部中文数据集上的表现

我们还在内部中文数据集上将所提出的方法与其他强模型进行了比较。如下表所示，第一组为之前的强模型，第二组展示了这项工作的实验结果。

为了与当前的 SOTA CT-Transformer [5] 进行比较，我们使用相同的快速解码策略。基于 RoBERTa-wwm 的模型显著优于 CT-Transformer（F1 59.6 vs 58.8）。区分式自训练将 F1 从 59.6 提高到 60.2 (+0.6) （该提升同样具备统计显著性）。

Future work

针对口语语言处理中面临的 ASR 识别错误损害语言处理性能和缺乏大量有标注数据的两大挑战，我们提出了一种在口语语言处理的预训练模型和微调中引入发音特征的方法，有效地提升了口语语言理解对于 ASR 错误的鲁棒性。

同时，我们提出了一种区分式的自训练方法，有效地减缓了对于有标注数据的依赖。未来的工作包括在文本语音联合表征学习中，探索更有效的语音特征和预训练任务。在自学习方法中，研究其他输出正则化器以及跨域和跨语言任务中自训练的效果。

References：
[1] Qian Chen, Zhu Zhuo, Wen Wang: BERT for Joint Intent Classification and Slot Filling. CoRR abs/1902.10909[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692[4] Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ICLR 2020[5] Qian Chen, Mengzhe Chen, Bo Li, Wen Wang: Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection. ICASSP 2020: 8069-8073

INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术

阿里云语音AI

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术

阿里云语音AI

热门文章

最新文章

相关电子书