INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术

简介: INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training)

近年来,智能出行和办公智能化等领域产业的迅猛发展对于口语语言处理(Spoken Language Processing,SLP)能力的需求急速上升。SLP 和传统的自然语言处理(Natural Language Processing,NLP)有所不同,前者针对口语场景,系统输入一般是自动语音识别(ASR)系统的输出,而主流 NLP 任务的输入是比较规范比较书面化的文本。相比传统的 NLP,SLP 面临着多项挑战。其中两个主要的挑战,一是 ASR 识别错误可能会损害下游口语语言处理模块的性能,二是往往缺乏大量的有标注的口语语言处理数据。本文介绍的两篇论文即为解决这两个挑战所做的研究。论文地址:

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21g_interspeech.pdf

https://www.isca-speech.org/archive/pdfs/interspeech_2021/chen21d_interspeech.pdf



预训练和微调:联合文本-语音的表征学习

口语语言处理传统上使用级联架构, 即 ASR 将口语语音转写为文本,ASR 输出作为下游自然语言处理模块的输入。根据以往的研究观察,在此架构中,ASR 错误可能严重损害自然语言处理的性能。近年来,端到端 (E2E) Spoken Language Understanding (SLU) 模型已被提出,使用单个模型将语音输入直接映射到所需的语义表征,从而减轻 ASR 错误的传播,并且学术界也有很多关于 E2E 模型预训练技术的探索。在本文中,我们提出了一种新的联合文本-语音的预训练方法来学习口语表征,旨在探索语音信息的全部潜力,以提高 SLU 对 ASR 错误的鲁棒性。我们将音素标签作为高级语音特征进行探索,并设计和比较了条件掩码语言模型目标和句间关系目标的预训练任务。我们还研究了在微调过程中结合文本和语音信息的效果。在口语理解基准任务 FSC 和 Snips 上的实验结果表明,所提出的方法显著优于基线模型,提高了口语理解对 ASR 错误的鲁棒性。值得注意的是,本文中的工作处理 ASR 输出的1-best, 考虑的是 SLU 系统不能获得语音的场景, 但是我们的模型框架可以扩展到使用比起音素标签更为低层的语音表征。

在本节中,我们首先介绍所提出的从文本和语音信息中学习联合语义表征的预训练方法;然后介绍在微调过程中结合文本和语音信息的方法。

预训练模型

我们提出的预训练方法的架构如下图所示。我们使用 Librispeech 和 Fisher 数据作为预训练模型的口语预训练数据集。对于预训练数据集中的每个人工转录的句子,我们使用 CMU 发音词典来获得每个单词的音素序列, 然后使用音素标签来表示高级语音特征。

每对 <单词,音素>序列 (<W,P>) 是预训练模型的输入训练样本,通过token embedding,position embedding 和 segment embedding 的求和来作为双向 Transformer 编码器的输入,用于学习文本和语音序列的联合上下文表征。

image.png

预训练任务

我们设计了三个用于学习联合文本-语音语义表征的预训练任务。为了学习 token-level 文本和音素信息的融合,我们设计了以音素序列为条件的掩码语言建模(condMLM)以及以词序列为条件的掩码语音建模(condMSM)。为了学习 instance-level 文本和音素信息融合,我们设计了 word-speech alignment (WSA)。

CondMLM 任务中, 我们在 text token sequence W 中随机选择 M% tokens, 并且和 BERT 一致,在选中的 tokens 中 80% 替换为 [MASK],10% 使用其他随机词替换,10% 保持不变。模型通过最小化交叉熵损失学习使用 W 中其余 unmasked tokens 以及音素序列 P 来预测被掩蔽的 tokens。

CondMSM 的设计与 condMLM 思路相同,为了避免在从一个词的音素序列映射到 WordPiece tokenization 过程中引入噪声,文本和音素侧的掩码均在整词上进行。考虑到从文本预测音素和从音素预测文本的难度是不对等的,我们研究了仅在文本/音素的单侧掩码 (oneMod) 以及双侧同时掩码 (twoMod) 的掩码策略。One Mod 策略下,对于每个预训练样本,我们随机选择文本或者音素单侧掩码,并执行上述的掩码和预测。Two Mod 策略下,每个预训练样本的文本和音素侧同时随机掩码。

WSA 任务的构造如下。针对每个预训练样本 <W,P>,我们构造正例 [CLS]W[SEP]P 以及随机采样 Prand 构造负例 [CLS]W[SEP]Prand,模型通过最小化交叉熵损失学习使用 [CLS] 的 final hidden state 进行分类。总训练目标是 conMLM,condMSM 和 WSA 预训练任务目标的组合。

SLU微调

在这项工作中对 SLU 的微调包括意图分类 (IC),以及通过多任务学习框架联合执行 IC 和槽填充 (SF)。其中多任务学习框架中联合执行 IC 和 SF 的方法见我们之前的工作 [1]。我们提出了一种在 SLU 微调期间引入音素标签的方法。对于输入嵌入层,给定一个单词和表示其发音的音素序列,我们对其进行加权和。

实验结果

SLU学术公开数据集的结果

和近期一些工作不同,我们提出的预训练和微调方法均与级联 SLU 中的 ASR 系统无关。我们所有的 SLU 微调都使用 SLU 训练集人工转录和 NLU 标签,并且相同的微调模型用于推断测试集上不同ASR系统生成的 ASR 1-best 上的意图和槽。

如下表所示,在英文 SLU 学术公开数据集 Fluent Speech Commands (FSC) 和 Snips上,口语预训练数据上进一步的 Masked Language Model (MLM) 训练可以提升意图分类 accuracy  (ICAcc),而我们提出的融合文本和音素的预训练和微调方法可以进一步稳定提升 SLU 的效果。在 FSC 数据集的不同 WER的 ASR 1-best 上,我们的预训练方法可以在 BERT-Base 基线上绝对提升 ICAcc 1.6% 和 1.8%, 加入微调方法后最终 ICAcc 获得绝对提升 2.9% 和 2.7%。在 Snips 数据集上,我们的预训练方法相比 BERT-Base 在 ICAcc 和句子语义错误率 (semER)上绝对提升 1.6% 和 1.8%, 加入微调方法后最终 ICAcc 和 semER 绝对提升 3.3% 和 3.7%。

image.png

模型分析

为了分析所提出的预训练模型在对齐文本和语音表征方面的性能,我们从 FSC 验证集 ASR 1-best (WER 36.7%) 中选择最频繁的 20 个混淆词对,并排除未包含在 BERT 里的词汇。 每个词对都用于检索,其中 ASR 假设词作为查询,参考词作为参考。

我们通过计算来自预训练模型的训练输入嵌入之间的余弦距离来评估平均倒数秩 (MRR) 以进行检索。下表显示,与来自 BERT-Base 的 MRR 0.1012 相比,通过使用 condMLM 100%+condMSM 100% (oneMod) 进一步预训练 BERT-Base 所获得的预训练模型显著将 MRR 提高到 0.1591,证实了所提出的预训练模型显著减少了声学易混淆词之间的表征距离,从而能够有效的提升 SLP 对于 ASR 错误的鲁棒性。

image.png

区分式自训练

口语语言处理功能的开发往往缺乏大量的有标注数据。在这项工作中,我们提出了一种带有加权损失和区分式标签平滑的区分式自训练方法,来利用未标记的语音转录文本。

我们在 ASR 输出的标点符号预测任务上验证该方法的有效性。ASR 输出转录文本的标点符号预测对于提高 ASR 转录文本的可读性和提高下游自然语言处理任务的性能起着至关重要的作用。然而,在标点符号预测上实现良好的性能通常需要大量有标记的语音转录本,既昂贵又费力。在英语 IWSLT2011 标准测试集和内部中文口语数据集上的实验结果表明,我们所提出的方法在包括 BERT [2]、RoBERTa [3] 和 ELECTRA [4] 模型在内的强基线上实现了标点符号预测准确性的显著提高,提出的区分式自训练方法效果优于原始自训练方法。我们在 IWSLT2011 测试集上建立了一个新的最先进 (SOTA) 模型,比当前的 SOTA 模型的 F1 绝对高出 1.3%。

模型结构

我们的模型将标点符号预测视为序列标记任务,输入是没有标点符号的文本。对于没有明确单词边界的语言,例如中文,输入被分割成单词。我们的模型预测每个单词后是否有特定的标点符号。单词进行 WordPiece tokenization 后,输入到 Transformer 编码器。最后一个 sub-token 对应的编码器的最终隐藏状态作为 softmax 分类器的输入用于标点预测。

区分式自训练

下图概述了提出的用于标点符号预测的区分式自训练方法。给定大规模书面语言数据,带有标点标签的人工标记的口语数据和未标记的口语数据,首先,我们通过掩码语言建模(MLM)和下一句预测(NSP)等自监督任务在大规模格式良好的书面语文本语料库上预训练语言模型,以获得深度双向语言表征。

然后,使用原始自训练方法 (vanilla ST) 的操作如下:我们从预训练的语言模型中初始化一个教师模型,并通过最小化交叉熵损失在带有人工标注的标点符号的口语数据上训练它。接下来,我们在未标记口语数据上推断伪标签。然后,我们从预先训练的语言模型中初始化一个学生模型,并通过最小化人工标记的口语数据和伪标记的口语数据组合的交叉熵损失来训练它。

和上述的原始自训练方法不同,我们提出了一种新型的区分式自训练方法 (Discriminative Self-training, or Disc-ST),在对人工标记数据和伪标记数据的组合进行训练时,我们的方法以区分方式采用加权损失和标签平滑。直观地说,伪标记数据比人工标记数据具有更多的噪声。因此,我们使用不同的权重来组合人工标记数据和伪标记数据的损失(表示为weighted loss)。

同时,我们探索输出正则化器之一,标签平滑, 来处理带有噪声标签的训练。在未来的工作中,我们计划探索其他输出正则化器,例如 focal loss 和 bootstrapping loss。与加权损失的动机类似,考虑到人工标记数据和伪标记数据中不同的噪声水平,我们有区别地使用标签平滑,即我们使用不同的因子用于人工标记数据和伪标记数据。

在一轮 Disc-ST 之后,我们将学生重新作为老师,并重复这个过程,直到性能收敛。在人工标注的验证集上取得最佳性能的学生模型被选为我们的最终模型。

image.png

标点预测实验结果

英文标准数据集IWSLT2011上的表现

如下表所示,在英文标准数据集 IWSLT2011 上,我们将提出的方法与以前的模型(第一组)进行比较。第二组展示了这项工作的实验结果。我们使用人工标注的训练集微调 BERT-base 和 ELECTRA-large 模型,并观察到 ELECTRA-large 优于当前的 SOTA(RoBERTa-base)(F1 84.4 vs 83.9),并且显著优于 BERT-base(F1 84.4 vs 77.4)。

BERT-base 上的原始自训练(vanilla ST)将 F1 从 77.4 提高到 79.0(+1.6),在 ELECTRA-large 上将 F1 从 84.4 提高到 84.7(+ 0.3),表明 Vanilla ST 在强基线上获得了显著的收益。

用基于 BERT 的区分式自训练 (Disc-ST) 替换 vanilla ST 可将 F1 从 79.0 进一步提高到 79.6 (+0.6);对于 ELECTRA-large,Disc-ST 将 F1 从 vanilla ST 的 84.7 提高到 85.2 (+0.5)。这些提升均具备统计显著性。我们的 ELECTRA-large+Disc-ST 以 1.3 绝对 F1 增益优于当前的 SOTA(RoBERTa-base)。

image.png

内部中文数据集上的表现

我们还在内部中文数据集上将所提出的方法与其他强模型进行了比较。如下表所示,第一组为之前的强模型,第二组展示了这项工作的实验结果。

为了与当前的 SOTA CT-Transformer  [5] 进行比较,我们使用相同的快速解码策略。基于 RoBERTa-wwm 的模型显著优于 CT-Transformer(F1 59.6 vs 58.8)。区分式自训练将 F1 从 59.6 提高到 60.2 (+0.6) (该提升同样具备统计显著性)。

image.png

Future work

针对口语语言处理中面临的 ASR 识别错误损害语言处理性能和缺乏大量有标注数据的两大挑战,我们提出了一种在口语语言处理的预训练模型和微调中引入发音特征的方法,有效地提升了口语语言理解对于 ASR 错误的鲁棒性。

同时,我们提出了一种区分式的自训练方法,有效地减缓了对于有标注数据的依赖。未来的工作包括在文本语音联合表征学习中,探索更有效的语音特征和预训练任务。在自学习方法中,研究其他输出正则化器以及跨域和跨语言任务中自训练的效果。


References:
[1] Qian Chen, Zhu Zhuo, Wen Wang: BERT for Joint Intent Classification and Slot Filling. CoRR abs/1902.10909[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs/1907.11692[4] Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. ICLR 2020[5] Qian Chen, Mengzhe Chen, Bo Li, Wen Wang: Controllable Time-Delay Transformer for Real-Time Punctuation Prediction and Disfluency Detection. ICASSP 2020: 8069-8073

相关文章
|
数据采集 监控 安全
Go语言在网络安全中的应用
【2月更文挑战第24天】Go语言,作为一种高效且易于维护的编程语言,近年来在网络安全领域得到了广泛的应用。本文旨在探讨Go语言在网络安全中的应用,包括其在防火墙、入侵检测、网络爬虫以及Web安全等方面的应用,并分析了Go语言在网络安全领域的优势与前景。
|
API
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
7346 1
最新!中国天气网api接口调用,key获取方式,数据请求秘钥获取,城市id获取方法
|
NoSQL JavaScript 前端开发
SpringBoot+Vue实现校园二手系统。前后端分离技术【完整功能介绍+实现详情+源码】
文章介绍了如何使用SpringBoot和Vue实现一个校园二手系统,采用前后端分离技术。系统具备完整的功能,包括客户端和管理员端的界面设计、个人信息管理、商品浏览和交易、订单处理、公告发布等。技术栈包括Vue框架、ElementUI、SpringBoot、Mybatis-plus和Redis。文章还提供了部分源代码,展示了前后端的请求接口和Redis验证码功能实现,以及系统重构和模块化设计的一些思考。
SpringBoot+Vue实现校园二手系统。前后端分离技术【完整功能介绍+实现详情+源码】
|
数据安全/隐私保护
jupyterlab远程服务器配置
jupyterlab远程服务器配置
555 0
|
人工智能 安全 数据中心
首个全球AI出口管制规则出台,中国AI路在何方?
在CES 2025上,英伟达宣布Blackwell芯片全面投产,GB200芯片为大语言模型推理带来30倍性能提升,成本和能耗降低25倍。然而,1月13日白宫公布的“临时最终规则”对AI芯片出口进行严格限制,引发市场悲观情绪。新规将全球分为三级,中国大陆被列为Tier 3,面临先进芯片进口禁令和模型权重管控,加剧了中国AI产业的挑战。尽管如此,华为云、科大讯飞等企业通过自主创新,如昇腾AI云服务,提供了稳定可靠的算力解决方案,展现了中国科技企业的韧性和创新精神,推动大模型生态的发展。
393 16
|
监控 PyTorch 数据处理
通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析
在 PyTorch 中,`pin_memory` 是一个重要的设置,可以显著提高 CPU 与 GPU 之间的数据传输速度。当 `pin_memory=True` 时,数据会被固定在 CPU 的 RAM 中,从而加快传输到 GPU 的速度。这对于处理大规模数据集、实时推理和多 GPU 训练等任务尤为重要。本文详细探讨了 `pin_memory` 的作用、工作原理及最佳实践,帮助你优化数据加载和传输,提升模型性能。
1421 4
通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析
|
Web App开发 监控 算法
详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)
本文将结合实例全面解析 WebRTC AGC 的基本框架,一起探索其基本原理、模式的差异、存在的问题以及优化方向。
详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)
|
Web App开发 编解码 网络协议
WebRTC SDP 详解和剖析
WebRTC 技术体系中,SDP 是看起来简单却坑非常多的点,就像直播中的时间戳几乎占据了 80% 的问题,SDP 也是问题频发的点。这篇文章详细分享了 SDP 的关键点,容易出问题的点,是非常实用的满满的干货。
WebRTC SDP 详解和剖析
|
应用服务中间件 nginx Docker
深入理解Dockerfile:构建镜像的详细解释与常用命令(上)
Docker 是一种流行的容器化平台,可将应用程序和其依赖项打包到一个独立的、可移植的容器中。Dockerfile 是构建 Docker 镜像的文本文件,它包含了一系列的指令和配置,用于定义镜像的构建过程。本文将深入解释 Dockerfile 的工作原理,并介绍常用的 Dockerfile 指令和构建命令,以帮助读者更好地理解和使用 Docker。
2353 0
|
Web App开发 编解码 算法
RTC场景中的几个关键算法
RTC(Real-time Communications),实时通信,是一个正在兴起的风口行业,特别是近两年电商、教育等行业直播的普及以及各种设备之间的音视频通话场景。
1581 20
RTC场景中的几个关键算法

热门文章

最新文章