ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。
本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。
本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。
/ICASSP收录论文/
CPT: Cross-Modal Prefix-Tuning for Speech-To-Text Translation
/作者/
马煜坤、Trung Hieu Nguyen、马斌
|| 背景
预训练语言模型在文本上的应用非常广泛。尤其是近些年,多语言的文本预训练模型被应用到翻译任务上,并取得了较大的提升。相对于文本翻译,语音翻译任务因为涉及到语音、源语言文本和目标语言文本的三元组, 所以往往需要花费更多资金和时间来收集数据。为了解决这个问题,我们可以通过适配预训练多语言文本模型来减少对源语言文本和目标语言文本的依赖。不过,适配预训练多语言文本模型需要解决两个问题:1)如何协调与语音编码器(输出语音表征)之间的联合适配从而保证对语音的鲁棒性;2)如何保证适配的效率,保持多语言文本预训练模型可以保持多语言特性。
|| 方法
我们提出利用最近被应用到 NLP 领域的 prefix tuning 的思想,通过一个跨模态的 prefix network 对多语言文本预训练模型的 encoder 和 decoder 进行适配。我们的网络框架包括:1)ASR Encoder&Decoder;2)MT encoder和decoder;3)Prefix Network 用于产生插入到 MT encoder 和 MT decoder 中的 prefix。在训练极端,我们只对 prefix network 部分的参数进行学习。这样一方面保证了文本预训练模型所编码知识不会流失,提升了训练中的参数调整的效率,减少了可训练的参数空间。另一方面,prefix network 基于语音 encoder 输出的特征,这样可以增加对语音特征的鲁棒性。prefix 的生成基于 ASR encoder 的输出也可以在某种程度上通过语音的输入对 MT 模型进行适配。
|| 实验结果
我们在最近放出的 Multilingual Tedx 数据集上测试了我们提出的跨模态 prefix. 如下表所示,我们主要试验了7个方向(es-en, es-fr, es-it, es-pt, fr-es, fr-en, fr-pt)。从下表可以看出,相对于 cascaded 模型,我们的方法在所有的 direction 上都有较大提升。同时,我们相对于单纯加入 prefix 到文本模型相比,我们在 6 个方向上都有相当程度的提升。
我们还测试了我们提出方法的鲁棒性,我们发现我们的方法对于随机的 masking 有更好的容错能力。同时发现,我们的方法更依赖于文本预训练模型的固有知识(例如,源语言和目标语言的ID)。相比之下 finetuning 模型则更加 task-specifc。
我们接下来进行了 ablation study。我么可以看出对于某些翻译方向来说,仅仅在输入层加入 prefix 就已经足够了,逐层加入 prefix 带来的好处相对比较有限。
|| Future Work
通过这个研究,我们可以看出在现有模型中加入 prefix(或许其他位置也有相似效果)可以改变当前模型的输出。我们可以探索这种插入的方法对于预训练表征的影响,从而在多语言或者多模态模型中更有效地控制特征的学习。