ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

简介: ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。


/ICASSP收录论文/

CPT: Cross-Modal Prefix-Tuning for Speech-To-Text Translation

/作者/

马煜坤、Trung Hieu Nguyen、马斌


|| 背景

预训练语言模型在文本上的应用非常广泛。尤其是近些年,多语言的文本预训练模型被应用到翻译任务上,并取得了较大的提升。相对于文本翻译,语音翻译任务因为涉及到语音、源语言文本和目标语言文本的三元组, 所以往往需要花费更多资金和时间来收集数据。为了解决这个问题,我们可以通过适配预训练多语言文本模型来减少对源语言文本和目标语言文本的依赖不过,适配预训练多语言文本模型需要解决两个问题:1)如何协调与语音编码器(输出语音表征)之间的联合适配从而保证对语音的鲁棒性;2)如何保证适配的效率,保持多语言文本预训练模型可以保持多语言特性。


|| 方法

我们提出利用最近被应用到 NLP 领域的 prefix tuning 的思想,通过一个跨模态的 prefix network 对多语言文本预训练模型的 encoder 和 decoder 进行适配我们的网络框架包括:1)ASR Encoder&Decoder;2)MT encoder和decoder;3)Prefix Network 用于产生插入到 MT encoder 和 MT decoder 中的 prefix。在训练极端,我们只对 prefix network 部分的参数进行学习。这样一方面保证了文本预训练模型所编码知识不会流失,提升了训练中的参数调整的效率,减少了可训练的参数空间。另一方面,prefix network 基于语音 encoder 输出的特征,这样可以增加对语音特征的鲁棒性。prefix 的生成基于 ASR encoder 的输出也可以在某种程度上通过语音的输入对 MT 模型进行适配。

图片.png

|| 实验结果

我们在最近放出的 Multilingual Tedx 数据集上测试了我们提出的跨模态 prefix. 如下表所示,我们主要试验了7个方向(es-en, es-fr, es-it, es-pt, fr-es, fr-en, fr-pt)。从下表可以看出,相对于 cascaded 模型,我们的方法在所有的 direction 上都有较大提升。同时,我们相对于单纯加入 prefix 到文本模型相比,我们在 6 个方向上都有相当程度的提升。图片.png


我们还测试了我们提出方法的鲁棒性,我们发现我们的方法对于随机的 masking 有更好的容错能力。同时发现,我们的方法更依赖于文本预训练模型的固有知识(例如,源语言和目标语言的ID)。相比之下 finetuning 模型则更加 task-specifc。图片.png


我们接下来进行了 ablation study。我么可以看出对于某些翻译方向来说,仅仅在输入层加入 prefix 就已经足够了,逐层加入 prefix 带来的好处相对比较有限。图片.png


|| Future Work

通过这个研究,我们可以看出在现有模型中加入 prefix(或许其他位置也有相似效果)可以改变当前模型的输出。我们可以探索这种插入的方法对于预训练表征的影响,从而在多语言或者多模态模型中更有效地控制特征的学习。

相关文章
|
1月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
20 5
|
1月前
|
人工智能 语音技术
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
通义语音AI技术问题之语义VAD模型对于传统VAD模型的问题如何解决
32 0
|
4月前
|
人工智能 自然语言处理 语音技术
ZeroSwot:零数据训练,成功突破语音翻译难题
【2月更文挑战第16天】ZeroSwot:零数据训练,成功突破语音翻译难题
46 1
ZeroSwot:零数据训练,成功突破语音翻译难题
|
4月前
|
机器学习/深度学习 编解码 人工智能
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
OpenAI,永远快别人一步!!!! 像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。 100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。 三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”
270 0
OpenAI Sora:“60s超长长度”、“超强语义理解”、“世界模型”。浅析文生视频模型Sora以及技术原理简介
|
4月前
|
算法 测试技术 计算机视觉
【论文速递】ICLR2022 - 语言驱动的语义分割
【论文速递】ICLR2022 - 语言驱动的语义分割
54 0
|
机器学习/深度学习 编解码 自然语言处理
【ACL 2023】具有高效推理速度的中文领域文图生成扩散模型和工具链
面向中文特定领域的文图生成模型,采用与Stable Diffusion一样的模型结构,在给定中文文本的情况下可以实现快速的文图生成工作。
|
机器学习/深度学习 并行计算 算法
ICASSP 2023论文模型开源|语音分离Mossformer
人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话。但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性。 本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文,以及如何基于开发者自有数据进行该模型的调优训练。
509 0
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
137 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
编解码 人工智能 自然语言处理
仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice
仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice
142 0
|
机器学习/深度学习 自然语言处理 数据可视化
Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
180 0