ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

简介: ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。


/ICASSP收录论文/

CPT: Cross-Modal Prefix-Tuning for Speech-To-Text Translation

/作者/

马煜坤、Trung Hieu Nguyen、马斌


|| 背景

预训练语言模型在文本上的应用非常广泛。尤其是近些年,多语言的文本预训练模型被应用到翻译任务上,并取得了较大的提升。相对于文本翻译,语音翻译任务因为涉及到语音、源语言文本和目标语言文本的三元组, 所以往往需要花费更多资金和时间来收集数据。为了解决这个问题,我们可以通过适配预训练多语言文本模型来减少对源语言文本和目标语言文本的依赖不过,适配预训练多语言文本模型需要解决两个问题:1)如何协调与语音编码器(输出语音表征)之间的联合适配从而保证对语音的鲁棒性;2)如何保证适配的效率,保持多语言文本预训练模型可以保持多语言特性。


|| 方法

我们提出利用最近被应用到 NLP 领域的 prefix tuning 的思想,通过一个跨模态的 prefix network 对多语言文本预训练模型的 encoder 和 decoder 进行适配我们的网络框架包括:1)ASR Encoder&Decoder;2)MT encoder和decoder;3)Prefix Network 用于产生插入到 MT encoder 和 MT decoder 中的 prefix。在训练极端,我们只对 prefix network 部分的参数进行学习。这样一方面保证了文本预训练模型所编码知识不会流失,提升了训练中的参数调整的效率,减少了可训练的参数空间。另一方面,prefix network 基于语音 encoder 输出的特征,这样可以增加对语音特征的鲁棒性。prefix 的生成基于 ASR encoder 的输出也可以在某种程度上通过语音的输入对 MT 模型进行适配。

图片.png

|| 实验结果

我们在最近放出的 Multilingual Tedx 数据集上测试了我们提出的跨模态 prefix. 如下表所示,我们主要试验了7个方向(es-en, es-fr, es-it, es-pt, fr-es, fr-en, fr-pt)。从下表可以看出,相对于 cascaded 模型,我们的方法在所有的 direction 上都有较大提升。同时,我们相对于单纯加入 prefix 到文本模型相比,我们在 6 个方向上都有相当程度的提升。图片.png


我们还测试了我们提出方法的鲁棒性,我们发现我们的方法对于随机的 masking 有更好的容错能力。同时发现,我们的方法更依赖于文本预训练模型的固有知识(例如,源语言和目标语言的ID)。相比之下 finetuning 模型则更加 task-specifc。图片.png


我们接下来进行了 ablation study。我么可以看出对于某些翻译方向来说,仅仅在输入层加入 prefix 就已经足够了,逐层加入 prefix 带来的好处相对比较有限。图片.png


|| Future Work

通过这个研究,我们可以看出在现有模型中加入 prefix(或许其他位置也有相似效果)可以改变当前模型的输出。我们可以探索这种插入的方法对于预训练表征的影响,从而在多语言或者多模态模型中更有效地控制特征的学习。

相关文章
|
自然语言处理 测试技术 vr&ar
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
271 0
|
4月前
|
人工智能 算法
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
通义语音AI技术问题之预训练语言模型句子嵌入存在的各向异性问题如何解决
34 5
|
7月前
|
编解码 文字识别 测试技术
论文介绍:TextMonkey——面向文本理解的无OCR大型多模态模型
【5月更文挑战第2天】TextMonkey是一款无OCR的大型多模态模型,设计用于高效提取文本信息。它采用Shifted Window Attention和零初始化技术处理高分辨率文档,减少训练成本。通过假设图像中的冗余标记,模型能精简标记并提升性能。TextMonkey还能定位文本答案在图像中的位置,增强可解释性,在场景文本任务和关键信息提取中表现优越,特别是在OCRBench基准测试中刷新记录。然而,它在处理小图像和需要深层推理的任务时仍面临挑战。[链接](https://arxiv.org/abs/2403.04473)
202 5
|
自然语言处理 数据挖掘 语音技术
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
INTERSPEECH 是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议。历届 INTERSPEECH 会议都备受全球各地语音语言领域人士的广泛关注。 本文介绍我们在 INTERSPEECH 2021 发表的两篇论文工作:一种在预训练 (pre-training) 和微调 (fine-tuning) 中融合音素和文本信息的技术,提升下游 SLP 任务对于 ASR 错误的鲁棒性,以及一种区分式自训练技术 (discriminative self-training) ,减缓对于有
167 0
INTERSPEECH 论文解读〡口语语言处理的音素与文本融合技术及区分式自训练技术
|
编解码 人工智能 自然语言处理
仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice
仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoice
162 0
|
机器学习/深度学习 自然语言处理 数据可视化
Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
Fudan DISC推出跨视觉语言模态预训练模型MVPTR:多层次语义对齐实现SOTA(已开源)
196 0
|
机器学习/深度学习 人工智能 自然语言处理
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
193 0
|
机器学习/深度学习 自然语言处理 文字识别
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾(1)
多语种翻译,跨模态文档理解,视觉合成, Backbone... 12个去年刷爆基准的SOTA工作一文回顾
365 0
|
自然语言处理 测试技术 语音技术
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA
256 0
|
自然语言处理 数据可视化 算法
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(2)
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
196 0
下一篇
DataWorks