ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

简介: ICASSP 2022 论文分享-CPT:语音翻译的跨模态前缀调优

ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学、语音和信号处理会议,亦为IEEE信号处理协会组织的年度旗舰会议。历届ICASSP会议都备受语音AI领域研究学者的热议和关注。

本届ICASSP 2022,阿里巴巴达摩院语音实验室总共有 14 篇论文被大会接收,包含语音识别,语音合成,语音前端处理,声纹识别,语音唤醒,多模态建模等研究方向。

本文介绍在语音翻译任务中,通过一个跨模态的 prefix network 来适配多语言文本预训练模型的新方式。


/ICASSP收录论文/

CPT: Cross-Modal Prefix-Tuning for Speech-To-Text Translation

/作者/

马煜坤、Trung Hieu Nguyen、马斌


|| 背景

预训练语言模型在文本上的应用非常广泛。尤其是近些年,多语言的文本预训练模型被应用到翻译任务上,并取得了较大的提升。相对于文本翻译,语音翻译任务因为涉及到语音、源语言文本和目标语言文本的三元组, 所以往往需要花费更多资金和时间来收集数据。为了解决这个问题,我们可以通过适配预训练多语言文本模型来减少对源语言文本和目标语言文本的依赖不过,适配预训练多语言文本模型需要解决两个问题:1)如何协调与语音编码器(输出语音表征)之间的联合适配从而保证对语音的鲁棒性;2)如何保证适配的效率,保持多语言文本预训练模型可以保持多语言特性。


|| 方法

我们提出利用最近被应用到 NLP 领域的 prefix tuning 的思想,通过一个跨模态的 prefix network 对多语言文本预训练模型的 encoder 和 decoder 进行适配我们的网络框架包括:1)ASR Encoder&Decoder;2)MT encoder和decoder;3)Prefix Network 用于产生插入到 MT encoder 和 MT decoder 中的 prefix。在训练极端,我们只对 prefix network 部分的参数进行学习。这样一方面保证了文本预训练模型所编码知识不会流失,提升了训练中的参数调整的效率,减少了可训练的参数空间。另一方面,prefix network 基于语音 encoder 输出的特征,这样可以增加对语音特征的鲁棒性。prefix 的生成基于 ASR encoder 的输出也可以在某种程度上通过语音的输入对 MT 模型进行适配。

图片.png

|| 实验结果

我们在最近放出的 Multilingual Tedx 数据集上测试了我们提出的跨模态 prefix. 如下表所示,我们主要试验了7个方向(es-en, es-fr, es-it, es-pt, fr-es, fr-en, fr-pt)。从下表可以看出,相对于 cascaded 模型,我们的方法在所有的 direction 上都有较大提升。同时,我们相对于单纯加入 prefix 到文本模型相比,我们在 6 个方向上都有相当程度的提升。图片.png


我们还测试了我们提出方法的鲁棒性,我们发现我们的方法对于随机的 masking 有更好的容错能力。同时发现,我们的方法更依赖于文本预训练模型的固有知识(例如,源语言和目标语言的ID)。相比之下 finetuning 模型则更加 task-specifc。图片.png


我们接下来进行了 ablation study。我么可以看出对于某些翻译方向来说,仅仅在输入层加入 prefix 就已经足够了,逐层加入 prefix 带来的好处相对比较有限。图片.png


|| Future Work

通过这个研究,我们可以看出在现有模型中加入 prefix(或许其他位置也有相似效果)可以改变当前模型的输出。我们可以探索这种插入的方法对于预训练表征的影响,从而在多语言或者多模态模型中更有效地控制特征的学习。

相关文章
|
算法 数据挖掘 Go
文献速读|5分生信+免疫组化单细胞联合bulk转录组肿瘤预后模型
研究摘要: 在《Cancer Immunology Immunotherapy》上发表的一篇文章,通过整合Bulk和单细胞RNA-seq数据,探讨了非小细胞肺癌(NSCLC)中癌相关纤维细胞(CAF)的作用。研究者识别出CAF的预后标志物,构建了一个基于CAF的模型,该模型在四个独立队列中区分了预后良好的和较差的患者。WGCNA分析鉴定出CAF标记基因,而CAF分数与免疫微环境和免疫治疗反应相关。高CAF分数关联较差的免疫治疗反应,FBLIM1被发现为CAF的主要来源,其高表达预测了免疫疗法的不良反应。该研究揭示了CAF在NSCLC免疫抑制和治疗策略中的重要地位。
621 1
|
API Python Windows
python2.7 win32com 避坑指南
python2.7 win32com 避坑指南
1110 0
|
11月前
|
传感器 人工智能 物联网
智能戒指:小小指环,大大未来
智能戒指:小小指环,大大未来
649 21
|
人工智能 网络架构 开发者
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
【10月更文挑战第1天】《OLMoE: Open Mixture-of-Experts Language Models》一文介绍了OLMoE,这是一个完全开源的Mixture-of-Experts(MoE)语言模型,具有70亿参数量,但每个输入令牌仅需10亿参数进行推理,有效平衡了性能与成本。OLMoE由Allen Institute for AI等机构的研究者共同开发,其开源特性促进了大规模语言模型领域的合作与创新,降低了资源浪费,同时具备良好的可扩展性和效率,为研究和应用开辟了新可能。然而,其复杂性也可能带来训练和调优上的挑战。
391 2
|
机器学习/深度学习 人工智能 算法
技术开源|FunASR升级第三代热词方案
技术开源|FunASR升级第三代热词方案
4086 62
|
机器学习/深度学习 人工智能 自然语言处理
人工智能算法原理
人工智能(AI)属计算机科学,聚焦于模拟人类智慧的技术与系统的研发。本文概览常见AI算法原理:机器学习含监督(如决策树、支持向量机)、无监督(如聚类、主成分分析)及强化学习算法;深度学习涉及卷积神经网络、循环神经网络和生成对抗网络;自然语言处理涵盖词袋模型、循环神经网络语言模型及命名实体识别等。这些算法支撑着AI技术的广泛应用与发展。
1184 0
|
安全 Windows
如何解决Windows电脑自动黑屏问题?
【8月更文挑战第27天】以下是解决Windows电脑自动黑屏问题的一些常见方法:检查硬件连接,如显示器和电源线;排查硬件故障,包括显卡、内存和CPU问题;调整电源和睡眠设置;检查系统设置和软件冲突;修复系统文件;调整屏幕亮度;检查和更新BIOS设置等。通过这些步骤,可以帮助诊断并解决大部分黑屏问题。
1919 0
|
传感器
如何计算摄影参数:分区基准面高程、相对航高、绝对航高、基线长度、航线间隔、航线数、每条航线的相片数、总相片数。
如何计算摄影参数:分区基准面高程、相对航高、绝对航高、基线长度、航线间隔、航线数、每条航线的相片数、总相片数。
2752 0
|
监控 算法 项目管理
项目管理49个过程超详细总结(持续更新中)(五)
https://developer.aliyun.com/article/1376933
585 1
|
数据采集 机器学习/深度学习 人工智能
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM
本文作者:宝嵩,鹏程,呋喃主要贡献者:鹏程,呋喃,莉莱,重笙,筱苡,星峰,红罗,祝鸿,洛新,宝嵩,轻径,黄非摘要:大型语言模型 (LLM) 展示了出色的遵从自然语言指令理解、推理和生成的能力。然而,开发LLMs主要集中在高资源语言,例如英语,从而限制了它们在其他语言中的应用和研究。因此,我们开发了PolyLM,一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B
6158 0
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM

热门文章

最新文章