ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

简介: ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。


基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通过分析发现这种跨语言性能差异和跨语言表示差异有很强的相关性,为了实现更好的跨语言迁移学习,本文提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。实验证明,X-Mixup 方法显著地减少了跨语言表示差异,同时提升了多个跨语言理解任务的性能。



研究背景 & 动机
深度模型在众多任务上取得了令人振奋的效果,但这些模型往往依赖足量的标注数据,这在多语言场景中很难满足。目前大部分标注数据通常来自流行语言(比如英文、中文等),很多小语种很难获取到足量的标注数据来进行有监督训练。跨语言迁移 (cross-lingual transfer) 可以从高资源的源语言 (source language) 迁移知识到低资源或零资源的目标语言 (target language),适用于当前标注资源不均衡的现状。
当前,多语言预训练模型基于不同语言的联合数据进行预训练,提供了不同语言统一的表示空间,在多种跨语言任务上取得了不错的效果。此外,Translate-train 方案从训练数据角度,通过机器翻译将源语言训练数据翻译到目标语言来构造伪标注数据,是一种简单有效的跨语言数据增强方案。Translate-test 方案从测试数据角度,直接将目标语言的测试集数据翻译到源语言,可以直接用源语言模型进行预测。尽管这些方案已经在跨语言迁移任务上取得了出色效果,但源语言和目标语言之间仍然有显著的性能差异。下表 [2] 展示了 XTREME 任务上基线模型在不同任务上的跨语言迁移性能差异 (cross-lingual transfer gap,源语言性能和目标语言平均性能差异) 。


为了探究这种跨语言迁移性能差异的成因,本文首先对具体任务各语言的性能进行观察分析。Table 1 将语言按照预训练语言资源和语系进行了划分,结果表明:(1) 低资源语言性能远远落后于高资源语言;(2) 和源语言来自不同语系的语言性能远远落后于来自同一语系的语言。


在预训练过程中,由于训练数据的不平衡,高资源语言主导了表示学习过程,低资源语言表示往往不能被很好地训练[3][4]。此外,来自不同语系的语言常常表现出不同的语言特性(比如词表、词序等)。以上两者均会导致源语言和目标语言的表示差异。因此,作者尝试分析跨语言表示差异 (cross-lingual representation discrepancy) 和跨语言迁移效果的相关性。
本文使用 linear centered kernel alignment (CKA, [5]) 分数来度量跨语言表示差异,其中 X 和 Y 是来自源语言和目标语言的平行序列,更高的 CKA 分数意味着更小的跨语言表示差异。


Table 2 计算了在不同任务上跨语言迁移效果和跨语言表示差异的 Spearman 相关系数,Figure 3 展示了随着 CKA score 的下降,跨语言迁移的准确率有明显的下降趋势。以上相关系数和趋势都表明了跨语言迁移效果和跨语言表示差异有很强的相关性。



解决方案 - X-Mixup
前面的分析提供了一个增强跨语言迁移效果的思路——减少跨语言表示差异。为了减少跨语言表示差异,一个直接的想法是在源语言表示和目标语言表示之间寻找折衷点。然而不同语言之间存在不同程度的差异,这个折衷点寻找起来相当困难。基于 Translate-train,可以得到源语言训练数据和对应的目标语言训练数据(翻译),基于 Translate-test,可以得到目标语言测试数据和源语言测试数据(翻译),这种成对的序列往往含有相同的语义,为折衷点的寻找提供了可能。Mixup [7][8] 通过对表示空间线性插值来获得中间表示,是一种流行的数据增强方案,同时,这种方法也提供了一种减少表示差异的直接思路。
基于以上分析,本文提出 Cross-lingual Manifold Mixup (X-Mixup) 方案,通过跨语言流形混合为目标语言构造 “折衷” 的表示,从而直接减少跨语言表示差异,进而提升跨语言迁移效果。模型的整体框架见 Figure 2,左边为源语言的 encoder,右边为目标语言的 encoder,X-Mixup 过程主要在绿色部分实现。


X-Mixup 以 mBERT 和 XLM-R 为基线模型。其中,每层 encoder 都有两个子层:multi-head attention 层和 feed-forward 层(在以下公式中为了简便省略了 feed-forward 层)。S 表示源语言序列,T 表示目标语言序列,MutiHead 函数表示 multi-head attention 层,其中的三个输入分别为 query,key 和 value。在第 l+1 层,源(语言)序列和目标(语言)序列的隐层表示为:


为了从源序列的隐层表示中获取目标序列相关信息,本文把目标序列的隐层表示作为 query,源序列的隐层表示作为 key 和 value,整个过程为:


流形混合过程基于 mixup ratio lambda 来混合目标语言相关的两个表示:


在 X-Mixup 过程中面临两个问题:
问题 1:机器翻译在一些语向上性能不佳,导致翻译过程引入了不同程度的噪声。
解决方案:引入翻译质量建模到 X-Mixup 过程中来缓解数据噪声问题,基于注意力熵 [8] 来得到 mixup ratio:



问题 2:在训练和预测过程中,源语言序列来自不同的数据分布。在训练中,源语言序列为真实文本,而在预测中,源语言序列为翻译文本。
解决方案:在训练过程中对源语言序列进行动态采样 (Scheduled Sampling [9]) ,以概率 p 来选择从真实文本还是翻译文本中采样源语言序列,p * 在训练过程中逐渐减小以适应预测场景:


整体的损失函数包含两部分:任务损失 (task loss) 和一致性损失 (consistency loss),前者为源语言序列和目标语言序列的任务损失之加权和,后者为表示一致损失和预测结果一致损失之和,其中仅分类任务有预测结果一致损失。



实验结果
本文在 XTREME 数据集上对 X-Mixup 的效果进行验证。XTREME 数据集包含分类、结构化预测、QA 等跨语言理解任务,覆盖了 40 种语言。实验结果表明:
1. 相比 Translate-train,X-Mixup 显著地提升了各跨语言迁移任务的效果。2.X-Mixup 取得了 XTREME 七个任务中四个任务的最好效果 (Table 3)。其中,相关工作 XTUNE 使用了除 translate-train 外的其他三种跨语言数据增强方法,在 translate-train 相同设定中,X-Mixup 优于 XTUNE (Table 4)。



Table 8 展示了各方法的跨语言迁移性能差异,其中 TyDiQA 为低资源 QA 任务(源语言训练数据仅 3696 条),XTUNE 提出的跨语言数据增强方案十分有效。在分类任务 XNLI、PAWS-X,QA 任务 XQuAD、MLQA 上,X-Mixup 的跨语言迁移性能差异最小。


Figure 1 对 en、es、ar、sw 四种语言的句子表示进行了可视化,结果表明 X-Mixup 有效地减少了目标语言(低资源语言 sw、源语言不相似的语言 ar)和源语言的表示差异。


Figure 4 对各语言的 centroid(表示均值)进行了可视化,结果表明 X-Mixup 显著地减少了跨语言表示差异。


同时,X-Mixup 结合自研多语言表示的方案 Polyglot 在 XTREME leaderboard 上保持了 4 个月的第一名(2021.4~2021.8)。


总结
关注于跨语言迁移中源语言和目标语言间巨大的性能差异,本文首先进行了相关分析,分析发现跨语言迁移效果和跨语言表示差异有很强的相关性。为了减少跨语言表示差异,本文提出了跨语言流形混合 (X-Mixup) 方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。此外,本文关于跨语言迁移效果和跨语言表示差异的结论也为未来的跨语言迁移研究提供了相关思路。

参考文献[1] Yang et al. Enhancing Cross-lingual Transfer by Manifold Mixup. ICLR 2022.[2] Hu et al. XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization. ICML 2020.[3]Lauscher et al. From Zero to Hero: On the Limitations of Zero-Shot Language Transfer with Multilingual Transformers. EMNLP 2020.[4]Wu & Dredze. Are All Languages Created Equal in Multilingual BERT? ACL 2020.[5] Kornblith et al. Similarity of Neural Network Representations Revisited. ICML 2019.[6] Zhang et al. mixup: Beyond Empirical Risk Minimization. ICLR 2018.[7] Verma et al. Manifold Mixup: Better Representations by Interpolating Hidden States. ICML 2019.[8]Fomicheva et al. Unsupervised Quality Estimation for Neural Machine Translation. TACL 2020.[9]Bengio et al. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks. NeurIPS 2019.

相关文章
|
人工智能 编解码 自然语言处理
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
214 0
|
22天前
|
人工智能 Anolis
|
1月前
|
机器学习/深度学习 人工智能 PyTorch
面向AI Native应用的高效迁移学习策略
【8月更文第1天】随着人工智能技术的发展,越来越多的应用场景需要定制化的AI解决方案。然而,从零开始训练一个深度学习模型往往需要大量的标注数据和计算资源。迁移学习提供了一种有效的方法来解决这个问题,它利用预训练模型的知识,通过少量的数据就能达到很好的性能。本文将深入探讨面向AI Native应用的高效迁移学习策略,并通过实例展示如何针对具体场景进行模型微调。
178 6
面向AI Native应用的高效迁移学习策略
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
利用迁移学习加速AI模型训练
【7月更文第29天】迁移学习是一种强大的技术,允许我们利用已经训练好的模型在新的相关任务上进行快速学习。这种方法不仅可以显著减少训练时间和计算资源的需求,还能提高模型的准确率。本文将详细介绍如何利用迁移学习来加速AI模型的训练,并通过具体的案例研究来展示其在计算机视觉和自然语言处理领域的应用。
61 4
|
3月前
|
存储 运维 安全
Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式
知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。
59079 3
|
4月前
|
存储 人工智能 API
[译][AI OpenAI-doc] 迁移指南 Beta
我们已经改变了助手 API 在 beta 的 v1 版本和 v2 版本之间工具和文件的工作方式。今天,通过 API,两个 beta 版本仍然可以访问,但我们建议尽快迁移到我们 API 的最新版本。我们将在 2024 年底之前废弃 beta 的 v1 版本。
[译][AI OpenAI-doc] 迁移指南 Beta
|
4月前
|
机器学习/深度学习 人工智能 数据挖掘
ICLR 49.9%论文疑有AI审稿
【5月更文挑战第20天】ICLR会议上一篇研究引发关注,推测近50%的论文可能由AI进行审稿,挑战传统审稿流程。研究者运用机器学习分析历史审稿数据,发现可能的AI审稿模式。该研究提出AI审稿可减轻审稿人负担,提高效率,但也面临证据不足、理解复杂学术概念限制及审稿行为多样性等问题。学术界需谨慎评估AI在审稿中的角色,以确保质量和公正性。[论文链接](https://arxiv.org/abs/2405.02150)
71 1
|
4月前
|
机器学习/深度学习 人工智能
【AI 初识】什么是迁移学习,它在人工智能中有什么用?
【5月更文挑战第2天】【AI 初识】什么是迁移学习,它在人工智能中有什么用?
|
4月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
121 0
|
4月前
|
机器学习/深度学习 人工智能 算法
AI+组合优化 |机器学习顶会ICLR/ICML/NeurIPS'23最新进展-MIP求解篇(附原文源码)
本文梳理了ICLR 2023、ICML 2023、NeurIPS 2023有关机器学习+混合整数规划问题求解加速求解加速的研究成果,总共包含8篇文章。
421 0