跨语言之间的对抗博弈,该如何演绎?| 论文访谈间 #08

简介:

利用非平行双语语料构建双语词典是一项长期存在的跨语言任务。其实现过程一般需要跨语言信息(如种子双语词典)作为监督信号来建立双语词汇之间的翻译关系,但对于完全缺乏双语资源的小语种和专门领域来说,获取其跨语言信息十分困难,那么如何在不使用任何跨语言监督信号的情况下通过无监督方法构建双语词典呢?来自清华大学的张檬博士、刘洋老师、栾焕博老师和孙茂松老师发表在 ACL2017 上的论文“Adversarial Training for Unsupervised Bilingual Lexicon Induction”利用生成对抗网络(GAN)实现了双语词典构建任务,并取得了良好效果。 


众所周知,词是构成语言的基本单元,词表示方法的改进对很多自然语言处理任务产生了显著影响,词向量(word embedding)因其能够获取语言中的规律而被广泛使用。前人的工作发现利用两种语言的单语语料训练的词向量空间存在近似同态性(如图 1 所示),因而可以使用一个线性映射把这两个向量空间联系起来。那么如何得到这个线性映射呢?在前人的工作中,往往需要使用大量种子翻译词对作为监督信号来学习这个线性映射,而这篇论文则是要针对完全不使用任何双语监督信号的场景,作者需要设计方法来对联系两个向量空间的线性映射进行有效学习,这是本文工作中最大的研究挑战。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=▲ 图 1:西班牙语和英语的词向量空间表现出的近似同态性


这篇论文中的方法灵感来自于当前机器学习领域大热的生成对抗网络(GAN),作者针对本文任务设计了生成器 G 和鉴别器 D 之间的对抗游戏,其基本形式如图 2(a) 所示(unidirectional transformation model)。图中,方块代表源语言词向量,圆点代表目标语言词向量。源语言词向量通过 G 映射到目标语言的词向量空间后,如果鉴别器 D 无法分辨出映射过来的词向量与原本属于目标语言的词向量,则说明映射 G 成功把两种语言的词向量空间联系起来了,如果 D 能够分辨,则 D 可以指导 G 如何改善。G 和 D 这种互相竞争、共同进步的关系使得本文的方法不依赖种子双语词典。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

▲ 图 2:对抗学习模型架构:(a) 为基本模型(unidirectional transformation model),(b) 为bidirectional transformation model,(c) 为adversarial autoencoder mode


在介绍扩展模型之前,需要明确生成器 G 的构成。这篇论文中的生成器是一个矩阵,而将其约束为正交矩阵有助于训练成功。为了更大程度地节省训练时间,降低训练难度,作者设计了图 2(b)(bidirectional transformation model)和图 2(c)(adversarial autoencoder model)所示的两种扩展模型,这两种模型放宽了正交约束。在如图 2(b) 所示的双向转换模型(bidirectional transformation model)中,生成器 G 将源语言词向量映射到目标语言的词向量空间中,G 的转置也能够将目标语言词向量映射回源语言的词向量空间中去。在如图 2(c) 所示的对抗自编码模型(adversarial autoencoder model)中,生成器 G 将源语言词向量映射到目标语言的词向量空间中输出后,利用 G 的转置将映射回去以重构源语言词向量。将源语言词向量与重构的词向量进行相似度计算(cosine 夹角)加入到生成器的损失函数中。


在实验设计上,作者分别与基于解密的 MonoGiza 系统和基于种子翻译词对的Translation matrix (TM) 和 Isometric alignment (IA) 方法进行了比较,在实验过程中需要保证的是,这些方法输入的词向量与本文中模型的输入一致,均为利用 word2vec 的 CBOW 模型训练得到的词向量。结果发现,MonoGiza 系统的准确率很低,对抗自编码模型(adversarial autoencoder model)则能达到较高的准确率,而基于种子翻译词对的 TM 和 IA 方法若想达到与该模型相同的准确率,需要大量的种子翻译词对。除此之外,作者还探究了词向量维度对实验结果的影响以及大规模数据下模型的表现情况。


对话作者 


关于这篇论文的创新点,作者提到除了上述两个扩展模型的设计之外,另一个创新点是尝试探索了多种训练技术。首先是对鉴别器 D 进行正则化。鉴别器 D 采用标准前馈神经网络,作者尝试了为其输入加入不同类型的噪声,如 dropout、Additive Gaussian noise、Multiplicative Gaussian noise,最后发现最有效的方式是 Multiplicative Gaussian noise。另外,作者发现,在训练结束时保存的模型并不能达到良好的效果,所以为了选择效果最好的模型,作者观察了训练轨迹(如图 3 所示),发现生成器的损失呈现剧烈下降的位置对应的分类正确率下降,这说明该位置通常对应着效果好的模型。有趣的是,重构源语言词向量的损失和的值也呈现同步下降现象。作者表示在实验过程中最大的问题是训练不稳定,为解决这个问题,作者在模型设计和训练技术上进行了多种探索和尝试,并在训练过程中多输出信息以便观察,对一些特别的现象进行分析,这也是作者分享的心得体会。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

▲ 图 3:对抗自编码模型的典型训练轨迹


关于模型的应用场景与意义,作者提到,双语词典本身有很多应用场景,一方面它可以直接供人参考,另一方面它是计算机许多跨语言处理任务的重要资源,如机器翻译、跨语言检索、跨语言模型迁移等。而本方法的无监督性质为完全缺乏双语资源的小语种和专门领域开辟了与其他语言连接的可能。此外,只使用单语语料就能构建双语词典意味着语言在词汇层面的某种同态性,佐证了人类语言在概念表示上可能存在的一致性。


来源:paperweekly


原文链接

相关文章
|
26天前
|
机器学习/深度学习 自然语言处理
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
【4月更文挑战第17天】香港中文大学(深圳)研究团队发表综述论文,探讨大型语言模型(LLMs)与强化学习(RL)结合的四条技术路线:信息处理器、奖励设计者、决策制定者和生成器。LLMs提升RL在多任务学习和样本效率,但处理复杂环境时仍有挑战。它们能设计奖励函数,但预训练知识限制在专业任务中的应用。作为决策者和生成器,LLMs提高样本效率和行为解释,但计算开销是问题。
53 1
“大模型+强化学习”最新综述!港中文深圳130余篇论文:详解四条主流技术路线
|
3月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
39 0
|
10月前
|
机器学习/深度学习 人工智能 安全
隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
141 0
|
9月前
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
240 0
|
10月前
|
数据采集 机器学习/深度学习 人工智能
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密
教科书级数据is all you need:1.3B小模型逆袭大模型的秘密
200 0
|
机器学习/深度学习 自然语言处理 算法
「扩散模型」首篇综述!谷歌&北大最新研究
「扩散模型」首篇综述!谷歌&北大最新研究
446 0
|
机器学习/深度学习 算法 数据可视化
NeurIPS 2019:两种视角带你了解网络可解释性的研究和进展
一直以来,深度网络在图像识别,检测,语言等领域都有强大的能力。研究者们的重点都在如何提升网络性能上,很少有人能说清楚深度神经网络为何能够得到较好的泛化能力,有的研究者习惯从原理上来说明这个问题,有的研究者则会从中间结果来解释,当然这些观点都各有千秋。在 NeurIPS 2019 上,有些学者在网络的可解释性上发表了自己的研究。
192 0
NeurIPS 2019:两种视角带你了解网络可解释性的研究和进展
|
机器学习/深度学习 人工智能 资源调度
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
CNN可解释性再受关注,人类真能理解机器的思想吗? | 一周AI最火论文
276 0
|
知识图谱 数据挖掘 机器学习/深度学习
KDD 2019论文解读:异构信息网络上的对抗生成学习
日前,由蚂蚁金服算法工程师胡斌斌撰写的论文《Adversarial Learning on Heterogeneous Information Networks》入选全球数据挖掘顶级会议KDD 2019,本文为该论文的详细解读。
2159 0
KDD 2019论文解读:异构信息网络上的对抗生成学习
|
机器学习/深度学习 测试技术
十年机器学习结果不可靠?伯克利&MIT研究质疑了30个经典模型
我们对机器学习的发展认识,很大程度上取决于少数几个标准基准,比如CIFAR-10,ImageNet或MuJoCo。这提出了一个至关重要的问题:我们对目前机器学习进展的衡量有多可靠?
10014 1