亚马逊VaSCL | 无监督虚拟增强困难样本,超越SimCSE

简介: 亚马逊VaSCL | 无监督虚拟增强困难样本,超越SimCSE

b9d3ebe55c9c3829c47e9fe7a632f96e.png

大家好,我是对白。


半年前SimCSE两次dropout的操作刷爆朋友圈,对比学习相关论文也席卷各大顶会顶刊;上次也总结了ACL2021的一些对比学习文章。最近组内论文分享有同事分享了一篇亚马逊AI Lab的工作,觉得还蛮有意思,该论文于2021年12月16日发布在arxiv上,目前是文本匹配新SOTA,效果超越了SimCSE。


下面就让我们一起学习一下如何通过无监督虚拟增强难负样本,来提升文本匹配效果~


c1722721fb50aab0b656f145cf2dabae.png


一、正文



首先思考一下,SimCSE虽然操作简单,这其实意味着它还有很多的可操作空间,比如——如何进一步加大对困难样本信息的挖掘,从而进一步提升网络的性能。


这个道理就像考试,简单的题目大家都会,所以所有大家随便考考都可以考到90分,但是90-100分这个区间,就要考验大家对困难题目的理解了;如果我们平时学习一直反复写简单题目,忽略了难题的练习,那肯定是没办法在90分的基础上再多考几分的。


想让模型多见一些困难样本,有两种方式:


第一种方式就是充分挖掘现在的数据集,找出现在数据集内的困难样本,然后通过加大这些样本的权重或者出现的比例,强迫模型多关注这些难题,比如SimCSE内利用温度τ来控制对困难样本的关注度:


3bc97c1fbfb114200c700fc48d4cb78d.png


1. 分子是原始case两次dropout输出,其相似度一定较大,无太大随机性,即熵值较为固定;

2. 分母中包含一堆负样本,包括简单样本,困难样本等,不确定性高,熵值大;

3. 分母中困难样本定义为:其明明是负样本,其和原始case相似度却很大;那么分母一定是更关注困难样本,因为简单样本loss低;

4. 所以当τ>1,相当于降低对困难样本的关注度,当 τ<1,则进一步扩大困难样本比重,更加关注困难样本。


比如简单负样本和原句相似度0.1,困难样本和原句相似度0.6,除以τ=0.2后,差距进一步扩大,模型会更关注困难样本;


或者利用方差等方式手动挑出来比较困难的样本,反复多加入几次迭代过程,具体在这里就不赘述了。


另一种方式就是创造更多的困难样本,常见的方式一般是人为分析数据后进行手工添加,可以配合一些仿射变换,如同义词替换、回译等;那么能不能像第一种方式那样,在训练过程中,让网络自己想办法去创建一些困难样本呢?


好了,本文的主角终于来了——VaSCL,其会在网络训练的过程中自动创造一些虚拟的困难样本,为什么说是虚拟的,自然也是和SimCSE那样直接dropout出来的一堆“数据分布”一样,毫无章法且不讲道理但…有效!


二、VaSCL是怎么做的?



首先还是和SimCSE一样,一个case两次dropout,然后最小化自身两次dropout的距离,并推远与其它样本的距离;即,SimCSE原loss全部保留;


剩下就是怎么找出来困难样本。


① 假设batch为32,我们需要找出第一句话的困难样本,因为是无监督模型,除了第一句话自身,其余所有case都是负样本,那么模型输出特征向量和第一句话越相似的,其就越可能是第一句话的困难样本是吧?我们首先定义一个k,在每个batch中找到每句话输出特征向量最近的k句话,后文称为这句话的k领域,后面就用这k句话创建第一句话的虚拟困难样本。


② 假设第一句话经过模型输出的特征向量是e,随便搞一个高斯白噪声α,加上去,得到一个新的特征向量e+α,理论上来说,这个新的特征向量和第一句话的意思应该还是相近的,因为是高斯白噪声,其不会对原始向量数据分布产生太大影响,这个过程大概可以模拟成这样:


e = e + np.random.standard_normal(y.shape) * 0.01


如果是给一张图片加上高斯白噪声,基本是看不出什么变化的。仔细看一下这个高斯白噪声的代码,好好想想,理论上按照这个公式,高斯白噪声一定不应该对原句的语义产生太大影响。


当然,实际上我们不是随便乱加一个高斯白噪声,我们期待我们有很多的高斯白噪声,然后再其中选取一个最优的高斯白噪声,可以使得第一句话加上这个噪声以后,即e+α和原来的特征向量e,最远,但是第一句话k领域内的所有负样本加上这个噪声α后都和原句e更靠近了,这样的一个高斯白噪声可谓是坏事干尽了,迷惑性贼大!


所以当原句e加上这个最优的噪声α,就得到了一个很强的困难样本!


这里有个问题,这个候选高斯白噪声集合哪里来,文章没有交代,理论上我们随机生成若干个作为备选,或者预设一个数值,每次训练过程中随机生成这么多个,再或者直接把这个噪声当成可训练参数或许也可以(但是按照原文的意思,似乎没有把这个α当成可训练参数);不过都是小问题,个人比较倾向在训练前指定数值n,


③ 训练过程中batch中每句话的loss:


首先保持SimCSE的损失:


  • 每句话的两次dropout靠近


  • 每句话和别的句子dropout拉远


然后是虚拟困难样本损失:按②的规则在高斯白噪声集里面找到一个最优的噪声α,每句话加上其最优噪声得到这句话的虚拟困难样本,这句话的k领域内负样本也加上这句话的最优噪声,得到这句话k领域的虚拟困难负样本;


  • 原句和其虚拟困难样本拉近


  • 原句/原句虚拟困难强样本分别与k领域内负样本/k领域虚拟困难负样本拉远


作者没有开源,但是其实按照SimCSE实际实现起来应该差不多,难度不大。


三、效果



语义相似度效果:


f9775213db5804e472556d432fd5b7bf.png


文本聚类效果:


c0ae0e23c0457c119f18312ac10dfbc7.png


少样本学习意图分类效果:


f2206ec88a447d1ad83c4b9642022e7c.png


模型在不同数据增强策略下的效果:


343ec9db45c797f4826ce338c8e13757.png

相关文章
|
8天前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
27 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
64 25
|
3月前
|
数据采集 机器学习/深度学习
港大发布智能交通大模型全家桶OpenCity!打破时空零样本预测壁垒,训练速度最多提升50倍
【10月更文挑战第15天】香港大学近日发布了智能交通大模型OpenCity,旨在通过创新技术手段解决城市交通预测和管理难题。OpenCity结合了Transformer和图神经网络(GNN)的优势,能够有效捕捉复杂时空依赖关系,实现零样本预测。该模型采用大规模异构交通数据集预训练,显著提升了泛化能力和训练速度,实验结果显示其在未见过的城市或区域的交通预测中表现出色。然而,模型的计算资源需求和数据质量仍需进一步优化。
50 1
|
5月前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
82 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
43 2
|
6月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
7月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
72 3
|
8月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
84 1
|
8月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
113 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
8月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
201 3

热门文章

最新文章