【ACL2023获奖论文】比你想的更弱:对弱监督学习的批判性审视

简介: 【ACL2023获奖论文】比你想的更弱:对弱监督学习的批判性审视

一些不成熟的想法

大框架上:

1、idea切入点是,平时没有特别关注到,但是一说起来,又发现确实很合理的方向

2、算是特别的综述类文章?实验工作量很大

论文结构设计如下

3、存在一些数学公式,但是很贴切

创新方向上:

目前大语言模型的许多研究,在调优prompt上也需要依赖干净的验证集,包括:

1、用来挑选few-shot examples

2、设置self-consistency的sample数量

3、调优prompt写法和COT等

使用大语言模型来做“弱”标注时,减少、甚至完全消除对clean validation set的依赖,从而提升WSL的实用性

内容: 弱监督学习是一种在资源有限的情况下训练机器学习模型的流行方法。它允许使用来自各种弱数据源的包含噪声的标注来训练模型,而不是要求昂贵的高质量人工标注。最近,许多复杂的方法被提出来进行鲁棒的弱监督学习训练,并报告了令人印象深刻的结果。

在本文中,作者重新审视了这些方法的设置,发现这些方法带来的好处被严重高估了。具体来说,作者发现现有的弱监督学习方法高度依赖于可获得的包含干净标注的验证样本,而这些样本可以被更有效地利用,只需简单地在它们上进行训练即可。在使用这些干净标注进行训练后,使用这些复杂方法的优势大多被抹去。即使减少可用干净数据量至每个类别仅5个样本,这仍然成立,使这些方法变得不实用。为了理解弱监督学习的真正价值,作者全面分析了各种NLP数据集和任务,以确定弱监督方法何时以及为何有效。

引言

弱监督学习的初衷是减少对标注样本的依赖,但ACL 2023 的获奖Paper[1]指出,弱监督学习太依赖干净的验证集,与初衷相违,且其利用验证集的效率较低,赶不上Fine-Tuning,进而给出警示:前人的弱监督学习研究脱离了实际,需要及时纠偏。

笔者认为,这篇论文反映了对验证集作用的重新审视,很值得大语言模型的研究者考虑。你所用来调优prompt的验证集,是否脱离了Few-Shot Learning的设定?是否有其他更高效的使用验证集的方式呢? 这些问题也应该被大语言模型的研究者回答。

正文

问题1:对WSL来说,clean data是否必要?

实验结果,在不使用clean labels作为验证集时,WSL失效了,效果和随机选参数差不多,并且都没有带来超越weak labels的泛化性。

因此,问题1的答案:目前的WSL方法,一定需要clean data作为验证集。

问题2:WSL需要多少的clean data?

实验思路:逐渐增加validation sample的数量,看WSL方法的效果变化。

从实验结果来看,很少的validation sample就够了,所需的量级:分类任务上每类~30个样本,NER任务上~200个句子。

因此,问题2的答案是:少量的clean data作为验证集就足够了。

问题3:在少量clean data下,WSL能战胜Fine-Tuning吗?

实验思路:对比WSL和Fine-Tuning(简称FT)的效果,同时作者还对比了Adapter、LoRA和BiFit三种PEFT方法。

从实验结果来看,分类任务的每类~10个样本,NER任务~50个句子时,FT的效果可以超过WSL。

并且作者额外说明,基于prompt + LLM可以取得更好的效果,本文的方法只是效果下限。

因此,问题3的答案是:当每个类有超过10个样本时,WSL相比FT就没有了优势。

问题4:WSL可否从Fine-Tuning中受益?

动机

先解释一下作者 实验的动机。

当使用WSL方法时,可以获得两类训练数据:

  • weakly labeled data,源自各种弱标注器;
  • clean labeled data,人标注的结果,来源于验证集。

前文在比较WSL和FT时,采取的设定是:

  • WSL只在weakly labeled data上进行训练,在clean labeled data上验证;
  • FT只基于少量的clean labeled data进行训练,而不进行model selection。

一个自然的扩展思路是,可否结合两类数据,最大化模型效果?

思路

作者的实验思路是:将weakly labeled data作为Pre-training样本,尝试WSL + Continual Fine-Tuning(简称CFT)的效果。

结论

实验结论如下:

  • CFT的确可以提升WSL的效果,尤其在clean data非常少,即分类任务每类~5样本、NER~50个句子时,可明显好于FT
  • 随着clean样本变多,CFT的效果会更好,但当达到分类任务每类~50样本、NER~500句子的量级时,CFT相比FT的优势明显减小,已不足1%,考虑到WS也需要设计弱标注器,这可能是得不偿失的
  • 使用CFT会减小不同WSL算法间的差异,效果最好的反而是最简单的FTw,进一步说明了现有WSL方法的弱

补充:FTw指在weak labeled data上,进行Fine-Tuning后的模型,可以视为WSL方法的baseline,与前文提到的FT方法有区分。

因此,问题4的答案是:结合WSL与CFT,可以发挥WSL的作用,但随着样本增多,增益迅速下降,使用WSL的必要性也显著减少;同时在这种方法下,现有的WSL方法无法超过FTw这个简单的baseline,还是“弱”。

问题5:是什么让FTw + CFT有效?

作者又提出两个延伸的子问题:

1、FTw仅基于weakly labeled data训练,是如何抵抗标注中的bias的?

2、CFT是如何进一步减少bias的?

针对子问题1,作者将不同大小的PLMs(Pre-trained Language Models,一般指BERT、RoBERTa等模型)作为backbone,在FTw的设定下进行了实验。

结论如下:

1、在更多数据上预训练的、更大的PLM更能够减少weakly labeled data中的bias,换言之,backbone也是越大越好;

2、在学习的早期,FTw模型在clean labeled data上的效果非常好,如果采取恰当的early stopping,那么模型的泛化性效果相当不错。

用论文作者的话说:pre-training provides the model with an inductive bias to seek more general linguistic correlations insted of superficial correlations from the weak labels。

预训练为模型提供了一个归纳偏差,以寻求更一般的语言相关性,而不是从弱标签中寻找肤浅的相关性。

针对子问题2,作者调整CFT过程中clean样本的标签,手动控制这些样本标签与其本要有的weak label之间的一致性,即agreement ratio,看模型的效果差异。

直觉来看,当agreement ratio = 100%时,CFT阶段的训练样本的标签也是weak label,CFT等同于继续进行FTw,此时是无法进一步减少bias的。

根据实验结果,当agreement ratio > 70%时,模型效果均有明显下降。最佳的agreement ratio约为50%。这说明,在CFT中需要包含一些与weak label矛盾的sample,也就是弱标注器难以标对的sample,这有助于模型在纠错中学习,从而进一步去除弱标注中的bias。

因此,两个子问题的答案分别是:

1、FTw之所以可以抵抗bias,是因为使用了PLM

2、CFT之所以进一步减少bias,是因为CFT阶段可以从纠错过程中学习,从而进一步减少bias

研究建议

从实验结果来看,目前的WSL方法的确脱离实际,有过度优化的问题。因此,在论文最后,作者很客观地对WSL研究者提出了一些建议:

  • 报告model selection的策略,并着重说明研究者提出的WSL方法有多依赖于clean data
  • 介绍FSL方法需要多少clean data可以取得WSL的效果。如果数千条weakly labeled data的效果和几十条clean data的效果接近,那么WSL就不是最佳选择
  • 如果提出的WSL方法需要额外的clean data,例如用于validation,那么FTw + CFT应该作为baseline进行比较

局限性

同时作者也提到了论文的局限性:

  • 有些WSL方法[5]可使用数据集的先验知识来调参,此时可不依赖额外的clean data
  • 论文研究的是英文任务,这一语种下有很强的PLMs,但有些语种可能没有,此时WSL可能更有效
  • WRENCH数据集中,weak labels通过简单的规则得到(例如正则、词典等),但是弱标注器可以更强,例如使用LLM来标注[6](笔者也有讲解文章)
目录
相关文章
|
3月前
|
人工智能
ACL 2024 Oral:大模型也会被忽悠?揭秘AI的信念之旅
【8月更文挑战第28天】清华大学、上海交通大学、斯坦福大学和南洋理工大学的研究团队最新研究表明,即使是在训练过程中积累了大量知识的大语言模型(LLMs),如ChatGPT和GPT-4,在面对误导性信息时仍可能产生错误信念。研究者为此创建了Farm数据集,以系统性地生成误导信息并测试LLMs在说服性对话中的表现。结果显示,即使是先进如GPT-4,其信念也有20.7%的概率被改变。该研究不仅揭示了LLMs潜在的脆弱性,还提供了评估其鲁棒性的方法,对未来提升LLMs的安全性和准确性具有重要启示作用。论文详细内容可见[此处链接]。
48 5
|
4月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
125 7
|
机器学习/深度学习 人工智能 算法
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
137 0
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
164 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
|
自然语言处理 算法 数据挖掘
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
164 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
151 0
|
机器学习/深度学习 人工智能 自然语言处理
总结 | ACL2022主会论文分类整理(二)
总结 | ACL2022主会论文分类整理(二)
1497 0
|
机器学习/深度学习 人工智能 自然语言处理
总结 | ACL2022主会论文分类整理(一)
总结 | ACL2022主会论文分类整理(一)
2864 0
|
人工智能 自然语言处理 数据挖掘
总结 | ACL2022主会论文分类整理(三)
总结 | ACL2022主会论文分类整理(三)
1602 0
|
机器学习/深度学习 存储 人工智能
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展
2019 年,NeurIPS 接受与元学习相关的研究论文约有 20 余篇。元学习(Meta-Learning)是近几年的研究热点,其目的是基于少量无标签数据实现快速有效的学习。本文对本次接收的元学习论文进行了梳理和解读。
1180 0
NeurIPS提前看 | 四篇论文,一窥元学习的最新研究进展