ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注

简介: ResNets首次反超有监督学习!DeepMind用自监督实现逆袭,无需标注


 新智元报道  

编辑:好困 袁榭

【新智元导读】近日,DeepMind又整了个新活:RELIC第二代!首次用自监督学习实现了对有监督学习的超越。莫非,今后真的不用标注数据了?


机器学习中,伴随着更多高质量的数据标签,有监督学习模型的性能也会提高。然而,获取大量带标注数据的代价十分高昂。按照AI行业的膨胀速度,如果每个数据点都得标记,「人工智能=有多少人工就有多智能」的刻薄笑话很可能会成为现实。不过一直以来,表征学习、自监督学习等办法的「下游效能」至今未能超出有监督学习的表现。2022年1月,DeepMind与牛津大学、图灵研究院针对此难题,联合研发出了RELICv2,证明了在ImageNet中使用相同网络架构进行同等条件下的对比,无标注训练数据集的效果可以超过有监督学习。其中,RELICv2使用ResNet50时在ImageNet上实现了77.1%的top-1准确率,而更大的ResNet模型则带来了80.6%的top-1准确率,以较大的优势超越了此前的自监督方法。为达到上述效果,研究者使用2021年问世的的「以因果预测机制进行表征学习」(缩写RELIC)的架构搭建模型。相较于RELIC,RELICv2多了一个可以选择相似点和不同点的策略,相似点可以设计不变性的目标函数,不同点可以设计对比性质的目标函数。RELIC学习出的表征会更接近于底层数据的几何性质。这一特性使得这种方式学到的表征能更好地移用在下游任务上。结果显示,RELICv2不仅优于其他竞争方法,而且是第一个在横跨1x,2x,和4x的ImageNet编码器配置中持续优于监督学习的自监督方法。此外,在使用ResNet101、ResNet152、ResNet200等大型ResNet架构的情况下,RELICv2也超过了有监督基线模型的表现。最后,尽管使用的是ResNet的架构,RELICv2也表现出了可以与SOTA的Transformer模型相提并论的性能。RELICv2和视觉Transformer模型之间的ImageNet top-1准确率比较,Swin代表全监督的Transformer基线值得注意的是,虽然另有其它研究的结果也超过了这一基线,但它们使用了不同的神经网络架构,所以并非同等条件下的对比。

方法


此前,RELIC引入了一个不变性损失,定义为锚点xi和它的一个正样本x+i之间的Kullback-Leibler分歧:其中,梯度停止算子sg[-]不会影响KL-分歧的计算。与RELIC类似,RELICv2的目标是最小化对比负对数似然和不变损失的组合。对于给定的mini-batch,损失函数为:其中,α和β是标量的超参,用于权衡对比和不变损失对整体目标的相对重要性。RELICv2与RELIC的不同之处在于如何选择适当的正负样本和目标函数两部分之间的组合关系。增强方法方面,除了标准的SimCLR,作者还应用了两种策略:不同大小的随机裁剪和显著性背景移除。负样本的采样方面,作者从所有的负样本里随机采样,从而缓解假阴性的问题,也就是从同一个类别里采样到负样本对的问题。



































for x in batch: # load a batch of B samples  # Apply saliency mask and remove background  x_m = remove_background(x)  for i in range(num_large_crops):    # Select either original or background-removed    # Image with probability p_m    x = Bernoulli(p_m) ? x_m : x    # Do large random crop and augment    xl_i = aug(crop_l(x))        ol_i = f_o(xl_i)    tl_i = g_t(xl_i)
  for i in range(num_small_crops):    # Do small random crop and augment    xs_i = aug(crop_s(x))    # Small crops only go through the online network    os_i = f_o(xs_i)      loss = 0  # Compute loss between all pairs of large crops  for i in range(num_large_crops):    for j in range(num_large_crops):      loss += loss_relicv2(ol_i, tl_j, n_e)  # Compute loss between small crops and large crops  for i in range(num_small_crops):    for j in range(num_large_crops):      loss += loss_relicv2(os_i, tl_j, n_e)  scale = (num_large_crops + num_small_crops) * num_large_crops  loss /= scale  # Compute grads, update online and target networks  loss.backward()  update(f_o)  g_t = gamma * g_t + (1 - gamma) * f_o

RELICv2的伪代码其中,f_o是在线网络;g_t是目标网络络;gamma是目标EMA系数;n_e是负样本的数量;p_m是掩码应用概率。


结果


ImageNet上的线性回归RELICv2的top-1和top-5准确率都大大超过了之前所有SOTA的自监督方法。使用ResNet50编码器在ImageNet上的线性评估精度对于其他的ResNet架构,RELICv2在所有情况下都优于监督学习,绝对值高达1.2%。

ImageNet上的半监督训练作者对表征进行预训练,并利用ImageNet训练集中的一小部分可用标签,对所学的表征进行重新修正。当使用10%的数据进行微调时,RELICv2的表现好于监督学习和此前所有SOTA的自监督方法。当使用1%的数据时,只有C-BYOL的表现好于RELICv2。任务迁移作者通过测试RELICv2表征的通用性,从而评估所学到的特征是否可以用在其他的图像任务。BYOL和RELICv2相对于监督学校的迁移性能(数值为0表示与监督的性能相同)总的来说,RELICv2在11项任务中的7项都比监督学习和竞争方法都要好。在所有任务中,RELICv2比监督学习平均提高了5%以上,是NNCLR的两倍。其他视觉任务。为了进一步评估所学表征的通用性,作者通过finetuning评估RELICv2在其他具有挑战性的视觉任务中的表现。可以看出,在PASCAL和Cityscapes上,RELICv2都比BYOL有明显的优势。而对于专门为检测而训练的DetCon,RELICv2也在PASCAL上更胜一筹。在JFT-300M上的大规模迁移作者使用JFT-300M数据集预训练表征来测试RELICv2在更大的数据集上的扩展性,该数据集由来自超过18k类的3亿张图片组成。其中,Divide and Contrast(DnC)是一种专门为处理大型和未经整理的数据集而设计的方法,代表了当前自监督的JFT-300M预训练的技术水平。当在JFT上训练1000个epoch时,RELICv2比DnC提高了2%以上,并且在需要较少的训练epoch时,取得了比其他竞争方法更好的整体性能。使用JFT-300M数据集学习表征时在ImageNet上的top-1准确率

分析


通过计算所学表征之间的距离,可以了解到损失函数中的显式不变量对RELICv2所学到的表征的影响。作者为此挑选了两种狗(维兹拉犬与雪达犬)和两种猫(暹罗猫和埃及猫)。在这四个类别中的每一个都有50个来自ImageNet验证集的点。图中,每一行代表一幅图像,每一个彩色的点代表该图像的五个最近的邻居之一,颜色表示该图像与最近的邻居之间的距离。与基础类结构完全一致的表征会表现出完美的块状对角线结构;也就是说,它们的最近邻居都属于同一个基础类。可以看到,RELICv2学习到的表征之间更加接近,并且在类和超类之间表现出比BYOL更少的混淆。最邻近表征之间的欧几里得距离为了量化所学潜在空间的整体结构,作者比较了所有的类内和类间距离。其中,l2-距离的比值越大,也就是说表征更好地集中在相应的类内,因此也更容易在类与类之间进行线性分离。结果显示,与监督学习相比,RELICv2的分布向右偏移(即具有较高的比率),这表明使用线性分类器可以更好地分离表征。线性判别率的分布:在ImageNet验证集上计算的嵌入的类间距离和类内距离的比率此外,作者也验证了其他工作的发现——模型越大就越具有样本效率。也就是说,在相同精度下,大模型需要的样本更少。可以看到,为了达到70%的准确性,ResNet50模型需要的迭代次数大约是ResNet295模型的两倍。相比起来,ResNet295的参数数量大约是ResNet50的3.6倍(分别为87M和24M)。


结论


RELICv2首次证明了在没有标签的情况下学习到的表征可以持续超越ImageNet上强大的有监督学习基线。在使用ResNet50编码器进行的同类比较中,RELICv2代表了对当前技术水平的重大改进。值得注意的是,RELICv2优于DINO和MoCo v3,并在参数数量相当的情况下表现出与EsViT类似的性能,尽管这些方法用了更强大的架构和更多的训练。

参考资料:

https://arxiv.org/abs/2201.05119

相关文章
|
4天前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
22 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
3月前
|
自然语言处理
杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
【10月更文挑战第12天】斯坦福大学杨笛一团队发布百页论文,首次通过统计学方法证明大型语言模型(LLMs)在生成研究想法的新颖性上优于人类专家。研究招募100多名NLP专家进行盲评,结果显示LLM在新颖性方面显著胜出,但在可行性上稍逊。研究揭示了LLM在科研创新中的潜力与局限。
62 2
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
42 2
|
7月前
|
人工智能
拯救被掰弯的GPT-4!西交微软北大联合提出IN2训练治疗LLM中间迷失
【6月更文挑战第1天】研究人员为解决大型语言模型(LLM)的“中间迷失”问题,提出了IN2训练方法。此方法通过显式监督增强模型对长文本上下文的理解,改善了信息检索能力。应用IN2训练的FILM-7B模型在长文本任务上表现出色,尤其在NarrativeQA数据集上的F1分数提升了3.4。尽管面临数据合成和计算成本的挑战,IN2训练为LLM的进步开辟了新途径,预示着未来在长文本处理领域的潜力。论文链接:https://arxiv.org/pdf/2404.16811
98 5
|
8月前
|
人工智能 自然语言处理 搜索推荐
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。
77 13
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
|
机器学习/深度学习 算法
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
谷歌大脑阿尔伯塔联合发表:离线强化学习的优化视角【附代码】
147 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
190 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
180 0
|
自然语言处理 物联网 异构计算
全方位分析大模型参数高效微调,清华研究登Nature子刊(2)
全方位分析大模型参数高效微调,清华研究登Nature子刊
251 0
|
机器学习/深度学习 存储 自然语言处理
全方位分析大模型参数高效微调,清华研究登Nature子刊(1)
全方位分析大模型参数高效微调,清华研究登Nature子刊
1082 0

热门文章

最新文章