SplitMask:大规模数据集是自我监督预训练的必要条件吗?

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。

自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文,它在自监督预训练场景中使用小数据集,如Stanford Cars, Sketch或COCO,它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask,它对预训练数据的类型和大小具有更强的鲁棒性。

SplitMask

SplitMask是基于三个步骤:split, inpaintmatch

split:与标准ViTs一样,图像首先被分解为16×16像素块。然后将图像分割为两个不相交的子集A和B,分别由共享深度ViT编码器进行独立处理。

Inpaint:接下来,使用子集A的patch表示和一个浅解码器(例如2层),通过解决掩码图像建模(MIM)任务(BEiT),子集B的patch被“填充”。

最后,对每个分支对应的解码器输出的patch表示进行平均池化,得到全局图像描述符。

Match:使用两个表示xa和xb,分别对应于观测patch的子集A和B来估计InfoNCE loss (CPCv1):

添加这种对比损失的动机是鼓励模型产生全局一致的特征,这些特征在不同选择的观察子集之间是一致的,而不依赖于任何手工设计的转换。

结果

1、消融研究

仅使用5%的ImageNet样本就能达到峰值性能,添加更多的样本并不能提供额外的提升。使用10% ImageNet子集。训练近3k个epoch的长时间,与完整ImageNet的300个epoch的总更新次数相匹配。

使用autoencoder**lossBEiTSplitMask**(如MIM)进行预训练对数据集大小的减小具有鲁棒性。而DINO则与监督预训练一样,当使用较小的数据集进行训练时,模型的性能会下降。

通过更简单的选择替换DALL-E标记器不会导致准确性的任何显着降低。

2、COCO

使用COCO图像对DINO进行类似的预训练则得到了相对较弱的性能,仅优于随机初始化。与BEiT基线相比,SplitMask带来了一致的改进,例如使用viti -small时的+0.6 box AP和使用viti -base的+0.3 mask AP。

3、ADE20K

即使使用相对较小的20k图像样本进行预训练,去噪自编码器也可以在这种具有挑战性的任务上提供非常有竞争力的性能。

4、小数据集

SplitMask可以进一步提高多个数据集的性能:例如,在iNaturalist 2018数据集上,可以看到基于vit的模型的精度提高了3.0。

5、ImageNet

SplitMask提供了强大的性能,在所有骨干网上都优于BEiT和MoCo v3。

论文地址:Are Large-scale Datasets Necessary for Self-Supervised Pre-training?

https://avoid.overfit.cn/post/21d79b50015d406694bcf063b12c02e3

作者:Sik-Ho Tsang

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
人工智能领域中训练、评估和推理概念的了解
人工智能领域中训练、评估和推理概念的了解
813 0
|
27天前
|
机器学习/深度学习 数据采集 人工智能
深度学习之稳健的模型推理与不确定性建模
基于深度学习的稳健模型推理与不确定性建模,是现代AI系统中至关重要的研究方向。随着深度学习在各类应用中的成功,如何保证模型在面对未知或不确定性输入时仍能做出稳健的推理,并能够量化这种不确定性,成为关键问题。稳健性与不确定性建模可以提高模型的安全性、可靠性,尤其在自动驾驶、医疗诊断等高风险领域。
32 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
【5月更文挑战第5天】【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
|
5月前
|
机器学习/深度学习 数据可视化 Python
机器学习模型的解释性与可信度问题
【6月更文挑战第5天】在数据驱动的时代,机器学习模型的解释性和可信度至关重要。当面对类似黑匣子的复杂模型时,如何解释预测结果成为挑战。科学家通过特征重要性和模型可视化技术来提升解释性。例如,使用"特征重要性"评估各特征对预测的贡献,结合"模型可视化"展示决策过程。提供的Python代码示例展示了如何计算特征重要性并用图形化方式理解模型行为,以增强模型的信任度。
60 1
|
6月前
|
机器学习/深度学习 人工智能 运维
【机器学习】Adaboost: 强化弱学习器的自适应提升方法
在机器学习领域,集成学习是一种通过结合多个弱模型以构建更强大预测模型的技术。Adaptive Boosting,简称Adaboost,是集成学习中的一种经典算法,由Yoav Freund和Robert Schapire于1996年提出。Adaboost通过迭代方式,自适应地调整数据样本的权重,使得每个后续的弱学习器更加关注前序学习器表现不佳的样本,以此逐步提高整体预测性能。本文将深入探讨Adaboost的工作原理、算法流程、关键特性、优势及应用场景,并简要介绍其实现步骤。
94 1
|
6月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
151 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
68 3
|
6月前
|
机器学习/深度学习 自然语言处理 数据可视化
揭秘深度学习模型中的“黑箱”:理解与优化网络决策过程
【5月更文挑战第28天】 在深度学习领域,神经网络因其卓越的性能被广泛应用于图像识别、自然语言处理等任务。然而,这些复杂的模型往往被视作“黑箱”,其内部决策过程难以解释。本文将深入探讨深度学习模型的可解释性问题,并提出几种方法来揭示和优化网络的决策机制。我们将从模型可视化、敏感性分析到高级解释框架,一步步剖析模型行为,旨在为研究者提供更透明、可靠的深度学习解决方案。
|
6月前
|
机器学习/深度学习 自然语言处理 安全
XAI有什么用?探索LLM时代利用可解释性的10种策略
【4月更文挑战第23天】论文《Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era》探讨了在大型语言模型时代提升可解释性的10种策略,旨在增强LLM的透明度和可靠性。面对LLM的复杂性,这些策略包括使用归因方法理解决策过程、通过样本基础解释进行模型调试、利用知识增强的提示提升内容质量和使用自然语言解释以方便用户理解。尽管提出有益方法,但如何确保解释准确性、处理错误信息及平衡模型性能与可解释性仍是挑战。
139 3
|
6月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
下一篇
无影云桌面