备案控制台

开发者社区大数据与机器学习文章正文

SplitMask:大规模数据集是自我监督预训练的必要条件吗?

2023-09-09 89

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文，它在自监督预训练场景中使用小数据集，如Stanford Cars, Sketch或COCO，它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask，它对预训练数据的类型和大小具有更强的鲁棒性。

自监督预训练需要大规模数据集吗?这是2021年发布的一篇论文，它在自监督预训练场景中使用小数据集，如Stanford Cars, Sketch或COCO，它们比ImageNet小几个数量级。并提出了一种类似于BEiT的去噪自编码器的变体SplitMask，它对预训练数据的类型和大小具有更强的鲁棒性。

SplitMask

SplitMask是基于三个步骤:split, inpaint 和match。

split:与标准ViTs一样，图像首先被分解为16×16像素块。然后将图像分割为两个不相交的子集A和B，分别由共享深度ViT编码器进行独立处理。

Inpaint:接下来，使用子集A的patch表示和一个浅解码器(例如2层)，通过解决掩码图像建模(MIM)任务(BEiT)，子集B的patch被“填充”。

最后，对每个分支对应的解码器输出的patch表示进行平均池化，得到全局图像描述符。

Match:使用两个表示xa和xb，分别对应于观测patch的子集A和B来估计InfoNCE loss (CPCv1):

添加这种对比损失的动机是鼓励模型产生全局一致的特征，这些特征在不同选择的观察子集之间是一致的，而不依赖于任何手工设计的转换。

结果

1、消融研究

仅使用5%的ImageNet样本就能达到峰值性能，添加更多的样本并不能提供额外的提升。使用10% ImageNet子集。训练近3k个epoch的长时间，与完整ImageNet的300个epoch的总更新次数相匹配。

使用autoencoder**loss、BEiT和SplitMask**(如MIM)进行预训练对数据集大小的减小具有鲁棒性。而DINO则与监督预训练一样，当使用较小的数据集进行训练时，模型的性能会下降。

通过更简单的选择替换DALL-E标记器不会导致准确性的任何显着降低。

2、COCO

使用COCO图像对DINO进行类似的预训练则得到了相对较弱的性能，仅优于随机初始化。与BEiT基线相比，SplitMask带来了一致的改进，例如使用viti -small时的+0.6 box AP和使用viti -base的+0.3 mask AP。

3、ADE20K

即使使用相对较小的20k图像样本进行预训练，去噪自编码器也可以在这种具有挑战性的任务上提供非常有竞争力的性能。

4、小数据集

SplitMask可以进一步提高多个数据集的性能:例如，在iNaturalist 2018数据集上，可以看到基于vit的模型的精度提高了3.0。

5、ImageNet

SplitMask提供了强大的性能，在所有骨干网上都优于BEiT和MoCo v3。

论文地址：Are Large-scale Datasets Necessary for Self-Supervised Pre-training?

https://avoid.overfit.cn/post/21d79b50015d406694bcf063b12c02e3

作者：Sik-Ho Tsang

文章标签：

计算机视觉

Deephub

目录

相关文章

楠竹11

|

10月前

|

机器学习/深度学习人工智能

谷歌提出大规模ICL方法——强化和无监督

【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL，一种强化和无监督学习方法，用于提升大型语言模型处理多样化任务的能力。通过提供更多示例，模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL，减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见，但示例顺序对其性能至关重要。然而，NLL作为评估指标的局限性被指出，且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角，但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]

楠竹11

103 1 1

楠竹11

|

10月前

|

存储机器学习/深度学习人工智能

论文介绍：InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力

【5月更文挑战第18天】InfLLM是一种新方法，无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文，InfLLM能更准确地捕捉长距离依赖，提高对长文本理解。实验表明，InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战，如动态上下文分割和记忆单元效率，InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接：https://arxiv.org/abs/2402.04617

楠竹11

248 3 3

楠竹11

|

10月前

|

机器学习/深度学习人工智能自然语言处理

论文介绍：自我对弈微调——将弱语言模型转化为强语言模型的新方法

【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法，名为SPIN，用于在无需额外人工标注数据的情况下增强大型语言模型（LLM）。SPIN利用自我对弈机制，让模型通过与自身历史版本交互生成自我训练数据，实现性能提升。该方法在多个基准数据集上表现出色，超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路，展示了自我对弈在强化学习和深度学习中的潜力。实验表明，SPIN有效提升了模型性能，为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]

楠竹11

98 3 3

Deephub

|

10月前

|

自然语言处理

论文推荐：用多词元预测法提高模型效率与速度

《Better & Faster Large Language Models via Multi-token Prediction》论文提出了一种多词元预测框架，改善了大型语言模型（LLMs）的样本效率和推理速度。该方法通过一次预测多个词元，而非单个词元，提高了模型在编程和自然语言任务中的性能。实验显示，多词元预测在HumanEval和MBPP任务上性能提升，推理速度最高可提升3倍。此外，自我推测解码技术进一步优化了解码效率。尽管在小模型中效果不明显，但该方法为大模型训练和未来研究开辟了新途径。

Deephub

251 0 0

爱吃糖的范同学

|

10月前

|

机器学习/深度学习自然语言处理算法

【大模型】关于减轻 LLM 训练数据和算法中偏差的研究

【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究

爱吃糖的范同学

182 0 0

爱吃糖的范同学

|

10月前

|

数据采集

【大模型】大语言模型训练数据中的偏差概念及其可能的影响？

【5月更文挑战第5天】【大模型】大语言模型训练数据中的偏差概念及其可能的影响？

爱吃糖的范同学

274 0 0

-开发达人-

|

机器学习/深度学习数据采集人工智能

综述：使用语言模型进行可控的蛋白质设计（1）

综述：使用语言模型进行可控的蛋白质设计

-开发达人-

548 0 0

-开发达人-

|

自然语言处理计算机视觉

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

-开发达人-

466 0 0

-开发达人-

|

机器学习/深度学习人工智能算法

自监督为何有效？243页普林斯顿博士论文「理解自监督表征学习」，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文「理解自监督表征学习」，全面阐述对比学习、语言模型和自我预测三类方法

-开发达人-

164 0 0

自监督为何有效？243页普林斯顿博士论文「理解自监督表征学习」，全面阐述对比学习、语言模型和自我预测三类方法

-开发达人-

|

机器学习/深度学习数据采集编解码

OpenFold更多细节公开：重新训练AlphaFold2对其学习机制和泛化能力产生新见解

OpenFold更多细节公开：重新训练AlphaFold2对其学习机制和泛化能力产生新见解

-开发达人-

300 0 0

大数据与机器学习

热门文章

最新文章

阿里云开源离线同步工具DataX3.0介绍

【玩转数据系列九】机器学习为您解密雾霾形成原因

数据库开放权限太危险，又不想写API。DataV给你另外一个选择。

身怀绝技的开发者们，快来DataV玩转可视化组件

DataV回调id——从入门到精通

大数据环境下该如何优雅地设计数据分层

美柚：最懂女性App背后的混合云架构与大数据服务

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

OPPO数据中台之基石：基于Flink SQL构建实数据仓库

从迷茫到自信：入职培训的5个关键

基于 Megatron 的多模态大模型训练加速技术解析

云上一键部署通义千问 QwQ-32B 模型，阿里云 PAI 最佳实践

量子计算的未来蓝图：从量子比特到量子霸权

数据治理之道：用代码撑起数据质量的保护伞

基于GARCH-Copula-CVaR模型的金融系统性风险溢出效应matlab模拟仿真

Visual-RFT：基于强化学习的视觉语言模型微调技术研究

京东商品详情优惠券API接口全攻略

深入解析：使用 Python 爬虫获取淘宝店铺所有商品接口

Python测试淘宝店铺所有商品接口的详细指南

相关课程

更多

机器学习基础与回归算法

机器学习集成学习与模型融合

计算机视觉类比赛汇总

李宏毅2021《机器学习》

机器学习入门-概念原理及常用算法

机器学习算法

相关电子书

更多

弱监督机器学习范式

弱监督机器学习研究新进展

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

相关实验场景

更多

如何快速训练大模型

使用PAI-快速开始，低代码实现大语言模型微调和部署

推荐系统入门之使用ALS算法实现打分预测

下一篇

通义万相：视觉生成大模型再进化