LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会

简介: LeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会

 新智元报道  

编辑:编辑部

【新智元导读】自监督学习入门指南,LeCun 70页论文都讲透了。


一本自监督学习全套攻略来了!

今天,Yann LeCun、田渊栋等机构的研究者共同发表了一篇70页论文「自监督学习的食谱」。

LeCun称,你曾经想知道,却又不敢问的自监督学习内容全在这儿了。

先来看看这篇论文阵容有多强大,除了Meta AI的研究员,还汇集了纽约大学、马里兰大学、加利福尼亚大学戴维斯分校、蒙特利尔大学等6所大学研究人员的智慧。

可想而知,这篇论文含金量有多足了。

论文地址:https://arxiv.org/pdf/2304.12210.pdf

自监督学习(SSL),被称为人工智能的暗物质,是推进机器学习发展的一条有希望的道路。

然而,就像烹饪一样,SSL是一门精致的艺术,有很高的门槛。

尽管人们对许多组件非常熟悉,但成功地训练一个SSL,需要做出从假设任务,到训练超参数等一系列令人眼花缭乱的选择。

这篇最新论文的目标就是,降低进入SSL研究的门槛,像烹饪书方式一样提供最新的「SSL食谱」。

Meta的研究科学家田渊栋表示,如果你想做SSL研究,就来看看这本书吧。

70页巨长论文看似让人劝退,但其实参考文献就占了26页。

SSL烹饪指南


这篇论文究竟讲了什么内容,先来看看满屏糊脸的目录。

正如论文作者所称,要成功烹饪,你必须首先学习基本的技巧:切菜、炒菜等。

第一部分主要介绍什么是SSL,重要性,以及写这本「食谱」的主要原因。

第二部分讲了SSL的家族和来源,给出了常用词汇,从自我监督学习的基本技巧开始手把手教你。

其中包括:-SSL的起源-深度度量学习家族:SimCLR/NNCLR/MeanSHIFT/SCL-自蒸馏家族:BYOL/SimSIAM/DINO-典型相关分析家族:VICReg/BarlowTwins/SWAV/W-MSE-掩码图像建模-自监督学习的理论统一:SSL理论研究;表征的维度坍缩-预训练数据

方法有了,接下来,厨师必须学会熟练运用这些技巧,做出一道美味的菜肴。

这不仅需要学习现有的食谱,还要会自己组合食材,并会评估这道菜。

因此,第三部分就是重中之重了。

这部分主要介绍了常见的训练方法,包括超参数的选择,如何使用组建,以及评估方法。

-数据增强的作用:multi-crop的作用-projector的作用-SSL的统一先验还是SSL在不平衡数据上的失败-教师学生架构具体策略:移除平均教师的作用;projector在自标记SSL中的作用-标准超参数的作用:小批量大小的作用;学习率(调度器)和优化器的作用;重量衰减的作用;Transformer注意事项-高性能掩码图像建模技术-评估SSL模型:带标签评估;无标签评估;超越分类;视觉评估-提速训练:分布式训练;用FFCV和其他加速训练更快;加速视觉Transformer的训练第四部分:将自监督学习扩展到图像和分类之外-其他数据域的策略-将多个模式纳入SSL训练-用本地化方法构建密集预测任务的特征提取器

在此,作者还分享了前沿的研究人员关于常见训练配置,以及陷阱的实用技巧。

最后,文章总结道,自监督学习(SSL)为提高机器智能建立了一个新的范式。

尽管取得了许多成功,但SSL仍然是一个令人生畏的领域,其中包含了许多复杂的实现方法。

由于研究的快速发展和SSL方法的广泛应用,要了解这个领域仍然具有挑战性。

这对于那些最近加入该领域的研究者和从业者来说是一个问题,从而为SSL研究和部署创造了很高的进入门槛。

作者希望这个实用指南能够帮助降低这些壁垒,使任何背景的好奇研究者都能探索各种方法,了解各种调整参数的作用,并获得在SSL领域取得成功所需的技能。

AI暗物质


2021年,LeCun曾在自家博客上发文首次提出,自监督学习是「人工智能暗物质」这一概念。

一直以来,人工智能系统在标记数据中学习取得了很大的进展。然而,这些模型仅在训练专家模型时表现得非常好,应用非常有限。

实际上,给世界上所有东西贴上标签是无法穷尽的。这就不得不另辟蹊径,许多研究者发现,监督学习是构建更智能「多面手」模型更有力的方法。

如果AI系统能够收集到比训练数据集更深入、更细致的现实理解,最终能够实现接近人类智能水平的智能。

我们认为,自监督学习是在人工智能系统中构建这种背景知识和近似常识形式的最有前途的方法之一。

SSL从数据本身获得监督信号,通常利用数据中的底层结构。自监督学习的一般技术是预测任何未观察到的,或隐藏的输入部分 (或属性) 。

此外,还可以预测,视频中过去或未来的帧(隐藏数据)和当前的帧(观察数据)。

由于SSL使用的是数据本身的结构,所以它可以实现跨模式的能力,比如(视频、音频),以及跨大型数据集利用各种监督信号。

在计算机视觉领域,自监督学习通过在10亿张图像上训练的SEER等模型,推动了数据规模的扩大。

SSL计算机视觉方法已经能够匹配,或在某些情况下超过模型训练的标记数据,甚至也包括竞争基准ImageNet。

此外,自监督学习也被成功地应用在其他形式,如视频、音频和时间序列。

自监督学习定义了一个基于未标记输入的前提任务,以产生描述性和可理解的表示。

在自然语言中,一个常见的SSL目标是在文本中掩盖一个词去预测周围的词。这种目标预测是为了鼓励模型来捕捉文本和词语之间的关系,并且不需要任何标签。

相同的SSL模型表示可以在一系列下游任务中使用,比如翻译文本、汇总、甚至生成文本等任务。

可见,SSL使人工智能系统能够从巨量的数据中学习,这对于识别和理解更微妙、更不常见的世界表示模式很重要。

网友热评


一位网友对自己博士要做的领域产生疑问,向LeCun求助:

「还值得攻读人工智能博士学位吗?我想做医学领域的多模态诊断模型。但随着最近新模型的涌现,我担心会被大公司悄悄地超越,或者因没有做出任何重大贡献而浪费时间。」

在LeCun看来,

1. 大多数好的想法仍然来自学术界。你只管做自己的。没有必要去超越一个强大的基准。

2. 做的研究远离工业界占主导地位的大规模应用就可以了

3. 你认为谁在工业界做人工智能研发?依旧是博士们。

我认为 「暗物质g」代表了本世纪MI/GI的主流方法,SSL是其中的一个先驱。其背后有着严肃的科学,这是Brain Cantwell Smith在他2019年的书中论证的一个核心主题。

从LLaMa的开源,再到LeCun自剑盾学习攻略,Meta在开源上做了很多。

网友称赞,这段时间,Meta在生成式人工智能和自我监督学习方面做出了巨大贡献。对SSL总结工作非常好,非常感激。

参考资料:https://arxiv.org/abs/2304.12210https://twitter.com/ylecun/status/1650798206283051009

相关文章
|
11月前
|
人工智能 监控 数据可视化
BISHENG下一代企业AI应用的“全能型“LLM软件
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
12月前
|
存储 SQL 关系型数据库
HarmonyOS Next快速入门:RelationalStore关系型数据库
本课程《HarmonyOS Next快速入门》涵盖HarmonyOS应用开发中的关系型数据库使用,介绍基于SQLite的持久化存储、适用场景及开发实践,适用于教育与初学者。
435 0
|
4月前
|
人工智能 数据挖掘 BI
|
6月前
|
算法
模型压缩与量化
模型压缩通过量化、稀疏化、知识蒸馏等技术,减小模型体积与计算开销,助力大模型在端侧部署。涵盖INT8/INT4、GPTQ、SmoothQuant等方法,平衡压缩比、精度与速度,并支持实战量化加载,提升推理效率。
|
机器学习/深度学习 人工智能 编解码
告别潜在空间的黑箱操作,直接在原始像素空间建模!PixelFlow:港大团队开源像素级文生图模型
香港大学与Adobe联合研发的PixelFlow模型,通过流匹配和多尺度生成技术实现像素级图像生成,在256×256分辨率任务中取得1.98的FID分数,支持端到端训练并突破传统模型对预训练VAE的依赖。
807 36
告别潜在空间的黑箱操作,直接在原始像素空间建模!PixelFlow:港大团队开源像素级文生图模型
|
机器学习/深度学习 算法 关系型数据库
Python循环进阶:嵌套与控制的深度解析
本文深入探讨Python中嵌套循环的原理与应用,从数学模型到工程实践全面解析。内容涵盖嵌套循环的本质(如笛卡尔积实现、变量作用域)、精细控制技巧(如break/continue、迭代器协议、异常处理),以及性能优化策略(预计算、向量化等)。同时结合树形结构遍历、动态规划、游戏开发等典型场景,提供最佳实践建议。掌握这些技巧,助你突破编程瓶颈,实现复杂问题的优雅解决。
390 6
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
476 3
|
文字识别 算法 TensorFlow
【Keras+计算机视觉+Tensorflow】OCR文字识别实战(附源码和数据集 超详细必看)
【Keras+计算机视觉+Tensorflow】OCR文字识别实战(附源码和数据集 超详细必看)
591 4
|
安全 Linux 数据处理

热门文章

最新文章