LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA

简介: LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA
人类似乎对不同的学习模式有着相似的认知,机器也应该如此!

自监督学习能在各种任务中学习到分层特征,并以现实生活中可使用的海量数据作为资源,因此是走向更通用人工智能的一种途径,也是深度学习三巨头之一、图灵奖得主 Yann LeCun 一直推崇的研究方向。

LeCun 认为:相比于强化学习,自监督学习(SSL)可以产生大量反馈,能够预测其输入的任何一部分(如预测视频的未来画面),从而具有广泛的应用前景。

自监督学习通过直接观察环境来进行学习,而非通过有标签的图像、文本、音频和其他数据源进行学习。然而从不同模态(例如图像、文本、音频)中学习的方式存在很大差异。这种差异限制了自监督学习的广泛应用,例如为理解图像而设计的强大算法不能直接应用于文本,因此很难以相同的速度推动多种模态的进展。

现在,MetaAI(原 Facebook AI)提出了一种名为 data2vec 的自监督学习新架构,在多种模态的基准测试中超越了现有 SOTA 方法。

image.png

data2vec  是首个适用于多模态的高性能自监督算法。Meta AI 将 data2vec  分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力的结果。此外,data2vec  还代表了一种新的、全面的自监督学习范式,其提高了多种模态的进步,而不仅仅是一种模态。data2vec 不依赖对比学习或重建输入示例,除了帮助加速  AI 的进步,data2vec 让我们更接近于制造能够无缝地了解周围世界不同方面的机器。data2vec 使研究者能够开发出适应性更强的  AI,Meta AI 相信其能够在多种任务上超越已有系统。

image.png

论文一作 Meta AI 研究员 Alexei Baevski 表示:我们发布了最新 SSL 方法 data2vec,与单独训练相比,我们在具有相同预训练任务的视觉、语音和 NLP 上获得了 SOTA。语音和文本的代码和模型已经发布,视觉模型代码即将到来!

image.png

即将成为  Meta CTO 的 Boz(领导 Reality Labs 团队的 AR、VR、AI、Portal 等)也发推表示:很高兴 data2vec  能够帮助为跨多种模态的、更通用的自监督学习铺平道路——这项工作还将对我们正在构建的 AR 眼镜开发情境化 AI 产生重大影响。

image.png

data2vec 是如何工作的?

大部分  AI  仍然基于监督学习,它只适用于具有标注数据的任务。但是,假如我们希望机器可以完更多的任务,那么收集所有的标注数据将变得不现实。例如,虽然研究人员在为英语语音和文本创建大规模标注数据集方面做了大量工作,但对于地球上成千上万的语言来说,这样做是不可行的。

自监督使计算机能够通过观察世界,然后弄清楚图像、语音或文本的结构来了解世界。不需要专门训练就能对图像进行分类或理解语音的机器,其扩展性也会大大提高。

data2vec  训练方式是通过在给定输入的部分视图的情况下预测完整输入模型表示(如下动图所示):首先 data2vec  对训练样本的掩码版本(学生模型)进行编码,然后通过使用相同模型参数化为模型权重的指数移动平均值(教师模型)对输入样本的未掩码版本进行编码来构建训练目标表示。目标表示对训练样本中的所有信息进行编码,学习任务是让学生在给定输入部分视图的情况下预测这些表示。

image.png

data2vec 以相同的方式学习图像、语音和文本。

模型架构

Meta  AI 使用标准的 Transformer 架构(Vaswani 等人,2017):对于计算机视觉,Meta AI 使用 ViT  策略将图像编码为一系列 patch,每个 patch 跨越 16x16 像素,然后输入到线性变换(Dosovitskiy 等人,  2020;Bao 等人,2021)。语音数据使用多层 1-D 卷积神经网络进行编码,该网络将 16 kHz 波形映射到 50 Hz  表示(Baevski 等人,2020b)。对文本进行预处理以获得子词(sub-word)单元(Sennrich 等人,2016;Devlin  等人,2019),然后通过学习的嵌入向量将其嵌入到分布空间中。

data2vec 还可以为不同模态预测不同的单元:图像的像素或视觉 token、文本的单词以及语音的学习清单。像素的集合与音频波形或文本段落非常不同,因此,算法设计与特定的模态紧密联系在一起。这意味着算法在每种模式下的功能仍然不同。

image.png

掩码:在输入样本作为  token 序列嵌入后,Meta AI 用学习的掩码嵌入 token 替换掩码单元的一部分,并将序列馈送到 Transformer  网络。对于计算机视觉,Meta AI 遵循 Bao 等人的分块掩码(block-wise)策略;对于语音,Meta AI 掩码潜在语音表示的跨度  ;对于语言,Meta AI 使用掩码 token 。

训练目标:Meta  AI 预测的表示是上下文表示,不仅对特定的时间步长进行编码,还对来自样本的其他信息进行编码,这是由于在 Transformer  网络中使用了自注意力,这是与 BERT、wav2vec 2.0 或 BEiT、MAE、SimMIM 和 MaskFeat  重要区别,这些预测目标缺乏上下文信息。

面向多种模态:data2vec 通过训练模型来简化其方法,以预测输入数据的表征。没有预测视觉 token、词、声音等的方法,而是专注于预测输入数据的表征,单个算法就可以处理完全不同类型的输入。这消除了学习任务中对特定模态目标的依赖。

直接预测表征并不简单,它需要为任务定义一个稳健的特征归一化,以对不同的模态都是可靠的。该研究使用教师网络首先从图像、文本或语音中计算目标表征。然后掩码部分输入并使用学生网络重复该过程,然后预测教师网络的潜在表征。即使只能查看部分信息,学生模型也必须预测完整输入数据的表征。教师网络与学生模型相同,但权重略有不同。

实验及结果

该研究在 ImageNet 计算机视觉基准上测试了该方法,结果如下。

image.png

用于计算机视觉的 data2vec:在 ImageNet 基准上,ViT-B 模型与其他方法的性能比较结果。

image.png

应用于语音的 data2vec:在 LibriSpeech 基准测试中使用 10h 标记数据的 Base 模型与其他方法的性能比较结果,错误率越低,性能越好。

image.png

应用于文本的 data2vec:在使用原始 BERT 设置重新训练时,与 RoBERTa 相比,Base 模型在 GLUE 自然语言理解基准上的性能。分数越高,性能越好。

通过观察进行学习

自监督学习在计算机视觉、视频等多种模态方面取得了很大进展。这种方法的核心思想是为了更广泛地学习,以使人工智能可以学习完成各种任务,包括完全未见过的任务。研究者希望机器不仅能够识别训练数据中显示的动物,而且还能通过给定描述识别新生物。

data2vec 证明其自监督算法可以在多种模态下良好执行,甚至比现有最佳算法更好。这为更一般的自监督学习铺平了道路,并让人工智能更接近使用视频、文本、音频来学习复杂世界的目标。

由于收集高质量数据成本很高,因此该研究还希望 data2vec 能让计算机仅用很少的标记数据来完成任务。data2vec 是迈向更通用人工智能的重要一步,未来有望消除对特定模态特征提取器的需求。

参考链接:https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text/

相关文章
|
4月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
489 0
|
6月前
|
编解码 算法
改进SIFT算法实现光学图像和SAR图像配准
改进SIFT算法实现光学图像和SAR图像配准
|
4月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
288 8
|
5月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
223 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
5月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
392 2
|
5月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
145 8
|
5月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
5月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
5月前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
409 0
|
5月前
|
存储 监控 算法
基于文化优化算法图像量化(Matlab代码实现)
基于文化优化算法图像量化(Matlab代码实现)
208 1

热门文章

最新文章