2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推(1)

简介: 2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推

这些机器学习领域的研究你都读过吗?

2022 年即将步入尾声。在这一年里,机器学习领域涌现出了大量有价值的论文,对机器学习社区产生了深远的影响。
今日,ML & NLP 研究者、Meta AI 技术产品营销经理、DAIR.AI 创始人 Elvis S. 对 2022 年热度很高的 12 篇机器学习论文进行了汇总。帖子很火,还得到了图灵奖得主 Yann LeCun 的转推。


接下来,我们一一来看。
论文 1:A ConvNet for the 2020s
视觉识别的快速发展始于 ViT 的引入,其很快取代了传统 ConvNet,成为 SOTA 图像分类模型。ViT 模型在包括目标检测、语义分割等一系列计算机视觉任务中存在很多挑战。因此有研究者提出分层 Swin Transformer,重新引入 ConvNet 先验,使得 Transformer 作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。
然而,这种混合方法的有效性在很大程度上仍归功于 Transformer 的内在优势,而不是卷积固有的归纳偏置。本文中,FAIR 、UC 伯克利的研究者重新检查了设计空间并测试了纯 ConvNet 所能达到的极限。研究者逐渐将标准 ResNet「升级」为视觉 Transformer 的设计,并在此过程中发现了导致性能差异的几个关键组件。


论文地址:https://arxiv.org/abs/2201.03545v2
论文 2:Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

通过大型语言模型(LLM)学习的世界知识能能用于交互式环境中的行动吗?本文中,UC 伯克利、CMU 和谷歌的研究者探究了将自然语言表达为一组选定可操作步骤的可能性。以往的工作侧重于从显式分布示例中学习如何行动,但他们惊讶地发现,如果预训练语言模型足够大并得到适当的提示,则可以有效地将高级任务分解为中级规划,无需进一步训练。但是,LLM 制定的规划往往无法精确地映射到可接受的行动。
研究者提出的步骤以现有演示为条件,并将规划在语义上转换为可接受的行动。在 VirtualHome 环境中的评估表明,他们提出的方法大大提高了 LLM 基线的可执行性。人工评估揭示了可执行性和正确性之间的权衡,但展现出了从语言模型中提取可操作知识的可能性迹象。


论文地址:https://arxiv.org/abs/2201.07207v2
论文 3:OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework
这是阿里达摩院推出的统一多模态多任务模型框架 OFA,总结了通用模型现阶段最好符合的三个特点,即模态无关、任务无关、任务多样性。该论文被 ICML 2022 接收。
在图文领域,OFA 将 visual grounding、VQA、image caption、image classification、text2image generation、language modeling 等经典任务通过统一的 seq2seq 框架进行表示,在任务间共享不同模态的输入输出,并且让 Finetune 和预训练保持一致,不新增额外的参数结构。


论文地址:https://arxiv.org/abs/2202.03052v2
论文 4:Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer

深度学习中的超参数(HP)调优是一个成本高昂的过程,对于具有数十亿参数的神经网络而言更是如此。本文中,微软和 OpenAI 的研究者表明,在最近发现的 Maximal Update Parametrization(muP)中,即使模型大小发生变化,很多最优 HP 仍保持稳定。
这促成了他们称为 muTransfer 的全新 HP 调优范式,即在 muP 中对目标模型进行参数化,在较小的模型上不直接进行 HP 调优,并将它们零样本迁移到全尺寸模型中,这也意味着根本不需要直接对后者模型进行调优。研究者在 Transformer 和 ResNet 上验证了 muTransfer。例如,通过从 40M 参数的模型进行迁移,性能优于已发布的 6.7B GPT-3 模型,调优成本仅为预训练总成本的 7%。


论文地址:https://arxiv.org/abs/2203.03466v2
论文 5:OPT: Open Pre-trained Transformer Language Models

大模型往往经过成千上万个计算日的训练,在零样本和少样本学习中展现出了非凡的能力。不过考虑到它们的计算成本,如果没有充足的资金,这些大模型很难复制。对于少数可以通过 API 获得的模型,无法访问它们完整的模型权重,也就难以展开研究。
本文中,Meta AI 的研究者提出了 Open Pre-trained Transformers(OPT),这是一套仅用于解码器的预训练 transformers 模型,参数从 125M 到 175B 不等。他们表明,OPT-175B 性能与 GPT-3 相当,但开发所需的碳足迹仅为后者的 1/7。


论文地址:https://arxiv.org/abs/2205.01068v4
论文 6:A Generalist Agent


受大规模语言建模的启发,Deepmind 构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。
Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。


与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。



论文地址:https://arxiv.org/abs/2205.06175v3


相关文章
|
机器学习/深度学习 存储 人工智能
2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推(2)
2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(2)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
105 0
|
人工智能 自然语言处理 计算机视觉
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(1)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
177 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
270 0
|
机器学习/深度学习 存储 人工智能
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
181 0
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
132 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
24天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
132 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
25天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
84 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
21天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
51 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
85 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

热门文章

最新文章