少到4个示例，击败所有少样本学习：DeepMind新型800亿模型真学会了-阿里云开发者社区

少到4个示例，击败所有少样本学习：DeepMind新型800亿模型真学会了

2023-05-15 191

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 少到4个示例，击败所有少样本学习：DeepMind新型800亿模型真学会了

DeepMind 的这个模型，可以说是「看一眼」就学会了。

关于智能，其关键点是在得到一个简短的指令时快速学习如何执行新任务的能力。例如，一个孩子在动物园看到动物时，他会联想到自己曾在书中看到的，并且认出该动物，尽管书中和现实中的动物有很大的差异。

但对于一个典型的视觉模型来说，要学习一项新任务，它必须接受数以万计的、专门为该任务标记的例子来进行训练。假如一项研究的目标是计数和识别图像中的动物，例如「三匹斑马」这样的描述，为了完成这一任务，研究者将不得不收集数千张图片，并在每张图片上标注它们的数量和种类。但是标注过程效率低效、成本高，对于资源密集型的任务来说，需要大量带注释的数据，并且每次遇到新任务时都需要训练一个新模型。

DeepMind 另辟蹊径，他们正在探索可替代模型，可以使这个过程更容易、更高效，只给出有限的特定于任务的信息。

在 DeepMind 最新公布的论文中，他们推出了 Flamingo（火烈鸟）模型，这是一个单一的视觉语言模型（visual language model，VLM），它在广泛的开放式多模态任务中建立了少样本学习新 SOTA。这意味着 Flamingo 只需少量的特定例子（少样本）就能解决许多难题，而无需额外训练。Flamingo 的简单界面使这成为可能，它将图像、视频和文本作为提示（prompt），然后输出相关语言。

这个 Flamingo 模型到底有多智能呢？我们先来看下效果：Flamingo 可以进行开箱即用的多模式对话，下图展示的是使用 OpenAI 的 DALL·E 2 生成的「汤怪物」图像，在关于这张图像的不同问答中，Flamingo 都能准确地回答出来。例如问题：这张图片中有什么？Flamingo 回答：一碗汤，一张怪物脸在上面。

Flamingo 还能通过并识别出著名的斯特鲁普效应 (Stroop effect)，例如事先给几个示例，如出题人给出表示绿色的单词 GREEN，并用蓝色的字体表示，回答者需要回答：颜色是绿色，用蓝色书写。在给出几组示例后，Flamingo 就学会了这种模式，当给出 YELLOW 绿色字体时，Flamingo 回答：颜色是黄色，用绿色书写。

此外，Flamingo 还能识别出这是 Stroop 测试。

下图给出了两个动物图片示例和一个标识它们名称的文本以及关于在哪里可以找到的描述，Flamingo 可以模仿这种风格，给定一个新图像以输出相关描述：例如，在给出栗鼠、柴犬示例后，Flamingo 模仿这种方式，输出这是一只火烈鸟，它们在加勒比海被发现。

Flamingo 还能进行算术（第四行）：

就像大型语言模型一样，Flamingo 可以快速适应各种图像和视频理解任务，只需简单地提示它几个例子 (上图)。Flamingo 还具有丰富的视觉对话功能 (下)。

研究概述

模型架构 & 方法

在实践中，通过在两者之间添加新颖的架构组件，Flamingo 将每个经过单独预训练和冻结的大型语言模型与强大的视觉表示融合在一起。接着在仅来自网络上的互补大规模多模态混合数据上进行训练，而不使用任何为达到机器学习目的而标注的数据。

按照该方法，研究者从最近推出的计算最优的 700 亿参数语言模型 Chinchilla 入手，训练最终的 800 亿参数的 VLM 模型 Flamingo。完成训练后，Flamingo 经过简单的少样本学习即可直接适用于视觉任务，无需任何额外特定于任务的微调。下图为 Flamingo 架构概览。

首先是视觉处理和感知器重采样器（Perceiver Resampler）。Flamingo 模型的视觉编码器是一个预训练的 NFNet，研究者使用的是 F6 模型。在 Flamingo 模型的主要训练阶段，他们将视觉编码器冻结，这是因为它与直接基于文本生成目标训练视觉模型相比表现得更好。最后阶段是特征 X_f 的 2D 空间网格被展平为 1D，如下图 4 所示。

感知器重采样器模块将视觉编码器连接到冻结的语言模型（如上图 3 所示），并将来自视觉编码器的可变数量的图像或视频特征作为输入，产生固定数量的视觉输出，如下图 4 所示。