因果推理,PPT, 生成流网络,MAE...国际牛组去年「挖」出的新思路我们试着总结回顾了一下（1）-阿里云开发者社区

壬寅虎年正月初二起，机器之心 SOTA！模型启动「虎卷er行动」连续五天解锁 1套五十道「年度大题」+ 4套「年度回顾」复习资料，帮助各位老伙计快速温故知新、了解过去一年的重要AI技术工作为目标。

所有题目均已在正月初二公开，所有「年度大题」答案均藏在「虎卷er」的「年度回顾」复习资料。

在机器之心 SOTA！模型启动「虎卷er行动」的第二天，我们解锁第一套「年度回顾」复习资料「大牛组的工作」，帮助老伙计们回顾在过去的2021年在国际上引起普遍反响的新思路。

文末附本篇「年度回顾」对应全部五十道「年度大题」及答题通道入口，感兴趣的老伙计可以测测看 21年国际AI顶会、重要SOTA工作自己了解多少~~

1、Yoshua Bengio 等人新论文描绘了因果对机器学习的影响，并提出了该交叉领域的核心研究方向收录时间：2021/2/22

Yoshua Bengio 等人在这篇论文中回顾了因果推理的基础概念，并将其与机器学习的关键开放性问题联系起来，如迁移与泛化，进而分析因果推理可能对机器学习研究做出的贡献。

反过来看也是如此：大多数因果研究的前提是因果变量。因此目前 AI 与因果领域的核心问题是因果表示学习，即基于低级观测值发现高级因果变量。

在论文的最后，作者描绘了因果对机器学习的影响，并提出了该交叉领域的核心研究方向。

2、唐杰、杨植麟等提出 P-tuning，自动搜索连续空间中的 Prompt，以提高 GPT 模型的自然语言理解能力收录时间：2021/3/19

GPT-3 大型语言模型向我们展示了 AI 模型在生成自然语言文本方面的强大能力。

GPT-3 的成功表明，「巨大的单向语言模型 + 适当的手工 Prompt」这一组合可能有助于提高模型的自然语言理解能力。然而，手工制作表现最佳的 Prompt 无异于大海捞针，通常需要异常庞大的验证集。在很多情况下，有效的 Prompt 工程意味着过拟合测试集。而且，这很容易导致对抗 Prompt 的产生，进而导致模型性能大幅下降。

本文提出了一种名为 P-tuning 的新方法来自动搜索连续空间中的 prompt，以提高 GPT 模型的自然语言理解能力。

P-tuning 架构本身比较简单。给定一个预训练的语言模型，通过预训练的嵌入层将一组离散输入 token 映射到输入嵌入。prompt p 的作用是将上下文 x、目标 y 和自身组合成一个 template t。借助这种方式，该方法可以找到更好的连续 prompt，并通过下游损失函数对连续 prompt 进行优化。

实验结果表明，利用 P-tuning 方法，GPT 的自然语言能力可以匹敌 BERT。而且，P-tuning 还可以提高 BERT 在 few-shot 和监督场景下的性能。

3、GitHub 和 OpenAI 联合发布 AI 编程辅助工具 GitHub Copilot，使用数十亿行代码进行训练收录时间：2021/6/29

2021年6月份，GitHub 与OpenAI共同推出了一款AI编程工具GitHub Copilot。GitHub Copilot基于 GitHub 及其他网站的源代码，可根据上文提示为程序员自动编写下文代码。

GitHub Copilot 是结对编程的虚拟版本。结对编程是一种常见的敏捷软件开发技术 —— 即两个开发人员在同一个项目上并肩协作，轮流编写代码并检查合作伙伴的输出。Copilot 可以支持十几种语言，与 Python、JavaScript、TypeScript、Ruby 和 Go 等主流语言配合效果更佳。

GitHub Copilot 还可以将注释转换为代码。只需要写一条评论，描述想要的逻辑，GitHub Copilot 就能自动“理解”并写出相应功能的代码，也能自动填充重复代码。

4、CMU 博士刘鹏飞发表关于 Prompt Learning 综述文章收录时间：2021/7/29

近几年，NLP 技术发展迅猛，特别是 BERT 的出现，开启了 NLP 领域新一轮的发展。从 BERT 开始，对预训练模型进行 Finetune 已经成为了整个领域的常规范式。

但是从 GPT-3 开始，一种新的范式开始引起大家的关注并越来越流行：prompting。该综述研究试图通过提供 prompting 方法的概述和形式化定义，以及使用这些 prompt 的预训练语言模型的概述，来梳理这一迅速发展领域的当前知识状态。然后该论文对 prompt 方法进行了深入的讨论，包括 prompt 工程、answer 工程等基础和多 prompt 学习方法、prompt 相关的训练方法等更高级的概念。

该研究列出了已有的基于 prompt 学习方法的多种应用，并探讨了不同应用场景中如何选择合适的训练方法。最后，该研究尝试在研究生态系统中定位 prompt 方法的当前状态，并与其他研究领域建立联系。此外，该研究提出一些可能适合进一步研究的挑战性问题，并针对当前研究趋势进行了分析。

5、何恺明团队针对 Transformer 在自监督学习框架中存在的训练不稳定问题，提出了一种简单而有效的技巧 Random Patch Projection收录时间：2021/8/17

论文是 FAIR 的何恺明团队针对自监督学习 + Transformer 的一篇实证研究。

针对 Transformer 在自监督学习框架中存在的训练不稳定问题，研究者提出了一种简单而有效的技巧：Random Patch Projection，它不仅适用于 MoCoV3 框架，同样适用于其他自监督学习框架（比如SimCLR、BYOL）。

与此同时，从不同角度的对比分析得出：Transformer 中的位置信息尚未得到充分探索，即 Transformer 仍有继续改善的空间。

6、Percy Liang、李飞飞等 100 多位研究者系统阐述了大规模预训练模型背后的机遇与风险，并统一给这些模型取名为 Foundation Model收录时间：2021/8/19

如今，NLP 领域几乎所有的 SOTA 模型都是少数几个基于 Transformer 的大模型进化而来。而且，这种趋势正在向图像、语音、蛋白质序列预测、强化学习等多个领域蔓延。整个 AI 社区似乎出现了一种大一统的趋势。过去一年，Transformer 在各个领域都表现出了颠覆性的统治力。

除了 CV 和 NLP，在 Graph 领域过去占主流地位的 GNN 如今也受到 Transformer 的挑战。毋庸置疑，这种同质化是有好处的，大模型的任何一点改进就可以迅速覆盖整个社区。但同时，它也带来了一些隐患，因为大模型的缺陷也会被所有下游模型所继承。在此背景下，李飞飞等 100 多位研究者系统地阐述了大规模预训练模型背后的机遇与风险，并统一给这些模型取名为 Foundation Model。

7、清华刘知远、黄民烈团队提出新框架 PPT，让超大模型调参变简单收录时间：2021/9/14

近年来，微调预训练语言模型（PLM）取得了很大进展。通过微调 PLM 的全部参数，从大规模无标签语料库中获得的多方面知识可以用于处理各种 NLP 任务，并优于从头学习模型的方法。为简单起见，此处将这种全模型调整（full-model tuning）称为 FT。

主流的 FT 方法共有两种：第一种是任务导向的微调，第二种是以 prompt 为导向的微调。尽管这两种 FT 方法已经显示出很好的结果，但随着模型规模的迅速扩张，为每个下游任务微调一个完整的大模型正变得越来越昂贵。

为了应对这一挑战，提出了 prompt tuning（PT），以降低为下游任务微调大模型的成本。

具体来说，PT 采用包含连续嵌入的 soft prompt 代替 hard prompt（离散语言短语）。这些连续 prompt 嵌入通常是随机初始化和端到端学习的。为了避免为每个下游任务存储整个模型，PT 冻结了 PLM 的所有参数，只调整 soft prompt，无需添加任何中间层和 task-specific 组件。尽管 PT 具有很少的可调参数和简单的设计，但它仍然可以媲美 FT。

8、Yann LeCun 团队提出端到端调制检测器 MDETR，能够根据原始文本查询直接检测图像中的目标收录时间：2021/10/12

目前，多模态推理模型大多都依赖于预先训练好的目标检测器来从图像中提取 proposal 。然而检测器只能检测出固定类别的目标，这使得模型很难适应自由文本中视觉concept的长尾分布。
因此本文提出了 MDETR ，一种端到端调制检测器，能够根据原始文本 query 直接来检测图像中的目标，基于Transformer的结构，通过在模型的早期阶段融合这两种模态的信息，来对文本和图像进行共同的推理。最终，MDETR 在检测和多个下游任务上都取得了 SOTA 的性能。

9、MIT 韩松团队提出 MUCNetV2，极大程度上解决了 TinyDL 的内存瓶颈问题收录时间：2021/10/29

由于有限的内存，MCU（MicroController Units, MCU）端的 TinyDL 极具挑战性。MIT 韩松团队发现：内存瓶颈源于 CNN 设计导致的内存分布不平衡，即网络的前几个模块具有比其他模块大的多的内存占用。

为缓解该问题，本文提出一种广义的 patch-by-patch 推理机制，它仅对特征图的局部区域进行处理，大幅降低了峰值内存。然而，常规的实现方式会带来重叠块与计算复杂问题。同时进一步提出了 recptive field redistribution 调整感受野与FLOPs 以降低整体计算负载。人工方式重分布感受野无疑非常困难。作者采用NAS对网络架构与推理机制进行联合优化得到了本文的 MCUNetV2。所提推理机制能大幅降低峰值内存达 4-8 倍。

所推 MCUNetV2 取得了 MCU 端新的 ImageNet 分类记录71.8% ；更重要的是，MCUNetV2 解锁了 MCU 端执行稠密预测任务的可能性，如目标检测取得了比已有方案高16.9%mAP@VOC 的指标。本研究极大程度上解决了 TinyDL 的内存瓶颈问题，为图像分类之外的其他视觉应用铺平了道路。

10、Yoshua Bengio 一作论文提出了生成流网络 GFlowNets收录时间：2021/11/18

论文是图灵奖获得者 Yoshua Bengio 对 AI 领域未来的方向提出的新想法——名为「生成流网络」（Generative Flow Networks，GFlowNets）的重要概念。

GFlowNets 灵感来源于信息在时序差分 RL 方法中的传播方式（Sutton 和 Barto，2018 年）。两者都依赖于 credit assignment 一致性原则，它们只有在训练收敛时才能实现渐近。

由于状态空间中的路径数量呈指数级增长，因此实现梯度的精确计算比较困难，因此，这两种方法都依赖于不同组件之间的局部一致性和一个训练目标，即如果所有学习的组件相互之间都是局部一致性的，那么我们就得到了一个系统，该系统可以进行全局估计。

本文为主动学习场景提供了形式化理论基础和理论结果集的扩展，同时也为主动学习场景提供了更广泛的方式。

GFlowNets 可以应用于：对集合和图进行一般概率运算，例如可以处理较难的边缘化问题，估计配分函数和自由能，计算给定子集的超集条件概率，估计熵、互信息等。

因果推理,PPT, 生成流网络,MAE...国际牛组去年「挖」出的新思路我们试着总结回顾了一下（1）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件