7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞；斯坦福CS博士新作：BERT单节点训练最快（2）-阿里云开发者社区

7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞；斯坦福CS博士新作：BERT单节点训练最快（2）

2023-05-16 104

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | MIT爆出苹果M1芯片重大漏洞；斯坦福CS博士新作：BERT单节点训练最快

机器之心 & ArXiv Weekly Radiostation参与：杜伟、楚航、罗若天

本周重要论文包括：斯坦福大学提出一种快速、内存高效的注意力算法，被命名为 FlashAttention，通过减少 GPU 内存读取 / 写入，FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍，所需内存减少 5-20 倍；来自 MIT CSAIL 的学者们介绍了一种可禁用苹果 M1 芯片指针身份验证机制的新型硬件攻击，名为「PACMAN」，这种攻击能够阻止 M1 芯片检测到软件漏洞攻击。

目录：

Emergent Abilities of Large Language Models
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
Towards artificial general intelligence via a multimodal foundation model
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
PACMAN: Attacking ARM Pointer Authentication with Speculative Execution
Multi-Game Decision Transformers
End-to-end Generative Pretraining for Multimodal Video Captioning
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Emergent Abilities of Large Language Models

作者：Jason Wei 、 Percy Liang 、 Jeff Dean 等
论文地址：https://arxiv.org/pdf/2206.07682.pdf

摘要：包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》，他们讨论了大模型不可预测现象，并称之为大型语言模型的突现能力（ emergent abilities）。所谓的突现，即有些现象不存在于较小的模型中但存在于较大的模型中，他们认为模型的这种能力是突现的。

本文探讨了模型规模的突现，通过训练计算和模型参数来衡量。具体而言，本文将大型语言模型的突现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力；因此，大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型突现能力，并将它们进行分类：小样本提示和增强提示等设置。

本文首先讨论了提示范式中的突现能力。例如在 GPT-3 提示中，给出预训练语言模型任务提示，模型无需进一步训练或对参数进行梯度更新即可完成响应。此外，Brown 等人提出了小样本提示，他们将模型上下文（输入）中的一些输入输出示例作为提示（preamble），然后要求模型执行未见过的推理任务。图 1 为一个提示示例。

当模型具有随机性能且具有一定规模时，通过小样本提示就可以执行任务，这时突现能力就会出现，之后模型性能远远高于随机性能。下图展示了 5 个语言模型系列（LaMDA、GPT-3、Gopher、Chinchilla 以及 PaLM ）的 8 种突现能力。

BIG-Bench：图 2A-D 描述了来自 BIG-Bench 的四个突现小样本提示任务，BIG-Bench 是一个由 200 多个语言模型评估基准的套件。图 2A 显示了一个算术基准，它测试了 3 位数字的加减法，以及 2 位数字的乘法。表 1 给出了 BIG-Bench 更多突现能力。

图 3D 显示这些模型也可以泛化到域外 9 位加法，它出现在 ∼1.3 · 10^20 个训练 FLOPs（100M 参数）。

推荐：Jeff Dean 等人新作：换个角度审视语言模型，规模不够发现不了。

论文 2：FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

作者：Tri Dao 、 Daniel Y. Fu 等
论文地址：https://arxiv.org/pdf/2205.14135.pdf

摘要：一种快速、内存高效的注意力算法来了，被命名为 FlashAttention。通过减少 GPU 内存读取 / 写入，FlashAttention 的运行速度比 PyTorch 标准注意力快 2-4 倍，所需内存减少 5-20 倍。

这项研究由斯坦福大学、纽约州立大学布法罗分校的研究者共同完成。共同一作是两位斯坦福计算机博士生 Tri Dao 和 Dan Fu。

在本文中，该研究认为应该让注意力算法具有 IO 感知——即考虑显存级间的读写。现代 GPU 计算速度超过了内存速度，transformer 中的大多数操作都被内存访问所阻塞。IO 感知算法对于类似的内存绑定操作至关重要，这种重要性体现在当读写数据占据很大运行时——例如数据库连接、图像处理、数值线性代数等。然而，用于深度学习的常见 Python 接口，如 PyTorch 和 Tensorflow，不允许对内存访问进行细粒度控制。

该研究提出了一种新的注意力算法 FlashAttention，它可以使用更少的内存访问来计算精确的注意力。FlashAttention 旨在避免从 HBM（High Bandwidth Memory）中读取和写入注意力矩阵。这需要做到：(i) 在不访问整个输入的情况下计算 softmax reduction；(ii) 在后向传播中不能存储中间注意力矩阵。

该研究在 CUDA 中实现 FlashAttention ，以达到对内存访问的细粒度控制，并将所有注意力操作融合到一个 GPU 内核中。即使由于重新计算导致 FLOPs 增加，但其运行速度更快（在 GPT-2 上高达 7.6 倍，图 1 右图）并且使用更少的内存（序列长度线性），主要是因为大大减少了 HBM 访问量。

该研究分析了 FlashAttention 的 IO 复杂度，证明它需要𝑂(𝑁^2𝑑^2^𝑀−1)HBM 访问，其中𝑑是 head 维度，𝑀是 SRAM 的大小，而标准的注意力需要Ω(𝑁𝑑 + 𝑁^2 )HBM 访问。对于𝑑 和 𝑀 的典型值，与标准注意力相比，FlashAttention 需要的 HBM 访问次数要少很多（最多减少 9 倍，如图 2 所示）。

该研究还表明，FlashAttention 可以作为一种原语（primitive），通过克服内存访问开销问题来实现近似注意力算法。作为概念证明，该研究实现了块稀疏 FlashAttention，这是一种稀疏注意力算法，比 FlashAttention 快 2-4 倍，可扩展到 64k 的序列长度。该研究证明了块稀疏 FlashAttention 比 FlashAttention 具有更好的 IO 复杂度。

推荐：斯坦福大学 CS 博士新作：新型 Attention 提速 2-4 倍，BERT 单节点训练最快。

论文 3：Towards artificial general intelligence via a multimodal foundation model

作者：卢志武、孙浩、文继荣等
论文地址：https://www.nature.com/articles/s41467-022-30761-2

摘要：最近，中国人民大学高瓴人工智能学院卢志武教授、孙浩长聘副教授、以及院长文继荣教授作为共同通讯作者在国际综合期刊《自然 · 通讯》（英文名：Nature Communications，简称 Nat Commun）上发表题为「Towards Artificial General Intelligence via a Multimodal Foundation Model」的研究论文，文章第一作者为博士生费楠益。该工作尝试利用多模态基础模型迈向通用人工智能，并将对各种 AI + 领域（如神经科学和医疗健康）产生广泛的影响。

该研究开发了一个大规模多模态基础模型在海量的多模态数据上进行自监督训练，并把它取名为 BriVL（Bridging-Vision-and-Language）。

具体来说，为了对图文对的弱相关性进行建模，并学习一个统一的语义空间，该研究基于单模态对比学习方法 MoCo 设计了一个跨模态对比学习算法。如图 2 所示，该研究的 BriVL 模型使用了 momentum 机制，用来在不同的训练批次中动态维护负样本队列。通过这种方式，该研究会有一个比较大的负样本数量（对对比学习至关重要），同时使用一个相对较小的 batch 大小以减少 GPU 的内存占用（即 GPU 资源节约）。

图 2：用于大规模多模态预训练的 BriVL 模型示意图。
推荐：人大高瓴人工智能学院 Nature 子刊：尝试利用多模态基础模型迈向通用人工智能。

论文 4：Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

作者：Aarohi Srivastava、Abhinav Rastogi 等
论文地址：https://arxiv.org/abs/2206.04615

摘要：在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中，研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日，谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示，该工作历经两年努力完成，论文长达 100 页，作者有 442 人，目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。

BIG-bench 目前由 204 个任务组成，获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样，涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为，模型规模跨越数百万到数千亿个参数。

图 1：在 BIG-bench 上，很多模型总体性能随着体量的增加而提高。但目前看来，所有模型在绝对值（absolute term）方面都表现一般。