7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

机器之心 & ArXiv Weekly Radiostation参与:杜伟楚航、罗若天

本周论文包括 DeepMind 提出的 Gopher:2800 亿参数,接近人类阅读理解能力;强化学习大牛 Sergey Levine:将 RL 作为可扩展自监督学习的基础等研究。


目录:

  1. Scaling Language Models: Methods, Analysis & Insights from Training Gopher
  2. Improving language models by retrieving from trillions of tokens
  3. Probing topological spin liquids on a programmable quantum simulator
  4. Understanding the World Through Action
  5. Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering
  6. PolyViT: Co-training Vision Transformers on Images, Videos and Audio
  7. Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Scaling Language Models: Methods, Analysis & Insights from Training Gopher


摘要:DeepMind 用一篇 118 页的论文介绍了全新的语言模型 Gopher 及其 Gopher 家族。在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 SOTA 性能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。


DeepMind 采用自回归 Transformer 架构为基础,并进行了两处修改:将 LayerNorm 替换为 RMSNorm ;使用相对位置编码而不是绝对位置编码。此外 DeepMind 使用拥有 32000 个词汇量的 SentencePiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

DeepMind 使用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1B 和 280B 使用 bfloat16 激活和参数。

DeepMind 在 MassiveText 上训练 Gopher 模型家族,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。


推荐:Gopher:2800 亿参数,接近人类阅读理解能力。

论文 2:Improving language models by retrieving from trillions of tokens


摘要:DeepMind 在 Gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

具体而言,该研究提出了一种检索增强的自回归语言模型 Retrieval-Enhanced Transformer (RETRO) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以改进其预测。通过将生成的文本与 RETRO 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 Transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 SOTA 性能。


该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。


推荐:RETRO:带有互联网规模检索的高效训练。

论文 3:Probing topological spin liquids on a programmable quantum simulator


摘要:近日,剑桥研究小组公布了他们迄今为止最重要的发现,该小组包括来自哈佛大学 Lukin 领导的团队、Greiner 领导的实验室、MIT Vladan Vuletić领导的研究小组组成。他们使用量子模拟器检测到一种难以捉摸的物质状态:量子自旋液体,它存在于概述物质组织方式的百年范式之外。目前该研究登上《Science》。

量子自旋液体是具有拓扑顺序的奇异物质相,在过去的几十年里一直是物理学的主要焦点。这种相具有长程量子纠缠特性,有可能被用来实现稳健的量子计算。该研究使用具有 219 个原子的可编程量子模拟器来探测量子自旋液体。在此研究中,原子阵列被放置在 Kagome 晶格的链上,并且在里德堡 blockade 下的演变创造了没有局部秩序的受挫量子态。该研究为拓扑物质的可控实验探索和保护量子信息处理提供了可能。

该研究证实了一个有近 50 年历史、预测了这种奇异状态的理论,这也标志着朝着构建真正有用的通用量子计算机的梦想迈进了一步。

这项研究使用了一种基于中性原子的新型量子计算方法。尽管该方法落后于超导电路等更流行的量子计算技术,但中性原子具有的特殊性质长期以来一直吸引着量子工程师。

凝聚态物理学家使用自然界中发现的晶体及其在实验室中生长的物质来研究这些相。中性原子研究人员可以灵活地「编程」他们的物质,通过操纵里德堡态将原子精确地定位到任何形状的晶格中并设计原子相互作用。

里德堡原子阵列中的二聚体模型。


相关文章
|
11月前
|
机器学习/深度学习 Web App开发 自然语言处理
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体(2)
7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体
|
11月前
|
机器学习/深度学习 数据采集 人工智能
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(2)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
107 0
|
11月前
|
人工智能 算法
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案(1)
ICASSP 2022 | 89.46%检出率,网易云信音频实验室提出全球首个AI啸叫检测方案
233 0
|
11月前
|
机器学习/深度学习 编解码 自然语言处理
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类
CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类
201 0
|
11月前
|
机器学习/深度学习 存储 安全
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
118 0
|
11月前
|
人工智能 自然语言处理 安全
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
137 0
|
11月前
|
机器学习/深度学习 人工智能 算法
上交开源业界首个两阶段物体阴影生成网络,自建数据集DESOBA,入选AAAI 2022
上交开源业界首个两阶段物体阴影生成网络,自建数据集DESOBA,入选AAAI 2022
123 0
|
机器学习/深度学习 存储 编解码
牛!2位华人博士联手设计Max-DeepLab全景分割流水线,分辨率高达51.3%
2021年有两名华人学者在CVPR上提出了一种端到端的方法,可以用于全景分割的流水线,将Transformer架构用于计算机视觉任务。
284 0
牛!2位华人博士联手设计Max-DeepLab全景分割流水线,分辨率高达51.3%
|
安全
尘封3000年后,借助CT技术,科学家首次揭秘法老阿蒙霍特普一世木乃伊!
尘封3000年后,借助CT技术,科学家首次揭秘法老阿蒙霍特普一世木乃伊!
245 0
尘封3000年后,借助CT技术,科学家首次揭秘法老阿蒙霍特普一世木乃伊!
|
机器学习/深度学习 人工智能 监控
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
156 0
首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022

热门文章

最新文章