7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

机器之心 & ArXiv Weekly Radiostation参与:杜伟楚航、罗若天

本周论文包括 DeepMind 提出的 Gopher:2800 亿参数,接近人类阅读理解能力;强化学习大牛 Sergey Levine:将 RL 作为可扩展自监督学习的基础等研究。


目录:

  1. Scaling Language Models: Methods, Analysis & Insights from Training Gopher
  2. Improving language models by retrieving from trillions of tokens
  3. Probing topological spin liquids on a programmable quantum simulator
  4. Understanding the World Through Action
  5. Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering
  6. PolyViT: Co-training Vision Transformers on Images, Videos and Audio
  7. Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Scaling Language Models: Methods, Analysis & Insights from Training Gopher


摘要:DeepMind 用一篇 118 页的论文介绍了全新的语言模型 Gopher 及其 Gopher 家族。在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 SOTA 性能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。


DeepMind 采用自回归 Transformer 架构为基础,并进行了两处修改:将 LayerNorm 替换为 RMSNorm ;使用相对位置编码而不是绝对位置编码。此外 DeepMind 使用拥有 32000 个词汇量的 SentencePiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

DeepMind 使用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1B 和 280B 使用 bfloat16 激活和参数。

DeepMind 在 MassiveText 上训练 Gopher 模型家族,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。


推荐:Gopher:2800 亿参数,接近人类阅读理解能力。

论文 2:Improving language models by retrieving from trillions of tokens


摘要:DeepMind 在 Gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

具体而言,该研究提出了一种检索增强的自回归语言模型 Retrieval-Enhanced Transformer (RETRO) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以改进其预测。通过将生成的文本与 RETRO 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 Transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 SOTA 性能。


该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。


推荐:RETRO:带有互联网规模检索的高效训练。

论文 3:Probing topological spin liquids on a programmable quantum simulator


摘要:近日,剑桥研究小组公布了他们迄今为止最重要的发现,该小组包括来自哈佛大学 Lukin 领导的团队、Greiner 领导的实验室、MIT Vladan Vuletić领导的研究小组组成。他们使用量子模拟器检测到一种难以捉摸的物质状态:量子自旋液体,它存在于概述物质组织方式的百年范式之外。目前该研究登上《Science》。

量子自旋液体是具有拓扑顺序的奇异物质相,在过去的几十年里一直是物理学的主要焦点。这种相具有长程量子纠缠特性,有可能被用来实现稳健的量子计算。该研究使用具有 219 个原子的可编程量子模拟器来探测量子自旋液体。在此研究中,原子阵列被放置在 Kagome 晶格的链上,并且在里德堡 blockade 下的演变创造了没有局部秩序的受挫量子态。该研究为拓扑物质的可控实验探索和保护量子信息处理提供了可能。

该研究证实了一个有近 50 年历史、预测了这种奇异状态的理论,这也标志着朝着构建真正有用的通用量子计算机的梦想迈进了一步。

这项研究使用了一种基于中性原子的新型量子计算方法。尽管该方法落后于超导电路等更流行的量子计算技术,但中性原子具有的特殊性质长期以来一直吸引着量子工程师。

凝聚态物理学家使用自然界中发现的晶体及其在实验室中生长的物质来研究这些相。中性原子研究人员可以灵活地「编程」他们的物质,通过操纵里德堡态将原子精确地定位到任何形状的晶格中并设计原子相互作用。

里德堡原子阵列中的二聚体模型。


目录
打赏
0
0
0
0
367
分享
相关文章
谷歌反击,最强Gemini 2.0全家桶砸场DeepSeek!物理模拟编码惊人Jeff Dean站台
谷歌反击,最强Gemini 2.0全家桶砸场DeepSeek!物理模拟编码惊人Jeff Dean站台
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获潜意识!
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
77 23
微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑
AI²BMD(AI-driven Biomolecular Dynamics)是由微软华人科学家团队领衔的研究,发表于《自然》杂志。该方法通过将蛋白质分解为21种常见单元,并利用机器学习模型预测其相互作用,实现高效精准的生物分子模拟。相比传统方法,AI²BMD在能量和力预测上精度更高,计算速度提升数个数量级,尤其适用于大规模蛋白质模拟,为药物设计等领域提供了有力工具。未来研究将扩展至更多生物分子类型并优化效率。论文地址:https://www.nature.com/articles/s41586-024-08127-z
70 8
上交、智源、北大等提出空间大模型SpatialBot
【8月更文挑战第29天】近年来,人工智能技术迅猛发展,视觉语言模型(VLMs)在2D图像理解上取得显著成就,但在空间理解方面仍面临挑战。上交、智源、北大等机构的研究人员提出了结合RGB和深度图像的空间大模型SpatialBot,以提升空间理解精度。通过使用包含多层次深度信息的SpatialQA数据集进行训练,并基于全面评估基准SpatialBench测试,SpatialBot在多个任务中表现出色,显著提升了空间理解能力。然而,其应用仍受限于部署成本和数据集泛化能力等问题。论文链接: https://arxiv.org/abs/2406.13642
120 3
字节跳动、浙大推出Coin3D:用几何代理,控制3D模型生成
【7月更文挑战第29天】字节跳动与浙江大学合作开发了Coin3D框架,利用几何代理实现3D模型生成的精确控制与交互。该框架通过3D适配器、代理限制编辑策略、渐进式体积缓存及体积-SDS等技术,支持用户实时调整3D模型的全局与局部特征。实验表明,Coin3D在保证高质量的同时,显著提升了生成过程的灵活性与可控性。[论文](https://arxiv.org/abs/2405.08054)
147 5
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
140 0

热门文章

最新文章