增大模型依然有用,DeepMind用2800亿参数的Gopher,测试语言系统极限

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 增大模型依然有用,DeepMind用2800亿参数的Gopher,测试语言系统极限


机器之心报道

机器之心编辑部

DeepMind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。

近年来,国内外各大 AI 巨头的大规模语言模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。

然而,当前语言模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢?或者,我们已经达到了语言模型相关技术范式的极限?

今日,DeepMind「一口气」发表了三篇论文,目的之一就是解决当前语言模型存在的问题。DeepMind 得出的结论是进一步扩展大规模语言模型应该会带来大量的改进。此前在一次电话简报会上,DeepMind 研究科学家 Jack Rae 表示,「这些论文的一个关键发现是大规模语言模型依然在进展之中,能力也在继续增强。这个领域并没有停滞不前。」


博客地址:https://deepmind.com/blog/article/language-modelling-at-scale

这三篇论文的主题分别如下:

  • 一个具有 2800 亿参数的 transformer 语言模型 Gopher;
  • 语言模型带来的道德和社会风险及危害;
  • 通过检索数万亿 token 来改进语言模型的新方法 RETRO。


本文机器之心将对大模型 Gopher 和 RETRO 模型进行简单介绍。

Gopher:2800 亿参数,接近人类阅读理解能力

DeepMind 用一篇 118 页的论文介绍了全新的语言模型 Gopher 及其 Gopher 家族,论文作者也差不多达到 100 人。


论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf

在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 SOTA 性能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。


DeepMind 采用自回归 Transformer 架构为基础,并进行了两处修改:将 LayerNorm 替换为 RMSNorm ;使用相对位置编码而不是绝对位置编码。此外 DeepMind 使用拥有 32000 个词汇量的 SentencePiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

训练

DeepMind 使用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。

DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1B 和 280B 使用 bfloat16 激活和参数。

训练基础设施

DeepMind 采用 JAX 来构建训练和评估的代码库。特别地,该研究使用 JAX 的 pmap 转换来提高数据和模型并行性,所有模型的训练和评估是在 TPUv3 芯片上进行的。此外,DeepMind 还采用了优化器状态分区、模型并行性和 rematerialisation 来划分模型状态并减少激活,因此这种方法适合 TPU 内存。

DeepMind 发现 TPUv3 具有快速跨芯片通信的能力,因此数据、模型并行性在 TPUv3 上的开销都很低,并且在训练 Gopher 时仅产生 10% 的开销。因此,该研究发现,在训练规模超过 1024-chip pod 之前,TPU 无需进行 pipelining 操作,这大大简化了中型模型的训练。


训练数据集

DeepMind 在 MassiveText 上训练 Gopher 模型家族,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。


结果


DeepMind 深入调查了这些不同大小模型的优缺点,强调扩展模型会提高其性能——例如,在阅读理解、事实核查和有害语言识别等领域。

该研究在 152 个任务中对 Gopher 及其家族模型进行了性能评估。DeepMind 将这些结果与 SOTA 语言模型(LM 性能的 124 个任务)、使用特定任务数据的监督方法、人类专家性能进行了比较。以下摘取了一些主要结果。

例如,在逻辑推理和常识性任务中的性能比较:

按类别划分的海量多任务语言理解 (MMLU) 基准测试性能。Gopher 在几个类别上优于之前的工作。

在这项研究中,研究者发现 Gopher 在一些关键任务上的能力超过了当前的语言模型,包括大规模多任务语言理解 (MMLU) 基准。在一项任务上,Gopher 展现出了重大进展,媲美人类专家的水准。

除了对 Gopher 进行定量评价外,DeepMind 的研究者还通过直接互动的方式对模型进行了测验。结果表明,当 Gopher 被提示进行对话互动 (比如在聊天中) 时,该模型有时可以表现出令人惊讶的连贯性。


在这里,Gopher 可以讨论细胞生物学并提供正确的引用来源,即使此前尚未进行过具体对话的微调。这项研究还详细描述了几种不同模型大小的故障模式,其中包括重复倾向、常规偏见反映以及错误信息传播。


对语言模型基准测试,DeepMind 在图 2 中扩展了 Gopher 与当前 178B SOTA 模型 Jurassic-1 和 175B GPT-3 的相对性能结果。结果表明 Gopher 在 19 项任务中有 8 项没有超过 SOTA 技术,尤其是在 Ubuntu IRC 和 DM Mathematics 上表现不佳。


如图 4 所示, Gopher 在绝大多数任务上都表现出了性能提升——只有在 16 个任务上(总共 152 个任务)的性能提升为零。相比之下,在 57 个任务有小幅改进,相对性能提升高达 25%,在 79 个任务有超过 25% 的显着改进。


这种类型的分析是重要的,理解和记录故障模式可以深入了解大语言模型是如何产生下游危害的,也提示了研究中的缓解方法应该集中在哪些方面来解决这些问题。

RETRO:带有互联网规模检索的高效训练

另一篇论文是 DeepMind 在 Gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

论文地址:https://storage.googleapis.com/deepmind-media/research/language-research/Improving%20language%20models%20by%20retrieving.pdf

具体而言,该研究提出了一种检索增强的自回归语言模型 Retrieval-Enhanced Transformer (RETRO) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以改进其预测。通过将生成的文本与 RETRO 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 Transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 SOTA 性能。


该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。

该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。

然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。


如下图所示,研究者用实验数据表明该方法能够很好地适应不同的模型大小和数据集大小。


该研究还在问答任务上评估比较了 RETRO 模型和其他几种模型的性能,结果如下表所示。


文章部分内容来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
342 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
615 8
|
6月前
|
数据采集 算法 数据管理
频标频稳比对测试系统重新定义测量边界
在上海张江实验室的超净间里,一束激光正以每秒 30 万公里的速度穿越真空腔,与原子跃迁频率进行着纳米级的较量。而在千里之外的西安高新区,一台黑色金属机箱内,SYN5609A 型频标比对测量系统正以同样的精度,为这场量子级的时间竞赛提供着基准坐标。这台看似普通的仪器,正在用双混频时差技术,将人类对时间的掌控精度推向新的维度。
|
5月前
|
人工智能 缓存 自然语言处理
别再手搓测试数据了!AE测试数据智造系统揭秘
本文介绍如何通过构建基于大语言模型的测试数据智造Agent,解决AliExpress跨境电商测试中数据构造复杂、低效的问题,推动测试效率提升与智能化转型。
别再手搓测试数据了!AE测试数据智造系统揭秘
|
3月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
9月前
|
存储 人工智能 测试技术
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
141596 29
小鱼深度评测 | 通义灵码2.0,不仅可跨语言编码,自动生成单元测试,更炸裂的是集成DeepSeek模型且免费使用,太炸裂了。
|
7月前
|
jenkins 测试技术 Shell
利用Apipost轻松实现用户充值系统的API自动化测试
API在现代软件开发中扮演着连接不同系统与模块的关键角色,其测试的重要性日益凸显。传统API测试面临效率低、覆盖率不足及难以融入自动化工作流等问题。Apipost提供了一站式API自动化测试解决方案,支持零代码拖拽编排、全场景覆盖,并可无缝集成CI/CD流程。通过可视化界面,研发与测试人员可基于同一数据源协作,大幅提升效率。同时,Apipost支持动态数据提取、性能压测等功能,满足复杂测试需求。文档还以用户充值系统为例,详细介绍了从创建测试用例到生成报告的全流程,帮助用户快速上手并提升测试质量。
|
9月前
|
JSON 前端开发 API
以项目登录接口为例-大前端之开发postman请求接口带token的请求测试-前端开发必学之一-如果要学会联调接口而不是纯写静态前端页面-这个是必学-本文以优雅草蜻蜓Q系统API为实践来演示我们如何带token请求接口-优雅草卓伊凡
以项目登录接口为例-大前端之开发postman请求接口带token的请求测试-前端开发必学之一-如果要学会联调接口而不是纯写静态前端页面-这个是必学-本文以优雅草蜻蜓Q系统API为实践来演示我们如何带token请求接口-优雅草卓伊凡
498 5
以项目登录接口为例-大前端之开发postman请求接口带token的请求测试-前端开发必学之一-如果要学会联调接口而不是纯写静态前端页面-这个是必学-本文以优雅草蜻蜓Q系统API为实践来演示我们如何带token请求接口-优雅草卓伊凡
|
8月前
|
数据可视化 JavaScript 前端开发
利用Postman和Apipost进行API测试的实践与优化-动态参数
在API测试中,Postman和Apipost是常用的工具。Postman内置变量功能有限,面对复杂场景时需编写JavaScript脚本,增加了维护成本。而Apipost提供丰富的内置变量、可视化动态值配置和低代码操作,支持生成真实随机数据,如邮箱、手机号等,显著提升测试效率和灵活性。对于复杂测试场景,Apipost是更好的选择,能有效降低开发与维护成本,提高测试工作的便捷性和可维护性。
|
8月前
|
数据可视化 JavaScript 前端开发
从Postman到Apipost:我的动态参数测试实战踩坑记
作为一名全栈开发工程师,在开发用户中心模块时,我遇到了复杂参数API测试的挑战。最初使用Postman时,发现其在生成动态参数(如邮箱、手机号和日期)时存在诸多问题,导致测试效率低下甚至出错。例如,随机生成的邮箱格式无效等 后来,CTO推荐了Apipost,它提供了更智能的参数生成方式:支持真实邮箱、符合规范的手机号以及合法日期范围,极大提升了测试效率和准确性。通过对比,Apipost在处理复杂动态参数方面明显优于Postman,减少了维护成本并提高了团队协作效率。现在,我们已全面切换到Apipost,并利用其「参数组合测试」功能发现了多个边界条件bug。

热门文章

最新文章

下一篇
oss云网关配置