Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

最近一段时间,超级计算机是科技公司比拼的重点。昨天商汤科技的 AIDC 刚刚启用,今天又传来了脸书超算的消息。

当地时间 1 月 24 日,Meta(原 Facebook)揭幕了其研究团队的全新人工智能超级计算机,预计在 2022 年中全部完成后,它将成为世界最快的计算机。

在报道文章中,Meta 表示新超算 AI Research SuperCluster(RSC)将帮助该公司构建更好的 AI 模型,这些模型可以从数万亿个示例中学习,构建跨数百种语言的模型,并同时分析文本内容、图像和视频,确定内容是否有害。当然,RSC 超算也可以用来开发新一代增强现实工具。

Meta 表示,该平台不仅有助于确保人们今天使用 Facebook 服务的安全性,而且在公司为元宇宙构建的将来也会发挥作用。


社交媒体起家的脸书在去年 10 月更名为 Meta,以反映其对元宇宙的关注,它认为元宇宙将成为移动互联网的继承者。

近几个月,元宇宙当之无愧是科技圈最热的词汇之一,这个概念指的是人们可以通过不同的设备访问共享的虚拟环境,在该环境里人们可以工作、娱乐和社交。「构建元宇宙需要巨大的计算能力(quintillion 级,10 的 18 次方),」Meta 首席执行官马克 · 扎克伯格(Mark Zuckerberg)在 Facebook 上说道: 「AI 和 RSC 将使新的人工智能模型成为可能,它们可以从数以万亿计的例子中学习,理解数百种语言甚至更多。」

Meta 表示,它相信 RSC 是目前运行速度最快的人工智能超级计算机之一。Meta 的一位发言人说,该公司已经与英伟达、Pure Storage 和 Penguin Computing 的团队合作,共同构建这台超级计算机。

高性能计算基础设施是用于训练大规模预训练模型的必要条件。Meta 表示,其 AI 研究团队一直在构建高性能系统,自研的第一代算力设施设计于 2017 年,在单个集群中拥有 2.2 万个英伟达 V100 Tensor Core GPU,每天可执行 3.5 万个训练任务。到目前为止,该基础设施在性能、可靠性和生产力方面为 Meta 研究人员确立了基准。

2020 年初,Facebook 认定加速算力增长的最佳方式是从头开始设计全新计算基础架构,以利用新的 GPU 和网络结构技术。该公司希望新 AI 超算能够在 1 EB 字节大的数据集上训练具有超过一万亿个参数的模型——仅从规模上看,这相当于 36000 年时长的高清晰度视频。


如此规模的超算肯定不能仅用于科研,Meta 表示,RSC 可以训练来自 Meta 生产系统的真实示例,确保新研究能有效地转化为实践。其推动的新模型可识别社交网络平台上的有害内容,并推动多模态人工智能,以帮助改善用户体验。Meta 认为,这是第一次有人以如此规模同时解决性能、可靠性、安全性和隐私问题。

RSC 的秘密


AI 超算主要用于人工智能模型的训练,是通过将多个 GPU 组合成计算节点来构建的,其通过高性能网络结构连接这些节点,以实现 GPU 之间的快速通信。

RSC 有 760 个 NVIDIA DGX A100 系统作为其计算节点,总共有 6080 块 GPU,每块 A100 GPU 都比 Meta 之前系统中使用的 V100 更强大。每个 DGX 通过没有超负荷的 NVIDIA Quantum 1600 Gb/s InfiniBand 两级 Clos 结构进行通信。RSC 的存储层具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系统中的缓存存储和 10 PB 的 Pure Storage FlashBlade。


与 Meta 的传统生产和研究基础设施相比,RSC 的早期基准测试表明,它运行计算机视觉工作流程的速度是之前的 20 倍,运行英伟达多卡通信框架 (NCCL) 的速度快了 9 倍,训练大规模 NLP 模型快了 3 倍。这意味着一个拥有数百亿参数的模型可以在 3 周内完成训练,而之前这一数字是 9 周。

作为参考,在最新一次 MLPerf 神经网络训练基准中测试的最大生产就绪(production-ready)系统是英伟达部署的 4320-GPU 系统,该系统可以在不到一分钟的时间内训练 BERT 。然而,BERT「只有」1.1 亿个参数,与 Meta 想要使用的数万亿个参数也无法相比。

RSC 的推出还伴随着 Meta 使用数据进行研究的方式的变化:

与我们之前仅利用开源和其他公开可用数据集的 AI 研究基础设施不同,RSC 允许我们在模型训练中包含来自 Meta 生产系统的真实示例,确保研究有效地转化为实践。

研究人员还写道,RSC 将采取额外的预防措施来加密和匿名这些数据,以防止泄漏。这些步骤包括将 RSC 与更大的互联网隔离既没有入站连接也没有出站连接,RSC 的流量只能从 Meta 的生产数据中心流入。此外,存储和 GPU 之间的数据路径是端到端加密的,数据是匿名的,并经过审查过程以确认匿名。


拓展计划

AI 超算 RSC 已经于昨天正式启用,但它的开发仍在进行中。Meta 表示,一旦完成构建 RSC 的第二阶段,它将可能成为全球最快的 AI 超级计算机,其混合精度计算性能接近 5 exaflops(10 的 18 次方)。

在 2022 年,Meta 正计划将 GPU 的数量从 6080 个增加到 16000 个,这将使 AI 训练性能提高 2.5 倍以上。InfiniBand 互联结构将扩展为支持 16000 个端口,采用两层拓扑结构。该系统的存储系统将具有 16 TB/s 的目标交付带宽和 EB 级容量,以满足不断增长的需求。

参考链接:https://ai.facebook.com/blog/ai-rschttps://spectrum.ieee.org/meta-ai-supercomputerhttps://www.reuters.com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/https://www.wsj.com/articles/meta-unveils-new-ai-supercomputer-11643043601

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
1月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
188 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
29天前
|
人工智能 自然语言处理 搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
|
1月前
|
人工智能 JavaScript 测试技术
Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?
Cradle 是由 BAAI‑Agents 团队开源的通用计算机控制(GCC)多模态 AI Agent 框架,具备视觉输入、键鼠操作输出、自主学习与反思能力,可操作各类本地软件及游戏,实现任务自动化与复杂逻辑执行。
174 6
|
1月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
607 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
1月前
|
存储 人工智能 算法
AI测试平台实战:深入解析自动化评分和多模型对比评测
在AI技术迅猛发展的今天,测试工程师面临着如何高效评估大模型性能的全新挑战。本文将深入探讨AI测试平台中自动化评分与多模型对比评测的关键技术与实践方法,为测试工程师提供可落地的解决方案。
|
1月前
|
数据采集 人工智能 自然语言处理
让AI读懂代码需求:模块化大模型微调助力高效代码理解与迁移
本文介绍了一种解决开源项目代码升级中“用户需求关联相应代码”难题的创新方法。面对传统Code RAG和Code Agent在召回率、准确率和稳定性上的不足,以及领域“黑话”和代码风格差异带来的挑战,作者团队提出并实践了一套以大模型微调(SFT)为核心的解决方案。
351 21
|
1月前
|
人工智能 自然语言处理 负载均衡
排期延误预警:用AI预测项目风险的3层模型搭建教程
本文介绍了如何通过 AI 智能排期将项目排期误差减少 40% 以上。文章剖析了传统排期中常见的经验依赖、资源冲突、需求变更和进度滞后四大痛点,提出 AI 排期的三步落地方法:历史数据建模、动态适配需求、资源智能匹配,并推荐适配不同团队的 AI 排期工具。强调 AI 是辅助而非替代,核心在于用数据驱动提升排期准确性,帮助团队告别“拍脑袋估期”,实现高效、可控的项目管理。
排期延误预警:用AI预测项目风险的3层模型搭建教程
|
1月前
|
人工智能 边缘计算 自然语言处理
普通电脑也能跑AI:10个8GB内存的小型本地LLM模型推荐
随着模型量化技术的发展,大语言模型(LLM)如今可在低配置设备上高效运行。本文介绍本地部署LLM的核心技术、主流工具及十大轻量级模型,探讨如何在8GB内存环境下实现高性能AI推理,涵盖数据隐私、成本控制与部署灵活性等优势。
701 0
普通电脑也能跑AI:10个8GB内存的小型本地LLM模型推荐

热门文章

最新文章