Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

最近一段时间,超级计算机是科技公司比拼的重点。昨天商汤科技的 AIDC 刚刚启用,今天又传来了脸书超算的消息。

当地时间 1 月 24 日,Meta(原 Facebook)揭幕了其研究团队的全新人工智能超级计算机,预计在 2022 年中全部完成后,它将成为世界最快的计算机。

在报道文章中,Meta 表示新超算 AI Research SuperCluster(RSC)将帮助该公司构建更好的 AI 模型,这些模型可以从数万亿个示例中学习,构建跨数百种语言的模型,并同时分析文本内容、图像和视频,确定内容是否有害。当然,RSC 超算也可以用来开发新一代增强现实工具。

Meta 表示,该平台不仅有助于确保人们今天使用 Facebook 服务的安全性,而且在公司为元宇宙构建的将来也会发挥作用。


社交媒体起家的脸书在去年 10 月更名为 Meta,以反映其对元宇宙的关注,它认为元宇宙将成为移动互联网的继承者。

近几个月,元宇宙当之无愧是科技圈最热的词汇之一,这个概念指的是人们可以通过不同的设备访问共享的虚拟环境,在该环境里人们可以工作、娱乐和社交。「构建元宇宙需要巨大的计算能力(quintillion 级,10 的 18 次方),」Meta 首席执行官马克 · 扎克伯格(Mark Zuckerberg)在 Facebook 上说道: 「AI 和 RSC 将使新的人工智能模型成为可能,它们可以从数以万亿计的例子中学习,理解数百种语言甚至更多。」

Meta 表示,它相信 RSC 是目前运行速度最快的人工智能超级计算机之一。Meta 的一位发言人说,该公司已经与英伟达、Pure Storage 和 Penguin Computing 的团队合作,共同构建这台超级计算机。

高性能计算基础设施是用于训练大规模预训练模型的必要条件。Meta 表示,其 AI 研究团队一直在构建高性能系统,自研的第一代算力设施设计于 2017 年,在单个集群中拥有 2.2 万个英伟达 V100 Tensor Core GPU,每天可执行 3.5 万个训练任务。到目前为止,该基础设施在性能、可靠性和生产力方面为 Meta 研究人员确立了基准。

2020 年初,Facebook 认定加速算力增长的最佳方式是从头开始设计全新计算基础架构,以利用新的 GPU 和网络结构技术。该公司希望新 AI 超算能够在 1 EB 字节大的数据集上训练具有超过一万亿个参数的模型——仅从规模上看,这相当于 36000 年时长的高清晰度视频。


如此规模的超算肯定不能仅用于科研,Meta 表示,RSC 可以训练来自 Meta 生产系统的真实示例,确保新研究能有效地转化为实践。其推动的新模型可识别社交网络平台上的有害内容,并推动多模态人工智能,以帮助改善用户体验。Meta 认为,这是第一次有人以如此规模同时解决性能、可靠性、安全性和隐私问题。

RSC 的秘密


AI 超算主要用于人工智能模型的训练,是通过将多个 GPU 组合成计算节点来构建的,其通过高性能网络结构连接这些节点,以实现 GPU 之间的快速通信。

RSC 有 760 个 NVIDIA DGX A100 系统作为其计算节点,总共有 6080 块 GPU,每块 A100 GPU 都比 Meta 之前系统中使用的 V100 更强大。每个 DGX 通过没有超负荷的 NVIDIA Quantum 1600 Gb/s InfiniBand 两级 Clos 结构进行通信。RSC 的存储层具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系统中的缓存存储和 10 PB 的 Pure Storage FlashBlade。


与 Meta 的传统生产和研究基础设施相比,RSC 的早期基准测试表明,它运行计算机视觉工作流程的速度是之前的 20 倍,运行英伟达多卡通信框架 (NCCL) 的速度快了 9 倍,训练大规模 NLP 模型快了 3 倍。这意味着一个拥有数百亿参数的模型可以在 3 周内完成训练,而之前这一数字是 9 周。

作为参考,在最新一次 MLPerf 神经网络训练基准中测试的最大生产就绪(production-ready)系统是英伟达部署的 4320-GPU 系统,该系统可以在不到一分钟的时间内训练 BERT 。然而,BERT「只有」1.1 亿个参数,与 Meta 想要使用的数万亿个参数也无法相比。

RSC 的推出还伴随着 Meta 使用数据进行研究的方式的变化:

与我们之前仅利用开源和其他公开可用数据集的 AI 研究基础设施不同,RSC 允许我们在模型训练中包含来自 Meta 生产系统的真实示例,确保研究有效地转化为实践。

研究人员还写道,RSC 将采取额外的预防措施来加密和匿名这些数据,以防止泄漏。这些步骤包括将 RSC 与更大的互联网隔离既没有入站连接也没有出站连接,RSC 的流量只能从 Meta 的生产数据中心流入。此外,存储和 GPU 之间的数据路径是端到端加密的,数据是匿名的,并经过审查过程以确认匿名。


拓展计划

AI 超算 RSC 已经于昨天正式启用,但它的开发仍在进行中。Meta 表示,一旦完成构建 RSC 的第二阶段,它将可能成为全球最快的 AI 超级计算机,其混合精度计算性能接近 5 exaflops(10 的 18 次方)。

在 2022 年,Meta 正计划将 GPU 的数量从 6080 个增加到 16000 个,这将使 AI 训练性能提高 2.5 倍以上。InfiniBand 互联结构将扩展为支持 16000 个端口,采用两层拓扑结构。该系统的存储系统将具有 16 TB/s 的目标交付带宽和 EB 级容量,以满足不断增长的需求。

参考链接:https://ai.facebook.com/blog/ai-rschttps://spectrum.ieee.org/meta-ai-supercomputerhttps://www.reuters.com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/https://www.wsj.com/articles/meta-unveils-new-ai-supercomputer-11643043601

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2天前
|
人工智能 自然语言处理 搜索推荐
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
苹果与EPFL合作发布4M AI模型,开启AI新时代
|
3天前
|
机器学习/深度学习 人工智能 负载均衡
【AI大模型】分布式训练:深入探索与实践优化
在人工智能的浩瀚宇宙中,AI大模型以其惊人的性能和广泛的应用前景,正引领着技术创新的浪潮。然而,随着模型参数的指数级增长,传统的单机训练方式已难以满足需求。分布式训练作为应对这一挑战的关键技术,正逐渐成为AI研发中的标配。
21 5
|
1天前
|
人工智能
多模态AI单词助记模型体验
一文带你了解多模态AI单词助记模型的优与劣
129 1
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【模型微调】AI Native应用中模型微调概述、应用及案例分析
在AI Native应用中,模型微调是一个关键步骤,它允许开发者使用特定领域的数据对预训练模型进行二次训练过程,从而使其更好地适应特定任务或数据集。模型微调通过调整模型的参数,使模型在特定任务上达到更高的性能。这种技术广泛应用于自然语言处理、图像识别、语音识别等领域
7 1
|
5天前
|
人工智能 内存技术
通义语音AI技术问题之预训练模型的推理与微调如何解决
通义语音AI技术问题之预训练模型的推理与微调如何解决
17 4
|
4天前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
4天前
|
机器学习/深度学习 人工智能 编解码
AI文生图模型
8月更文挑战第16天
|
5天前
|
人工智能 编解码 自然语言处理
|
5天前
|
机器学习/深度学习 人工智能 并行计算
VMware产品问题之VMware Private AI的目标定义如何解决
VMware产品问题之VMware Private AI的目标定义如何解决
7 0
|
3天前
|
机器学习/深度学习 人工智能 算法
解密巴黎奥运会中的阿里云AI技术
2024年巴黎奥运会圆满结束,中国代表团金牌数与美国并列第一,展现了卓越实力。阿里云作为官方云服务合作伙伴,通过先进的AI技术深度融入奥运的各项环节,实现了大规模的云上转播,超越传统卫星转播,为全球观众提供流畅、高清的观赛体验。其中,“子弹时间”回放技术在多个场馆的应用,让观众享受到了电影般的多角度精彩瞬间。此外,8K超高清直播、AI智能解说和通义APP等创新,极大地提升了赛事观赏性和互动性。能耗宝(Energy Expert)的部署则助力实现了赛事的可持续发展目标。巴黎奥运会的成功举办标志着体育赛事正式进入AI时代,开启了体育与科技融合的新篇章。
解密巴黎奥运会中的阿里云AI技术