全球最快AI超级计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图

简介: 一个计算机探索宇宙的史诗级时刻!近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。并且,它有望拨开物理学天空的乌云——暗能量。

宇宙是在不断膨胀的吗?是的!而令宇宙不断膨胀的「罪魁祸首」就是暗能量

作为是宇宙中最神秘的物质,它看不见摸不着,为了捕捉它,人类在地球上建立了许多相关实验,但都成效甚微。

1.gif

但如今,一台拥有强大AI性能的超级计算机,或许能够助我们一臂之力。

近日,英伟达和美国国家能源研究科学计算中心(NERSC)打开了一个「开关」—— Perlmutte,该计算机被称为世界上用于人工智能工作负载的最快的超级计算机。

2.jpg

这台新的超级计算机以天体物理学家索尔-珀尔马特(Saul Perlmutter)的名字命名,拥有6144个英伟达A100 Tensor Core GPU,将负责拼接有史以来最大的可见宇宙3D地图

不仅如此,Perlmutter 还将对「宇宙摄像机」暗能量光谱仪(DESI)的数据进行处理,这是一种可以在一次曝光中捕获多达 5,000 个星系的宇宙相机。

处理DESI巨量数据,绘制最大的可见宇宙3D地图


那么,宇宙的3D地图该如何拼凑呢?

在不久前的5 月 17 日,DESI先行启动,开始了为期五年的捕捉数据之旅。在此前的四个月试运行期间,DESI已经捕获了 400 万个星系的光谱,这超过了以往所有光谱调查的总和。

3.jpg而Perlmutter要做的,就是对DESI的数据进行汇总处理。

根据官网的介绍, Perlmutter 的 GPU 在一个晚上捕获数十次曝光。在之前的系统上,准备一年的数据以供发布可能需要数周或数月的时间,但 Perlmutter 将能够在短短几天内完成任务。

「我对我们在准备工作中在 GPU 上获得的 20 倍加速感到非常满意。」NERSC 的数据架构师 Rollin Thomas 说,他正在帮助研究人员为Perlmutter准备代码。

Rollin Thomas难掩对Perlmutter性能的自信,因为Perlmutter是世界上最大的 A100 驱动系统,有超过 20 个应用程序正准备成为首批搭载 6,159 个NVIDIA A100 Tensor Core GPU 的应用程序,在NERSC正式投入使用后,Perlmutter将为 7,000 多名研究人员提供近 4 exaflops 的 AI 性能。


4.jpg

暗能量主要是通过 2011 年诺贝尔奖获得者 Saul Perlmutter 的工作发现的。

5.jpg


在物理宇宙学中,暗能量是一种充溢空间的、增加宇宙膨胀速度的难以察觉的能量形式。暗能量假说是当今对宇宙加速膨胀的观测结果的解释中最为流行的一种。在宇宙标准模型中,暗能量占据宇宙68.3%的质能

作为某种作用于时空结构本身的能量,暗能量是种均匀的负压力,会导致时空结构膨胀。1998年,高红移超新星搜索队观测组发表了Ia型超新星的观测数据,显示宇宙在加速膨胀。随之,1999年,超新星宇宙学计划证实了该结果。该项工作于2011年获得诺贝尔物理学奖。

但遗憾的是,目前我们对它的研究仍然不够确切,DESI 的地图为我们带来了揭示暗能量奥秘的的新希望。

超级计算机融合 AI、HPC

毫无疑问,Perlmutter的作用将是无限的,除了拼凑宇宙的 3D 地图,还能帮助探索绿色能源的亚原子相互作用等等。

NERSC的应用性能专家Brandon Cook说:「过去不可能对像电池界面这样的大系统进行完全的原子模拟,但现在科学家们计划用Perlmutter来做这件事。」

我们知道,传统的超级计算机几乎无法处理几纳秒内生成几个原子模拟所需的数学运算,无法使用 Quantum Espresso 等程序。但通过将其高度精确的模拟与机器学习相结合,科学家可以在更长的时间内研究更多的原子。6.jpg


这也是英伟达 A100 中 Tensor Core 发挥其独特作用的地方。它们加速了用于模拟的双精度浮点数学运算和深度学习所需的混合精度计算。

Perlmutter 基于包括 Slingshot 互连的 HPE Cray Shasta 平台,这是一个具有 GPU 加速节点和仅 CPU 节点的异构系统。该系统分两个阶段进行安装——最近揭幕的是第一阶段,其中包括系统的 GPU 加速节点和暂存文件系统;第 2 阶段将在 2021 年晚些时候添加仅使用 CPU 的节点。

英伟达高级产品营销经理 Dion Harris 在今天发布的博客中表示:「这使 Perlmutter 成为地球上在 16 位和 32 位混合精度数学 AI 使用中速度最快的系统。而且是目前为止,今年晚些时候在劳伦斯伯克利国家实验室的系统的第二阶段或许更强。」

Perlmutter 的 A100 GPU 采用 Nvidia Tensor Core 技术和直接液体冷却。另外,它也是 NERSC 的第一台具有全闪存暂存文件系统的超级计算机。据 NERSC 称,35 PB 的 Lustre 文件系统将以超过 5 TB/秒的速度移动数据,使其成为同类中最快的存储系统。

Perlmutter 安装的第一阶段由 12 个 GPU 加速机柜组成,可容纳 1,500 多个节点。今年晚些时候的第二阶段将增加 12 个 CPU 机柜,超过 3,000 个节点。Phase 1 的每个 GPU 加速节点都有四个基于 NVIDIA Ampere GPU 架构的 A100 Tensor Core GPU 以及 256GB 的内存。每个 Phase 1 节点还有一个 AMD「Milan」 CPU。第一阶段系统还包括非计算节点 (NCN)、20 个用户访问节点(NCN-UAN – 登录节点)和服务节点。据 NERSC 称,一些 NCN-UAN 可用于部署容器化用户环境,使用 Kubernetes 进行编排。

7.jpg

第一阶段机柜没有连接门,直接液体冷却系统的蓝色和红色线条

Phase 2 的每个 CPU 节点都将有两个 AMD Milan CPU,每个节点具有 512GB 的内存。Phase 2 系统还增加了 20 个登录节点和 4 个大内存节点。

8.jpg支持多种编程环境,用计算极限探索宇宙极限


除了 CCE、GNU 和 LLVM 编译器外,Perlmutter 编程环境还将采用 NVDIA HPC SDK(软件开发套件),以支持多种并行编程模型,例如 MPI、OpenMP、CUDA 和用于 C、C++ 和 Fortran 代码的 OpenACC。
虽然人类用肉身探索宇宙的能力有限,但计算机没有这个障碍。

例如去年10月份,来自夏威夷大学马诺阿分校天文研究所的一组天文学家就在AI神经网络的帮助下,创造了迄今为止最全面的「天文学成像目录」,包括恒星、星系和类星体等。


9.jpg

该系统还测定了与星系的距离,最多只有3% 的误差。根据夏威夷大学的说法,最终的成果是「世界上最大的恒星、星系和类星体三维成像目录」

甚至,有来自微软的物理学家用80页论文证明「模拟矩阵」:宇宙是个自学成才的计算机。

10.jpg

进化定律的自学成才系统(a self-learning system of evolutionary laws)

根据作者的观点,宇宙也演化出了类似深度学习框架的自发系统。

我们知道,深度学习框架就是一套积木,各个组件就是某个模型或算法的一部分,你可以自己设计积木的堆叠。

因此,我们是否可以想象,宇宙演化出法则的操作矩阵架构,其本身是从一个自动教学系统演化而来的,该系统产生于最可能的最小初始条件?

论文中,作者描述了几个模型,这些模型均实现了「自导自演」:


11.jpg

有7,088个节点和7,304条边的图,由抽样可能的未来构成

生活中,物理定律的得出靠的是我们的观察,所以原始物理定律将极其简单,但经过代代更迭,定律有了自我延续并具有学习和发展的能力。

也许,宇宙不是从大爆炸开始的,而仅仅是粒子之间的简单相互作用。

文章围绕受限玻尔兹曼机(restricted Boltzmann machine, RBM)讨论。

受限玻尔兹曼机由Hinton等人提出,是一种生成式随机神经网络。这个概念非常抽象,是一种类似物理学的机器学习模型。然而,受限玻尔兹曼机是最简单的一类深度神经网络结构,

该架构由两层神经元组成。一个是可见层(绿色),一个是隐藏层(蓝色)。

12.jpg了解宇宙未知的一面,一直是天文学家努力的方向。有了AI这个「队友」,我们会不会加速通向探秘宇宙的星辰大海呢?


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
7月前
|
机器学习/深度学习 人工智能 PyTorch
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
1137 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
|
3月前
|
数据采集 人工智能 定位技术
分享一个开源的MCP工具使用的AI Agent 支持常用的AI搜索/地图/金融/浏览器等工具
介绍一个开源可用的 MCP Tool Use 通用工具使用的 AI Agent (GitHub: https://github.com/AI-Agent-Hub/mcp-marketplace ,Web App https://agent.deepnlp.org/agent/mcp_tool_use,支持大模型从Open MCP Marketplace (http://deepnlp.org/store/ai-agent/mcp-server) 的1w+ 的 MCP Server的描述和 Tool Schema 里面,根据用户问题 query 和 工具 Tool描述的 相关性,选择出来可以满足
|
8月前
|
机器学习/深度学习 人工智能 算法
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
507 0
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
|
8月前
|
人工智能 并行计算 PyTorch
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
TripoSR是由Stability AI和VAST联合推出的开源3D生成模型,能在0.5秒内从单张2D图像快速生成高质量3D模型,支持游戏开发、影视制作等多领域应用。
457 13
TripoSR:开源3D生成闪电战!单图0.5秒建模,Stability AI颠覆设计流程
|
7月前
|
人工智能 文字识别 自动驾驶
突破自动驾驶"交规困境":高德&西交发布交规+高精地图基准MapDR,车道级交通规则在线理解,让AI更懂交规!
作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。
263 2
|
8月前
|
存储 人工智能 固态存储
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
1627 8
|
9月前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
767 9
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
|
9月前
|
数据采集 机器学习/深度学习 人工智能
Sitcom-Crafter:动画师失业警告!AI黑科技自动生成3D角色动作,剧情脚本秒变动画
Sitcom-Crafter 是一款基于剧情驱动的 3D 动作生成系统,通过多模块协同工作,支持人类行走、场景交互和多人交互,适用于动画、游戏及虚拟现实等领域。
542 4
|
11月前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
491 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
机器学习/深度学习 存储 人工智能
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
【9月更文挑战第1天】AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出