每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群

简介: 每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群

【新智元导读】没有什么问题是一台AI计算机解决不了的,如果有,那就用16台!


明星芯片企业Cerebras带着它餐盘大小的芯片来了,这次有16个!

更大、更快、更好用

周一,Cerebras公布了其用于深度学习的Andromeda AI超级计算机。据称,该计算机在16位半精度下能提供超过1 ExaFLOP,相当于每秒100亿亿次运算的算力!

Andromeda是一个由16台Cerebras CS-2计算机连接起来的集群,拥有1350万个AI核心,远远超过全球超算TOP500冠军Frontier的870万个核心。

该计算机还采用了18,176个AMD Epyc中央处理单元的芯片。

Andromeda由Cerebras晶圆级引擎Wafer Scale Engine(WSE-2)提供核心算力。

处理器是由被称为晶圆的硅盘制成的。在芯片制造过程中,一块晶圆被分割成几十个长方形,然后每个长方形被变成一个单独的处理器。

但是,Cerebras另辟蹊径,没有将晶圆分割成几十个小处理器,而是将其变成一个拥有数万亿晶体管的大处理器。

WSE-2是有史以来最大的芯片,包含2.6万亿个晶体管,组成85万个内核,面积超过46225平方毫米。Andromeda超级计算的芯片拼起来,有16个餐盘那么大!

相比之下,英伟达最大的GPU只有540亿个晶体管,面积为815平方毫米。

用大芯片赚足眼球后,Cerebras打起了Andromeda的三大招牌。

首先,Andromeda运行AI任务的设置非常简单。在严格的数据并行模式下,Andromeda实现了CS-2简易的模型分配,以及从1到16个CS-2的单键扩展。

Cerebras表示,用户只需3天时间,就可以在不对代码做任何改动的前提下,组装完成16个CS-2,进行AI任务处理。

其次,它的编程很简单。Cerebras的编译器处理了所有的细节和善后工作,用户只需输入一行代码,指定在多少个CS-2上运行,然后就大功告成了。

Andromeda可由多个用户同时使用,这意味着该超算不仅可以供一个用户从事一项工作,还可以同时服务于16个不同的用户从事16项不同的工作,工作效率和灵活度瞬间拉满。

更重要的是,这个系统展示了近乎完美的线性可伸缩性。

「近乎完美」的可伸缩性

近几年,神经网络的规模一直在稳步增长。在过去的一年里,OpenAI的GPT-3自然语言处理程序,一度以1750亿参数成为世界上最大的神经网络,后来很快被谷歌的1.6万亿参数模型Switch Transformer超过。

如此庞大的模型会遇到算力瓶颈问题,系统需求已经远远超出了单个计算机系统的处理能力。单个GPU的内存约为16GB,而GPT-3等模型所需的内存往往高达几百TB。

像过去一样,单纯进行简单粗暴的算力扩展,已经难以满足需求。

因此,系统集群变得至关重要。而如何实现集群,是一个最关键的问题。要让每台机器都保持忙碌,否则系统的利用率就会下降。

Cerebras 正是为了解决这个问题。

与任何已知的基于GPU的集群不同,Andromeda在GPT级大型语言模型中展现了「近乎完美」的可伸缩性。在GPT-3、GPT-J和GPT-NeoX中,Andromeda的处理能力随CS-2数量的增加呈现了近乎完美的线性增长。

这意味着,在集群中每增加一台CS-2计算机,整体的训练时间会以近乎线性的趋势减少。

做到这一点,离不开芯片与存储、分解和集群技术的协同工作。

Weight Memory & MemoryX:实现极速扩展

MemoryX是一种内存扩展技术,它使模型参数能够存储在芯片外,并有效地流式传输到 CS-2,实现同在芯片上那样的性能。

这一架构灵活性极强,支持4TB到2.4PB的存储配置,2000亿到120万亿的参数大小。

而通过软件执行模式Weight Memory,可以将计算和参数存储分解,使规模和速度得以独立且灵活地扩展,同时解决了小型处理器集群存在的延迟和内存带宽问题。

最终,WSE 2可以提供高达 2.4 PB 的高性能内存,CS-2 可以支持具有多达 120 万亿个参数的模型。

Cerebras SwarmX:提供更大、更高效的集群

这是一种人工智能优化的高性能通信结构,可将 Cerebras的芯片内结构扩展到芯片外,从而扩展AI集群,而且使其性能实现线性扩展。

最终,SwarmX 可以将CS-2 系统从2个扩展到192 个,鉴于每个 CS-2 提供85万个 AI 优化内核,Cerebras 便可连接 1.63 亿个 AI 优化内核集群。

同时,Cerebras WSE-2基于细粒度数据流架构,其 85万个 AI 优化计算内核可以单独忽略零。

Cerebras 架构独有的数据流调度和巨大的内存带宽,使这种类型的细粒度处理能够加速所有形式的稀疏性。这些都是其他硬件加速器,包括GPU,根本无法做到的事情。

Cerebras表示,可以训练超过90%的稀疏性模型,达到最先进的精度。

目前,包括美国阿贡国家实验室、AMD和剑桥大学等多名用户已经使用了Andromeda超算系统,都对其近乎完美的线性可收缩性能力赞不绝口。

其中,与阿贡国家实验室合作的基于HPC的COVID-19研究还入选有「超算领域的诺贝尔奖」之称的戈登·贝尔奖。

拥有世界最大的芯片和协同技术,Cerebras能否挑战目前超算Top 1的Frontier?我们拭目以待。


相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
相关文章
|
机器学习/深度学习 人工智能 算法
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
从节点架构到网络架构,再到通信算法,阿里巴巴把自研的高性能AI集群技术细节写成了论文,并对外公布。
阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍
|
3月前
|
人工智能 自然语言处理 程序员
优刻得为智谱AI构建超千卡推理集群,让全球用户畅享大模型智能生活
在「智谱清言」的助力下,妈妈的小说创作焕发新生,她只需将自己的创意和构思输入给大模型,就可以生成自然生动的故事情节和对话;爸爸用大模型进行代码编程和调试,通过分析代码逻辑,大大减少了开发的繁琐流程,减轻了一大半的⼯作量;大模型也成为了小朋友学习上的得力助手,不仅能进行作业智能批改,还可以提供详实的解题思路,大幅提升了学习效率。
|
4月前
|
存储 人工智能 弹性计算
【Hello AI】集群极速部署工具FastGPU
FastGPU是一套阿里云推出的人工智能计算极速部署工具。您可以通过其提供的便捷的接口和自动工具,实现人工智能训练和推理任务在阿里云IaaS资源上的快速部署。本文主要分为产品介绍、组成模块、典型流程这几个部分进行讲解。
|
5月前
|
存储 人工智能 搜索推荐
AI PC元年会带火PC集群吗?云游戏迎来黄金时代。Stable Diffusion显存之选:12G及格,16G自由,24G上天
随着科技迅速发展,中国云游戏和PC集群在云计算和政策支持下蓬勃发展。PC集群作为经济高效的计算模型,在人工智能领域通过并行计算显著提升深度学习和神经网络训练速度,同时分布式计算模式为大数据处理提供有效手段,加速模型训练过程。
AI PC元年会带火PC集群吗?云游戏迎来黄金时代。Stable Diffusion显存之选:12G及格,16G自由,24G上天
|
机器学习/深度学习 人工智能 安全
一文读懂Stable Diffusion教程,搭载高性能PC集群,实现生成式AI应用
PC Farm、生成式AI和Stable Diffusion模型都是非常有用的工具和技术,可以帮助用户快速构建和管理计算机集群,生成高质量的数据和图像,提高模型的泛化能力和鲁棒性。
1144 0
|
机器学习/深度学习 人工智能 并行计算
全球最快AI超级计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图
一个计算机探索宇宙的史诗级时刻!近日,被誉为全球最快的人工智能工作负载超级计算机——Perlmutte宣布开启。这台新超级计算机以拥有6144个英伟达A100张量核心图形处理器,将负责拼接有史以来最大的可见宇宙3D地图。并且,它有望拨开物理学天空的乌云——暗能量。
221 0
全球最快AI超级计算机开动,每秒4百亿亿浮点运算!正拼接最大宇宙3D地图
|
机器学习/深度学习 人工智能 自动驾驶
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
176 0
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
|
机器学习/深度学习 人工智能 自动驾驶
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。
183 0
单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍
|
机器学习/深度学习 人工智能 自动驾驶
华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持
在 8 月华为最强 AI 芯片昇腾 910 正式发布之后,今天,华为在全联接大会上发布了全新的整体计算战略,并正式推出了基于最新 AI 芯片的服务器 Atlas 900。
255 0
华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持
|
机器学习/深度学习 人工智能 并行计算
光速执行AI运算,港科大双层「全光学」神经网络不要计算机也能做分类
完全通过光学,不要计算机也能构建个神经网络?港科大的研究团队提出了一种全光学神经网络,所有线性变换、激活函数通过光学模块就能实现。
217 0
光速执行AI运算,港科大双层「全光学」神经网络不要计算机也能做分类