Facebook发布三套AI硬件系统,并顺手宣布将其开源

简介: 巨头的胸怀
TB1geFle_Zmx1VjSZFGXXax2XXa.gif

雷锋网消息,昨日,Facebook在其代码官网code.fb.com上发布消息,发布了其用于AI训练的下一代硬件平台Zion、针对AI推理的新定制芯片设计Kings Canyon以及用于视频转码的Mount Shasta。

消息称,Facebook的基础架构每个月都在为其整个应用和服务系统上的超过27亿人提供服务。工程师们设计并创建了高效的系统来扩展这一基础设施,但是随着工作负载的增长,只靠通用处理器已经无法满足这些系统的需求。

为基础架构创建高效的解决方案需要通过协同设计工作创建的工作负载优化硬件。为此,Facebook一直与合作伙伴共同开发针对AI推理、AI训练和视频转码的解决方案。晶体管增长的速度已大大放缓,这就需要开发专门的加速器和整体系统级的解决方案来提高性能、功率和效率。

AI硬件

整个Facebook的基础架构都使用了AI工作负载,这让其服务更具相关性,并改善用户服务时的体验。帮助人们进行日常互动,并为其提供独特的个性化服务。通过大规模部署AI模型,Facebook每天可以提供200万亿次推测以及超过60亿次语言翻译。Facebook使用超过35亿张公开图像来构建和训练其AI模型,让它们更好的识别和标记内容。

Facebook上的大部分AI流程均通过FBLeaner平台进行管理,该平台包含处理各部分问题的工具,如功能存储、培训工作流管理以及推理引擎。通过与开放计算项目(OCP,Open Compute Project)发布的Facebook设计硬件配合使用,使其能高效的大规模部署模型。从一个稳定的基础开始,Facebook专注于创建与供应商无关的统一硬件设计,并继续坚持分解设计原则以实现工作效率最大化,最终推出了用于工作负载训练和推理的下一代硬件。

AI训练系统Zion

Zion是Facebook的下一代大存储统一训练平台,设计上能够高效处理包括CNN、LSTM和SparseNN在内的一系列神经网络。Zion平台能够为关键工作负载提供高容量高带宽的存储、灵活且高速的互连,以及强大的计算能力。

Zion采用了Facebook全新的OAM模块(OCP Accelerator Module),AMD、Haban、GraphCore和NVIDIA等Facebook合作伙伴可以在OCP通用规范上开发自己的解决方案。Zion的体系结构支持使用架顶式交换机从每个单独的平台扩展到单个机架中的多个服务器。随着Facebook AI训练的规模和复杂性不断增长,Zion平台也可以随之扩展。

Zion系统分为三个部分:

8插槽服务器

8加速器平台

OCP加速器模块

TB1k8JLMbvpK1RjSZPiXXbmwXXa.jpg TB1bE0MMkvoK1RjSZPfXXXPKFXa.gif

Zion将系统的内存、计算和网络密集型组件解耦,允许每个组件独立扩展。系统为嵌入SparseNN表等内存容量密集型组件提供了8x NUMA CPU接口和大容量DDR内存池。而对CNN或者SparseNN密集部分这样的内存带宽密集型和计算密集型工作负载,每个CPU接口都连接了OCP加速模块。

Zion系统有两个高速结构:连接所有CPU的连贯结构和连接所有加速器的结构。鉴于加速器存储带宽高但存储容量低,Facebook希望通过对模型进行分区来有效地使用可用的聚合内存容量,使得更频繁访问的数据驻留在加速器上,而访问频率较低的数据驻留在带CPU的DDR内存。所有CPU和加速器之间的计算和通信都是平衡的,并且通过高速和低速相连有效地进行。

通过Kings Canyon执行推理

在训练完模型之后,就需要将其部署到生产环境中,从而处理AI流程的数据,并响应用户的请求,这就是所谓的推理。推理的工作负载正急剧增加,这反映了训练工作的大量增加,目前使用的标准CPU服务器已无法很好的扩展规模以满足需求。

Facebook正与Esperanto、Intel、Marvell和Qualcomm等多个合作伙伴合作,开发可在基础架构上部署和扩展的推理ASIC芯片。这些芯片将为工作负载提供INT8半精度的运算,从而获得理想的性能,同时也支持FP16单精度的运算,从而实现更高的精度。

整个推理服务器解决方案分为四个不同的部分,它们利用了已经发布到OCP的现有构建块。利用现有组件可以加快开发进度,并通过通用性降低风险。该设计的四个主要组成部分为:

Kings Canyon推理M.2模块

Twin Lakes单插槽(single-socket)服务器

Glacier Point v2载卡(carrier card)

Yosemite v2机架

TB1.SXOMhTpK1RjSZFKXXa2wXXa.jpg TB1bE0eMmzqK1RjSZPcXXbTepXa.jpg

在系统级别,每个服务器均由M.2 Kings Canyon加速器和连接到Twin Lakes服务器的Glacier Point v2载卡组成。将两组组件安装到更新的Yosemite v2机架中,并通过多主机NIC连接到架顶式交换机。更新后的Yosemite sled是目前Yosemite v2 sled的迭代升级,它将Twin Lakes主机的其他PCI-E通道连接到NIC,以获得更高的网络带宽。每个Kings Canyon模块都包含ASIC、相关内存和其它支持组件,其中CPU主机通过PCI-E通道与加速器模块通信。Glacier Point v2包括一个集成的PCI-E交换机,允许服务器同时访问所有模块。

深度学习模型是储存密集型负载,如SparseNN模型具有非常大的嵌入表征表,它会占用好几GB的存储空间,并且还可能会持续增长。这样的大模型可能不适合加载到单独设备的内存中,不论是CPU还是加速器都不行,这就要求在多个设备内存上进行模型分割(model partitioning)。当数据位于另一个设备的内存中时,分割将产生很多通信成本,好的分割算法会应用捕获局部的概念,从而降低通信成本。

在进行合适的模型分割后,就可以运行如SparseNN模型这样大规模的深度学习模型。如果单节点的内存能力不足以支持给定的模型,可以在两个节点之间进一步分割模型,从而增加模型可用的内存量。这两个节点可以通过多主机NIC连接,并支持高速信息处理。这将增加整体的通信成本,可以利用跨多个嵌入表存在访问差异的特性,相应地对表进行排序而降低通信延迟。

神经网络硬件加速器编译器

ASIC不运行通用代码,它们需要专门的编译器将图形转换为可以在这些加速器上执行的指令。Glow编译器的目标是将供应商的特定硬件从更高级的软件堆栈中抽象出来,使基础设施不受供应商限制。它接受来自PyTorch 1.0等框架的计算图,并为这些机器学习加速器生成高度优化的代码。

TB1ejVNMmzqK1RjSZFjXXblCFXa.jpg

使用Mount Shasta进行视频转码

自2016年以来,Facebook Live直播的平均数量每年翻一番。自2018年8月在全球推出以来,Facebook Watch的月浏览量已经超过4亿,每天有7500万人使用。为了优化所有这些视频,使其能适应多种网络环境,Facebook划分了多种不同分辨率和比特率的输出质量,这个过程称为视频转码。

完成转码所需要的计算是高度密集型的,通用处理器的效率已无法满足日益增长的视频需要。为了走在需求的前面,Facebook与博通和芯原微电子合作,设计了针对转码工作负载进行优化的定制ASIC。

视频转码流程被分解为许多不同的步骤,为了提高效率,Facebook与供应商为转码流程的每个阶段均创建了定制ASIC模块。专用硬件来完成这些工作负载可以使该过程更加高效,并可支持实时4K 60fps流媒体等新功能。单个视频编解码器是标准化的,且不会经常修改,因此在这种情况下,定制芯片缺乏灵活性的特征并不是一个显著的缺点。

视频转码的第一个阶段称为解码,在解码过程中,上传的文件被解压,以获得由一系列图像表示的原始视频数据。随后对这些未压缩的图像进行操作,以更改它们的分辨率,而后再次使用优化设置进行编码,将它们重新压缩到视频流中,并将输出视频与原始视频进行比较,计算质量指标。

所有的视频都采取这种做法,以确保所用的编码设置可以输出高质量的视频。视频编码和解码使用的标准称为视频编码方式,H.264、VP9和AV1都是目前使用的主流编码协议。

在ASIC上,除了每个软件算法都被芯片内的专用模块所取代外,其他步骤都是相同的,Facebook希望视频加速器可支持多种分辨率和多种编码格式,并实现比目前服务器高出许多倍效率,目标是10W功耗内至少处理2个4K 60fps的并行输入流。

视频转码ASIC通常有以下主要逻辑块:

解码器:接收上传的视频,输出解压缩的原始视频流

缩放器(Scaler):更改视频分辨率

编码器:输出压缩(编码)视频

质量检测:计算编码后的视频质量

PHY:芯片与外界的接口,连接到服务器的PCI-E和内存通道

控制器:运行固件并协调转码流程的通用块

TB1gPdYMkvoK1RjSZFwXXciCFXa.jpg

与推理一样,Facebook利用现有的OCP构建块在数据中心内部署这些视频转码ASIC。加速器将安装在集成了散热器的M.2模块上,这种常见的电气外形在不同硬件平台上均可以通用。模块被安装在Glacier Point v2(GPv2)载卡上,该载卡具有和Twin Lakes服务器一样的物理外形,可容纳多个M.2模块,可适配 Yosemite v2机架,并在其中与Twin Lakes服务器配对。

由于视频转码ASIC要求功耗低且体积小,因此Facebook希望通过将尽可能多的芯片与单个服务器相连接来节约成本。高密度的GPv2可实现这一目标,同时还可提供足够的冷却能力以承受数据中心的工作温度。

完成软件集成工作后,Facebook可将视频转码工作负载平衡分布到不同数据中心位置的异构硬件上。为了在与各种机器学习和视频空间供应商的合作过程中扩大规模,他们还努力确保软件以开放的形式开发,并推广和采用通用的界面和框架。

Facebook在文中表示,公司将迎来激动人心的未来,希望Zion、Kings Canyon和Mount Shasta能购分别解决在AI训练、AI推理和视频转码方面不断增长的工作量。Facebook将通过OCP公开提供所有设计和规格,欢迎其他公司的加入以加速基础架构建设的进程,并通过硬件和软件协同设计继续努力改进这些系统。

雷锋网雷锋网(公众号:雷锋网)

原文链接:Accelerating Facebook's infrastructure with application-specific hardware

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
44 6
|
19天前
|
机器学习/深度学习 数据采集 人工智能
AI赋能教育:深度学习在个性化学习系统中的应用
【10月更文挑战第26天】随着人工智能的发展,深度学习技术正逐步应用于教育领域,特别是个性化学习系统中。通过分析学生的学习数据,深度学习模型能够精准预测学生的学习表现,并为其推荐合适的学习资源和规划学习路径,从而提供更加高效、有趣和个性化的学习体验。
75 9
|
18天前
|
传感器 人工智能 机器人
|
28天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
11天前
|
人工智能 搜索推荐 机器人
AI+硬件最新资讯合集(2024-11-11第3期)
近期出现让大模型具备控制电脑和手机能力的智能体,掀起 “Computer Use Agents” 热潮。
|
16天前
|
存储 人工智能 SEO
全开源免费AI网址导航网站源码
Aigotools 可以帮助用户快速创建和管理导航站点,内置站点管理和自动收录功能,同时提供国际化、SEO、多种图片存储方案。让用户可以快速部署上线自己的导航站。
35 1
|
18天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在医疗领域的革命:智能诊断系统的未来
在科技日新月异的今天,人工智能(AI)技术正逐渐渗透到我们生活的每一个角落,其中医疗领域尤为显著。本文将探讨AI在医疗诊断中的应用及其带来的变革,重点介绍智能诊断系统的发展现状与未来趋势。通过深入浅出的方式,我们将揭示AI如何改变传统医疗模式,提高诊断效率和准确性,最终造福广大患者。
|
23天前
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
162 6
|
22天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
48 1
|
22天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
52 1