阿里发布首颗量产AI「超大芯片」:高出兄弟公司新品四倍,上云就能用

简介: 「这是互联网公司的首颗『大芯片』」,达摩院院长张建锋为其写下注脚。所谓「大芯片」,是指单靠一颗含光 800 NPU,能够在一秒内处理 7.8 万张图片。

含光,上古三剑之首,「吾有三剑,惟子所择。一曰含光,视不可见,运之不知其所触,泯然无际,经物而物不觉。

继玄铁、无剑的刀光剑影之后,阿里的「含光」更多了几分道家的玄妙之意。

9 月 25 日机器之心消息,阿里杭州云栖大会现场,阿里首颗云端超大型 AI 推理芯片含光 800 正式发布。基于含光 800 的 AI 云服务也于当天正式上线,相比传统 GPU 算力,性价比提升 100%。


微信图片_20211202005605.jpg


所谓「玄妙」,在于这是一颗集阿里巴巴算法(Algorithm)、大数据(Big Data)、算力(Computing)、应用场景(Domain)、生态体系(Ecosystem)五大优势之大成的云端芯片。

「这不单纯是芯片团队的工作」,阿里平头哥首席科学家、阿里高级研究员元尊向机器之心说道,「达摩院提前做了很多算法调研为芯片集成提供深刻理解;城市大脑、拍立淘等团队积累的丰富数据为芯片加速测试和优化,以及应用场景的方案经验的深厚积累都为含光高效而稳健的落地提供了保障」。

基于阿里生态独有的 AI 技术与业务优势,平头哥团队将含光 800 从研发到成功流片的时间精准地控制在 10 个月内,几乎创下了半导体设计制造行业的记录。

目前,该颗芯片已经部署在阿里云平台,供阿里内部的多个视觉业务场景大规模使用,未来还将应用到医疗影像、自动驾驶等广阔场景。

此前,阿里已经推出高性能自主处理器 IP 玄铁和一站式芯片设计平台无剑,面向广大芯片主加速其芯片产业落地。

张建锋说:「在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。

今天,含光一出,为阿里云业务和算力竞争力带来质的提升——它是阿里真正意义上首颗完成量产以及部署运行的芯片,同时将依托于亚太第一的阿里云计算平台向全球用户直接输出其强大算力。

01 以一当十, 将推理性能推到极致


微信图片_20211202005610.jpg


在云栖大会上谈起朋克少年平头哥,显得格外亲切。

一年前的云栖大会现场,平头哥半导体有限公司在这里面世,它是阿里旗下一家独立的芯片企业,吸收了国内唯一具备 CPU 知识产权和量产经验的芯片公司中天微,与阿里的 AI 技术综合平台达摩院联系密切。

周岁之际,平头哥带来了首颗云端 AI 芯片含光 800,「这同时也是互联网公司的首颗『大芯片』」,达摩院院长张建锋为其写下注脚。

所谓「大芯片」,是指单靠一颗含光 800NPU,能够在一秒内处理 7.8 万张图片。

含光 800 主要用于云端视觉处理场景,性能打破了现有 AI 芯片记录。据阿里数据显示,性能及能效比全球第一,在芯片测试标准平台 ResNet-50 上的具体分数为:

性能 78563 IPS(Image Per Second),是第二名高 4 倍;

能效比 500 IPS/W,是第二名(150)3.3 倍。


微信图片_20211202005613.jpg


张建锋现场展示了该颗芯片和业界典型算力「怪兽」的对比,其中包括两款 AI 芯片、两款 GPU 芯片,但并未点名其芯片品牌和型号。不过,张建锋补充道,「这是我们的兄弟公司,前不久刚开发完发布会」。

对比英伟达官网 Tesla V100 计算卡的公开数据,针对 ResNet50 模型一秒能够处理图片(推理)的数量为 7830images/sec,这个数字相当于目前含光 800 的十分之一。


微信图片_20211202005616.png


在杭州城市大脑的业务实测中,1 颗含光 800 的算力相当于 10 颗 GPU。


微信图片_20211202005622.jpg


换句话说,阿里的含光 800 将云上的推理性能推到了极致。

作为一名后来者居上的非传统芯片挑战者,阿里平头哥团队除了充分发挥出硬件层面的深厚积淀,还针对配套的软件栈和开发工具做了巨大投入,以撼动英伟达在云上的强大生态。目前,阿里具备完全自主能力的包括自研的芯片架构、软件编译器、框架、工具链等。

在深度学习开发工具和支持方面,阿里从 2015 年起就开始打造人工智能学习平台 PAI,涵盖多种训练和计算加速工具,强调大规模分布式计算的能力优势,目前已经迭代到第三代。

针对针对广告、搜索、推荐等典型数据处理场景,阿里自研了新一代工业级分布式深度学习框架——XDL,主打高维稀疏数据的性能优化,为 AI 算力的软硬一体化战略落地提供了优异的先天条件。

与此同时,含光 800 针对 INT8 数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。

「相较于训练,目前推理才是云上更大的核心业务需求」。据平头哥算法负责人星瞳表示,无论是在线还是离线的业务需求都是基于推理来完成,比如常见的检测、分类、分割、识别等运算。

02 突破传统 ASIC 局限

含光定位于一款 ASIC 架构的 NPU 专用加速器,ASIC 意味着针对某种特定的需求而专门定制,NPU 则将方向瞄准深度学习领域的神经网络加速 (Natural Processing Unit)。

基于冯诺依曼结构的传统通用处理器,比如常见的 x86 CPU、GPU,它们采用分离的存储和运算处理单元设计,面向大量的深度神经网络计算任务时,需要大量读写运行操作,受限于带宽限制,效率较为低下。

ASIC 芯片能够特定场景和算法进行定制,意味着执行特定算法时能获得最高的效率和性能。


微信图片_20211202005626.jpg


以含光 800 为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

基于这一思路,市面上的神经网络加速芯片层出不穷,形成了百家争鸣的盛况。但我们同时也应用看到专用和定制的反面,常见的 ASIC 通常在场景的迁移性和算法通用性方面大打折扣,通常只会在十分明确的算法场景下表现优异。

将目光聚焦在阿里的含光 800,似乎走了一条不太寻常的 ASIC 之路。

它不仅实现了同时兼容海量的图像搜索、城市大脑领域的视频识别、智慧医疗领域的医疗影像识别、网页设计领域的图像生成等不同计算需求环境,还针对这些丰富的场景挖掘出了极大的计算优化潜能。

根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要 40 颗传统 GPU,延时为 300ms,使用含光 800 仅需 4 颗,延时降至 150ms。

拍立淘商品库每天新增 10 亿商品图片,使用传统 GPU 算力识别需要 1 小时,使用含光 800 后可缩减至 5 分钟。


微信图片_20211202005629.jpg


平头哥算法负责人星瞳向机器之心解释了背后的优化机制:

虽然上述业务看起来比较多样化,但在视觉领域的计算多由若干典型计算架构构成,上升到骨干网络上的差异性比较小,所以尽管定位于一款 ASIC 芯片仍强调一定的通用性,保证兼容常见的深度学习算法和框架,

与此同时,针对具体的行业应用,还需要阿里达摩院的算法人员针对不同场景进一步优化。星瞳向机器之心透露,这是含光 800 算力针对性提升的关键,比如套用风格迁移的思路,加速算法的移植和优化。

整体来看,这些应用和算法加速的基础主要脱胎于阿里数字经济体内部以及阿里云外部的业务实践,进一步凸显出阿里打造芯片生态的独特思路。

值得注意的是,平头哥用最短的时间完成了芯片的设计、流片整个过程,7 个月完成前端设计,之后仅了 3 个月就成功流片。

芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区,假如流片失败,就意味着硬件设计需要推倒重来,这比软件出 BUG 问题更加严重。一般芯片公司需要做两次(engineering sample、production sample)或多次才能流片成功。

而流片成功后也不代表就可以直接商用了,它还需要经过复杂的测试验证,在各项指标都符合实际场景需求后才到了真正的商用阶段。

需要说明的是,含光 800 已经完成了整个过程,应用于阿里巴巴集团内部各大场景,这背后主要得益于阿里软硬件的深厚积累,以及丰富的验证场景。

平头哥研发芯片并非从 0 开始,在阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀之上,含光 800 重构了芯片的软硬件技术栈。

含光 800 性能的突破得益于软硬件的协同创新:芯片架构设计采用稀疏、量化等推理加速技术,以及密集压缩的计算、存储、流水线技术,有效解决芯片性能瓶颈问题;该芯片还集成了达摩院算法,深度优化 CNN 网络及视觉 DNN 模型,提升视觉计算效率。

算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA 以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。

基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈。

这样的设计理念效果立竿见影,例如功耗是人工智能芯片行业通病,平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,把芯片功耗降到最低水平。

03 不「卖」芯片,「卖」什么

和绝大多数芯片商不同的是,平头哥的目的并非卖芯片,换句话说,含光 800 主要通过 AI 云服务提供算力,不会单独出售芯片产品。

含光 800 的算力也不仅仅满足阿里巴巴集团内部场景的需求,还会通过阿里云对外输出,帮助企业用更低的成本获取高性能算力,加速业务创新,例如,对于受限于算力瓶颈的企业而言,含光 800 可以更高效地运行更复杂、更先进的算法。

在人工智能场景中,含光 800 是异构计算很好地补充,通过阿里云可以为企业提供更多的选择,未来平头哥还会推出更多形态的人工智能芯片,在终端、云数据中心都会有更大规模的部署和应用。

随着含光 800 的发布,平头哥端云一体全栈芯片产品家族雏形已现,实现了芯片设计链路的全覆盖,涵盖处理器 IP 玄铁系列,一站式芯片设计平台无剑 SoC,以及 AI 芯片含光 800:

基础单元处理器 IP,C-Sky 系列、玄铁系列为 AIoT 终端芯片提供高性价比 IP;

一站式芯片设计平台,无剑 SoC 平台集成 CPU、GPU、NPU 等,降低芯片设计门槛

AI 芯片,含光 800 通过 AI 云服务为人工智能场景提供极致算力。

这三大产品系列将构建端云一体的芯片生态,为企业提供普惠算力。

未来,产品形态还会进一步完善,例如云上 AI 训练芯片和端上的 AI 推理芯片,目前平头哥还在研发用于阿里云神龙服务器的 SoC 专用芯片,以满足更多场景的算力需求。

在端侧,平头哥致力于做普惠芯片,无剑 SoC 平台和玄铁处理器 IP 来帮助企业降低芯片设计门槛;在云上,含光 800 通过阿里云 AI 云服务的形式让企业随时随地可以享受高性能计算服务。

平头哥副总裁孟建熠在接受机器之心采访时表示,平头哥后续将进一步深化和放大云端协同的优势,比如终端采用平头哥的 IoT 芯片意味着在阿里物联网系统 AliOS 下能够得到最优异的表现,同时更容易、更便捷接入阿里云生态和算力;相应地,阿里云上的超大推理算力也更容易赋能到各种搭载了 AliOS 系统的终端设备。

平头哥延续了母体阿里巴巴集团「让天下没有难做生意」的愿景,开辟了全新的商业模式(平头哥模式),致力于为企业提供普惠算力,目前已经拥有全栈芯片产品家族,涵盖终端处理器 IP、终端芯片设计平台 SoC、云端 AI 芯片。

依托于阿里经济体丰富的场景为研发人工智能芯片提供了绝佳平台,这是平头哥的天然优势。依托阿里巴巴集团丰富的应用场景,平头哥早期就针对场景做了大量优化,因此实现了性能上的突破。

在这次云栖大会现场,首批搭载平头哥玄铁处理器或基于平头哥无剑平台设计的芯片产品已经基本落地,分别来自业界七家芯片企业,包括清华背景的清微智能(Thinker)、云天励飞、炬芯、奉加微(通信芯片)、联盛德微、艾派克、博雅鸿图等客户)。

此外,平头哥正在打造完善的行业生态和开发者生态。

在云端,全球前三、亚太第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光 800 的极致算力。

含光 NPU 已经大规模应用于内部场景,未来企业可以在阿里云上获取其极致算力。端云一体芯片是平头哥的主要方向,终端玄铁处理器可以与云端含光芯片协同。

在端侧,平头哥已拥有成熟的生态体系,CK801、CK802、CK803、CK805、CK807、CK810、CK860 等 7 款自研嵌入式 CPU IP 核均已得到大规模量产的验证,授权客户超 100 家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域。

除此之外,基于 RISC-V 架构的玄铁处理器以及无剑 SoC 平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。

另一方面,平头哥还将成立芯片开放社区,进一步为芯片产业提供开放协作的平台。

04 平头哥的「RoadMap」

采访过程中,阿里方面并没有透露平头哥的芯片规划矩阵,但透过一些信息梳理,我们或许得以看见平头哥更远的未来。

目前,阿里已经完成了云端两大阵线上的初步布局,端上做芯片基础设施,云端为企业提供普惠算力。处理器是所有高端系统芯片都需要的产品,它是最核心的基础设施产品,AI 芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。

后续阿里还将进一步深化这两大产品线。据阿里平头哥首席科学家、阿里高级研究员元尊向机器之心表示,在推理芯片之外,阿里已经将训练芯片设在日程上。

而在终端,早在上个月的 HOTCHIPS 会议上,阿里巴巴就发布了新一代 AI 语音 FPGA 芯片技术--Ouroboros。这是业界首款专为语音合成算法设计的 AI FPGA 芯片结构,可将语音生成算法的计算效率提高 100 多倍。据悉,该款芯片将率先落地在阿里智能音箱天猫精灵上。

而在这两大产品线之外,阿里还将延伸出一条全新的面向云端的 SoC 产品矩阵,将用于新一代阿里云神龙服务器的核心组件 MOC 卡,推动云计算技术升级。

阿里云神龙服务器 (X-Dragon Cloud Server) 出自达摩院,是一种可水平弹性伸缩的高性能计算服务,融合了物理机与云服务器的各自优势,能实现超强、超稳的计算能力,并有自主研发的虚拟化 2.0 技术。

此外,平头哥还将继续开发操作系统,软硬件融合的算法,核心的 IP 等。把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给我们的芯片设计产品,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力。

芯片、AI 和云计算之间相互融合、协调发展是大势所趋,阿里巴巴坚持芯片、AI 和云计算三位一体、协同发展:人工智能算法逐渐集成到芯片,集成算法的专用芯片为云服务提供了更强的性能,而云计算本身则加速了人工智能应用的大规模落地。

过去十年,阿里巴巴的 AI 和云计算齐头并进,在这两大领域,已经跻身全球前列。

作为业界最大的人工智能应用者之一,阿里巴巴拥有丰富的应用场景,在此之上达摩院已建成完善的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近 400 篇顶级论文;阿里云稳居全球云计算厂商前三、亚太第一的位置,超过一半的中国 A 股上市公司和 80% 中国科技类企业在使用阿里云的服务。

平头哥则得到了达摩院和阿里云的软实力加持,例如基于达摩院的算法能力,打破了算法和硬件之间的鸿沟;基于阿里云飞天云平台的优势,快速形成了端云一体芯片生态,玄铁系列处理器以及无剑平台大幅降低终端芯片设计的门槛,含光 800 通过阿里云输出给全社会,让企业随时随地可以享受到极致算力。

总体来说,芯片是计算力的核心。计算力是所有互联网应用的基础。研发芯片可以降低阿里巴巴经济体整体计算的成本,还可以以云服务的方式交付,以更高的性能和更低的成本赋能更多的企业。



文为机器之心原创,转载请联系本公众号获得授权

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
20天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
62 12
|
17天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
26天前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
|
23天前
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
46 0
|
23天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
40 0
|
2月前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
2月前
|
消息中间件 人工智能 Cloud Native
|
2月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
2月前
|
人工智能 Ubuntu Linux
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
安装阿里图文融合AI - AnyText心路历程(安装失败告终,心痛!)
|
2月前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。
下一篇
DataWorks