【阅读原文】戳:“小芯片 大集成” 从软硬协同看Chiplet生态——ISCA 2022-HiPChips研讨会组织观察记
文:张伟丰
注:本文图片版权归属HiPChips Conference
近日,国际计算机架构顶会International Symposium on Computer Architecture(ISCA)2022在纽约举行。阿里云基础设施异构计算团队张伟丰博士、华盛顿大学Michael Taylor教授和开放计算基金会(Open Compute Project Foundation, OCP)Dharmesh Jani等专家在此次峰会上共同发起了“高性能Chiplet与互联架构国际研讨会”(International workshop on High Performance Chiplet and Interconnect Architectures,以下简称 HiPChips),旨在探讨小芯片Chiplet和互联技术对未来计算架构的影响,从而推动工业和学术界加速合作、共建Chiplet生态。
此次HiPChips也是国际上以“小芯片”为主题的研讨会首次登上计算机架构顶会的舞台,因而吸引了包括Google、Meta(Facebook)、Intel、AMD、Nvidia、苏黎世联邦理工(ETH Zurich)、伊利诺伊大学(UIUC)、加州大学洛杉矶(UCLA)、佐治亚理工(Georgia Tech)和印度理工(IIT Bombay) 等领域内顶尖行业专家和学者的参与,议题也广泛覆盖了chiplet架构、芯片设计、互联标准化等最前沿的研究和进展。
其中,来自ETH Zurich的Onur Mutlu教授、谷歌Cliff Young、AMD Sr. Fellow Raja Swaminathan /John Wuu、以及 Intel 副总裁 Bob Brennan分别做了主题演讲。
会议链接:https://www.iscaconf.org/isca2022/program/workshops.php
01 为什么推chiplet?
随着高性能计算、图形计算、人工智能等领域的爆发性增长,当前的计算架构早已无法满足指数级攀升的算力需求。然而计算技术本身却面临着更加严峻的挑战,包括日益趋缓的摩尔定律、越来越高的芯片制造成本、以及晶片尺寸的物理限制等。通过把wafer晶圆切分成颗粒度更细的小芯片,不仅可提升制造工艺收益率(降低芯片报废概率)、实现不同工艺芯片的混合封装(简化设计流程和降低成本),而且可以针对不同的计算要求实现更灵活的架构定制化和算力的大规模扩展。
↓↓一图看懂小芯片↓↓
然而,使能小芯片架构并不是免费的。除了各种封装和堆叠技术外,也要解决小芯片之间通讯的面积和功耗开销,以及如何让小芯片之间协同工作、集成验证和优化、建立稳定软硬件生态等操作层面的实际问题。
02 Chiplet 和互联架构
随着互联协议和集成技术的发展,以芯片上高密度互联基础设施和已知良片(KGD)为基础,晶圆级计算似乎正蓄势待发。
来自伊利诺伊大学的Dr. Kumar教授讲解了基于chiplet晶圆级别计算架构的最新研究成果,涵盖大计算架构、互联拓扑、散热、供电等关键技术,实现了容纳40个GPUs模块的超大处理器。相比多芯模块GPU架构,可以提升5倍以上性能和22倍EDP(能量延迟积)。
与工业界Cerebras和马斯克的Tesla Dojo相比,UIUC的研究支持更大容量的内存和更低的片间延迟,对异构小芯片架构也更友好。加州大学洛杉矶(UCLA)作为合作伙伴在芯片高密度集成和供电技术上做出了重要贡献。两所大学的研究成果为超大芯片的协同设计提供了新的视角。不过Kumar教授也坦承,晶圆级别计算在工艺和落地场景上还是有不少限制,2~3年之内很难有大规模生产的可能。
Intel介绍了光互联芯片(Optical Compute Interconnect, OCI)在高性能计算HPC和AI加速系统领域的优势,不仅大幅提升了数据传输带宽(1 Tbps per fiber)和通信距离(> 100m),而且能够较好的降低通讯能耗(3pJ/b,比PCIe6好了30%)和延迟(10ns)。基于OCI的互联技术为计算架构的可组合、可扩展、以及内存池化等场景设计带来巨大机会。
同时,Intel 另一主题演讲提到Chiplet时代所需要的一些关键技术,并展示了chiplet在Lakefield CPU (3D Foveros) 和HPC芯片(Ponte Vecchio)、multi-core uServer以及IPU/DPU 中的应用。
AMD的主题演讲中分享了AMD 在小芯片架构上的长征之路。其 Zen3 CPU利用小芯片扩展了L3 V-Cache,从32MB到(32MB+64MB),总体实现了15% 性能提升。L3 V-Cache也在 AMD第三代EPYC服务器和Ryzen 7 桌面CPU中得到应用。代表开放计算基金会(OCP)HPC工作组的Allan Cantle则从架构可持续性发展以及领域专用加速器DSA的角度,讨论如何利用封装外部的小芯片技术重新定义计算架构边界、从而实现可组合的高性能计算(HPC)架构。
小芯片技术促成了片上异构计算的可能性,因而给新颖的架构设计创造更大的空间。来自亚利桑那州立大学(ASU)的研究者提出了类似ARM big.little配置的存内计算架构 (IMC)。相对于GPU等加速器,该架构为 DNN 模型提升了10倍性能和~100倍的功耗效率。
03 Chiplet 架构设计
显然,除了架构和互联技术,chiplet这个方向也带动了芯片工艺设计和封装技术中多个子领域的发展。本次会议的分享内容也涵盖了:
1)EDA自动化工具支撑多个互联协议(BoW, OHBI, Ultra-Link, UCIe);
2)改善互联接口布线密度、减少层间cross- talk、增加可扩展并行性;
3)先进封装技术的小芯片成本模型;
4)异构集成的质量和可靠性分析等前沿研究。
佐治亚理工(Georgia Tech)研究者带来了5.5D Glass Interposer集成技术,即2.5D interposer+3D flipped/embedded chiplet stack。相比于传统的3D集成,5.5D集成实现了更低价的解决方案和更好的PPA。
来自加州大学·伯克利的初创公司(JITX)通过Chisel 语言和软件定义方案,实现了小芯片、封装、和板卡的系统设计和集成优化工具。其系统设计中间表示(ESIR)和chiplet编译器,让小芯片系统的自动验证和优化更加高效和便捷。
04 Chiplet 标准化和软硬件生态
Chiplet的健康发展需要小芯片互操作 (inter-operability)标准和规范化。这无论对大厂还是小厂来说都是有益的,不仅可发挥百家之长,也能让小芯片用户承担得起成本。历史上,美国DARPA和日本MITI政府性部门通过标准和规范都曾大大加快了先进技术的发展。
谷歌在《Universal Chiplet Solution》主题演讲中提出了小芯片互联的数据面(物理层、链接层和协议层)和控制面(管理、安全、测试等)开源标准。同时OCP的开放领域专用芯片架构工作组(ODSA)也致力于解决领域专用架构和芯片互联私家协议之间的互操作,使能不同厂商的小芯片设计和集成并帮助建立统一市场。
ODSA的接口协议(BOW)定义了开放式PHY规范来支持D2D并行接口,对现有封装和先进的封装技术可以达到1T和5T的传输速度。目前已经有7家公司支持BOW的IP,有超过4家公司正在开发基于BOW的产品。ODSA也通过组织会员的共同努力,开始了BOW测试芯片的流片和原型系统。除了BOW接口协议外,最新的UCIe互联工业组织自成立以后立即呈现众星捧月、蒸蒸日上之势。ODSA在2022年的一个目标就是和UCIe合作,形成互补关系。
在软件生态层面,阿里云分享了震旦异构计算开放平台(HALO/ODLA)。为了使能片上异构的多处理器并行计算,需要更加轻量级的计算框架。同时针对片上互联接近于零的通讯延迟,计算框架也需要研发有别于传统优化的新颖策略。震旦因其可裁剪可扩展的轻量级接口、极简的内存足迹、和内禀的异构并行支持,非常适宜作为小芯片加速系统的软硬协同计算平台。震旦平台也获得了包括Intel、UIUC等研究者的认可。
为了追求数据中心的可持续发展,Meta(Facebook) 研究者提出了基于chiplet的计算架构和碳足迹评估模型。我也和该项目负责人探讨了阿里巴巴和Meta未来在碳中和领域合作的可能性。
05 结语
HiPChips小芯片研讨会在ISCA-2022上实现了一个非常重要的里程碑,也得到了广大生态伙伴的积极响应。此次会议的目的之一就是希望通过理解小芯片系统的关键技术挑战和机遇,从而推动芯片领域相关产业链生态伙伴共同构建统一的生态系统。
通过与会者的研究、实践和分享帮助建立一个较为清晰的技术大图,明确当前小芯片的发展状态和未来的技术重心,同时也为工业和学术界的顶尖研究人员和专家提供一个密切合作的平台。
基于小芯片的计算架构正在演进成为一个计算架构发展的大趋势,我们相信它将为阿里云数据中心的未来计算技术在性能、功耗、可扩展性、可持续性等诸多层面带来巨大优势。本届研讨会也再次呈现了阿里云在AI软硬件生态领域的领导力和对社区的积极贡献,我们相信它也会对阿里云在相关生态领域的合作产生更加深远的品牌影响力。未来,阿里云将继续深化同计算技术社区的合作,共同探索未来AI 软硬协同设计的技术方向。
作者介绍:张伟丰博士,阿里巴巴集团研究员,现任阿里云基础设施事业部异构计算负责人,负责阿里云AI异构硬件加速、软硬协同设计、AI编译、和大规模异构资源池化加速等技术产品研发工作。张伟丰博士毕业于美国加州大学·圣地亚哥(UCSD)计算机专业,并在计算机架构和AI领域发表过多篇顶会和顶级期刊论文(ISCA、HPCA、PPoPP、AAAI、ICLR 、FPGA、PACT、CGO、IEEE TC等)。曾作为加州大学·圣地亚哥的兼职教授,负责制作和讲授高年级本科生《编译器构建》课程。
伟丰代表阿里巴巴担任开放计算基金会(OCP)软硬协同设计工作组(AI Co-design workgroup)技术主席,负责开放计算系统(领域专用加速架构ODSA、小芯片互联协议标准BoW/OHBI、以及用户场景等)生态对接和标准化支持。同时,伟丰也代表阿里巴巴任权威AI基准测试组织MLCommons董事会成员,屡次带领团队获得MLperf 推理性能榜单多个领域第一的好成绩。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
欢迎关注 “阿里云基础设施”同名微信、微博、知乎
获取关于我们的更多信息~