单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键

简介: 单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键

当单芯片处理器已达到极限,苹果和英伟达相继发布的芯片证明多芯片封装或许才是未来发展方向,但互连技术仍是一大难题和巨头角逐的主战场。


3 月 10 日,苹果在 2022 年春季发布会上 M1 Max 芯片的升级版 ——M1 Ultra,创新性地采用了封装架构 UltraFusion,将两个 M1 Max 芯片的管芯相连,制造出了具有前所未有性能和功能的片上系统(SoC)。


3 月 23 日,英伟达在 GTC 2022 大会上发布了类似的新闻。黄仁勋宣布推出首款面向 AI 基础设施和高性能计算的数据中心专属 CPU,其中新的 Grace Hopper 可以在同一块主板上两块并联,形成了一个 144 核的 Grace CPU 超级芯片,内存带宽为 1TB/s。


两家公司的芯片具有不同的目标市场。苹果瞄准消费者和专业工作站市场,而英伟达力图在高性能计算市场掀起风云。然而,目标的不同只会凸显快速结束单芯片设计时代面临的广泛挑战。


图源:top10.digital


芯片巨头纷纷入场


多芯片设计不是什么新概念,但直到最近五年才越来越受青睐。AMD、苹果、英特尔和英伟达等芯片巨头都不同程度地涉足其中。


AMD 通过自身的 EPYC 和 RYZEN 处理器在小芯片(chiplet)设计领域展开探索。英特尔在 2021 年架构日活动上发布了下一代英特尔至强可扩展处理器 Sapphire Rapids,这款面向服务器市场的架构使用小芯片「tiles」构建而成。


现在,苹果和英伟达也加入了多芯片设计的行列,尽管面向的目标市场截然不同。应该看到,向多芯片设计的转变是由现代芯片制造中的挑战所驱动的。晶体管小型化的速度已经变慢,但前沿设计中晶体管数量的增长仍未见放缓的迹象。


以苹果 M1 Ultra 芯片为例,它的晶体管数量为 1140 亿,是个人计算机芯片中有史以来最多的,为 M1 的 7 倍。单个 M1 Max 的芯片面积为 432 平方毫米,由此推知,M1 Ultra 的面积约为 860 平方毫米(官方数字未知)。


M1 Ultra 示意图。


英伟达 Grace CPU 的晶体管数量处于保密状态,但与它一起发布的 Hopper H100 GPU 拥有 800 亿个晶体管,20 块即可承载全球流量。2019 年,AMD 发布的 64 核 EYPC Rome 处理器拥有 395 亿个晶体管。


英伟达 Grace CPU 超级芯片。


市场研究公司 Counterpoint Research 的研究分析师 Akshara Bassi 表示,「随着芯片面积变得越来越大以及晶圆成品率问题越来越重要,多芯片模块封装设计能够实现比单芯片设计更佳的功耗和性能表现。」


目前,除了致力于造出单个完整硅晶圆的 AI 芯片创业公司 Cerebras 之外,芯片行业似乎达成了一致意见,即单芯片设计变得越来越「得不偿失」。


2021 年 4 月,Cerebras 发布了 2.6 万亿晶体管、比 ipad 还大的巨无霸芯片 WSE 2


此外,行业转向小芯片与芯片制造商的支持是同步进行的。2020 年 8 月,全球最大芯片代工厂台积电推出了 3DFabric 先进封装技术系列,包含了前端 3D 硅堆栈和后端封装技术。


AMD 在其 EPYC 和 RYZEN 处理器设计中使用了属于 3DFabric 的技术,并且几乎可以肯定苹果 M1 Ultra 芯片也使用了台积电相关封装技术(虽然苹果尚未给予确认,但 M1 Ultra 是由台积电制造的)。


其他芯片巨头如英特尔,它有自己的封装技术,如 EMIB 和 Foveros。尽管最开始意在自己使用,但随着英特尔代工服务的开展,该公司的芯片制造技术正变得与更广泛的行业息息相关。


多芯片设计的前景如何?


另一家市场研究公司 Hyperion Research 的一位高级分析师 Mark Nossokoff 认为,「围绕基础半导体设计、制造和封装的生态已经发展到了能够支持『设计节点经济可靠生成小芯片解决方案』的程度。无缝集成多样化小芯片功能的软件设计工具也已经成熟到可以优化目标解决方案的性能了。」


小芯片将继续存在,但就目前而言,该领域是一个孤岛。AMD、苹果、英特尔和英伟达正在将自研的互连设计方案应用于特定的封装技术中。


今年 3 月 2 日,英特尔、AMD、Arm、高通、台积电、三星、日月光、谷歌云、Meta、微软等十大巨头宣布成立 Chiplet 标准联盟,推出了通用小芯片互连标准(Universal Chiplet Interconnection Express, UCIe),希望将行业聚合起来。该标准提供了一个面针对成本效益性能的「标准」2D 包和面向前沿设计的「高级」包。


UCIe 还支持通过 PCIe 和 CXL 进行封装之外(off-package)的连接,从而为高性能计算环境中跨多台机器连接多个芯片提供了可能。


UCIe 白皮书中 UCIe 封装方案示例。


UCIe 标准是一个开始,它的未来仍有待观察。Nossokoff 对此表示,最初发起 UCIe 的创始成员代表了众多技术设计和制造领域的杰出贡献者,但很多主要组织并没有加入进来,包括苹果、AWS、博通、IBM、英伟达以及其他硅代工厂和内存芯片供应商。


Bassi 指出,英伟达可能特别不愿意加入 UCIe 联盟。英伟达已经为定制硅集成开放了自研的 NVLink-C2C 互连技术,使其成为了 UCIe 的潜在竞争对手。


虽然 UCIe 和 NVLink-C2C 等芯片互连技术的命运决定了行业游戏规则,但它们不太可能改变行业现有局面。


原文链接:https://spectrum.ieee.org/single-chip-processors-have-reached-their-limits

相关文章
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI大模型在财务规划和建议中的应用
【1月更文挑战第27天】【AI 现况分析】AI大模型在财务规划和建议中的应用
【鸿蒙软件开发】进度条Progress
【鸿蒙软件开发】进度条Progress
640 0
|
存储 缓存 分布式计算
【Hbase】(十一)详解 HBase 表的设计原则
【Hbase】(十一)详解 HBase 表的设计原则
1767 0
【Hbase】(十一)详解 HBase 表的设计原则
|
Linux iOS开发 MacOS
Python 工具和库:解释什么是虚拟环境(Virtual Environment)?为什么要使用它?
Python 工具和库:解释什么是虚拟环境(Virtual Environment)?为什么要使用它?
1299 0
|
3月前
|
数据采集 人工智能 监控
让大模型“开小灶”:手把手教你打造能聊业务的专属AI
本文深入浅出解析AI微调(Fine-tuning)技术:揭示通用大模型“懂常识却不懂行”的根源,详解LoRA等高效微调原理,对比RAG适用场景,并提供数据准备、LoRA训练、效果评估到部署的四步实践指南。助力业务人员低成本打造专属行业AI助手。(239字)
398 0
|
API C语言 C++
FFmpeg入门及编译 2
FFmpeg入门及编译
496 0
|
关系型数据库 PostgreSQL
PostgreSQL如何删除不使用的xlog文件
PostgreSQL如何删除不使用的xlog文件
493 0
|
架构师 测试技术
缺陷趋势分析
本文详细解析了累积缺陷发现统计及其在软件测试中的应用,探讨了理想情况下的凹凸曲线变化规律以及不同拐点出现时可能的问题,并提出了相应的调整策略。此外,还讨论了如何判断缺陷收敛及不收敛的情况,并给出了具体对策。这对于软件测试人员来说具有很高的参考价值。
417 3
|
存储 固态存储 前端开发
计算机中主板与总线
【7月更文挑战第28天】
729 1