计算机架构的新黄金时代,为什么到了2021年还没有开始?

简介: 一面是客观的技术差距,一面是无法忽视的机会。

4 月 21 日,英伟达发布了 A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程的性能和软硬件体系加持,为众多科技公司在 AI 推理和训练时带来了新的选择。该公司预计在今年夏季,新款芯片即将会出现在众多公司的云服务器中。

对于熟悉机器学习领域的人们来说,每隔一两年推出的新一代 GPU,是他们最为关注的新动向。英伟达的旗舰芯片算力也总是其它芯片创业公司用来比较的标杆。

但对那些希望寻找人工智能最合适算力的研究者们来说,GPU 因为「过于通用」,常常会被认为并非 AI 的最终解决方案。但迄今为止,英伟达 GPU 仍然占据市场的主流。在 GPU 引领深度学习技术爆发之后,AI 芯片领域还会出现新的变化吗?

和 AI 算法应该怎么写一样,人们对于芯片应该怎么造的思考其实一直都没有停止,芯片领域里下一个大方向可能在于「特定领域的体系结构(DSA)」。

计算机架构传奇人物、2017 年图灵奖获得者 John Hennessy 和 David Patterson 在 2019 年发表于 ACM 杂志上的文章《计算机架构的新黄金时代》中曾提出:当摩尔定律不再适用之后,一种更加以硬件为中心的设计思路——针对特定问题和领域的架构 DSA 将会展现实力。这是一种特定领域的可编程处理器,它仍是图灵完备的,但针对特定类别的应用进行了定制。

微信图片_20211205105110.jpg

John L. Hennessy 和 David A. Patterson,两人合著有《计算机体系结构:量化研究方法》一书。

从定义上来看,DSA 与专用集成电路 ASIC 不同,后者仅适用于单一功能,运行其上的代码很难进行修改。DSA 板卡通常被称为加速器,因为与在通用 CPU 上执行整个应用程序相比,它们可以加速某些应用程序。此外,DSA 可以实现更好的性能,因为它们更贴近应用的实际需求。DSA 的例子包括最常见的图形加速单元(即 GPU),用于深度学习的神经网络处理器,以及软件定义处理器(SDN)。在特定领域的应用中,DSA 的效率更高,能耗更低。

通常,适用于 AI 推理的 DSA 处理器无法应用于高性能通用计算、光线渲染等任务,但又不像 ASIC 那样只能胜任很少的一些固化算法任务。在人工智能的任务上,DPU 芯片可以有很高的通用性,既支持 NLP,又支持计算机视觉和语音的任务处理,还可以通过 TVM 等工具覆盖各种机器学习框架。

如果说体系架构大师展望的技术方案是 DSA 成立的充分条件,那么科技公司对于 AI 算力的需求就是 DSA 芯片形成突破的必要因素。

目前,想要通过各种方法来构建一块 GPU,与英伟达实现相似的性能仍然非常困难。但在以数据中心为核心的互联网新时代,国内头部互联网公司的规模为整个行业带来了前所未有的 AI 落地场景。如果能够准确找到落地需求,构建高效的 AI 加速器,不仅可以大幅提升机器学习的价值,或许还能催生出潜在的新市场。

在这种情况下,能够搞清应用方向就成为了 DSA 能否成功的关键。如今科技公司需要深度学习推断的业务包括推荐系统、内容审核、AI 教育、人工智能客服、图文翻译等各种方面。围绕这些业务,所有互联网厂商都产生了大量算力需求。

对于一家半导体公司来说,要想打造一块能够完成这些任务的芯片,其设计要符合客户应用场景、底层需求,具备高效的实现方式,同时也要在交付成本、维护服务、更新迭代的速度、软件友好的程度,甚至销售策略上具备竞争力。

体系结构之外,另一个契机在于指令集,RISC-V 兴起也在让芯片领域发生着变化,它的模块化和可扩展性完美地匹配 DSA 灵活高效的技术需求。

诞生于 2010 年的 RISC-V 是一个开源的精简指令集架构,适用于创建微处理器和微控制器。最早由美国加州大学伯克利分校(UC Berkeley)的 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等开发人员于 2010 年提出,又得到了计算机体系结构大师 David Patterson 的支持。这个架构允许开发者免费开发和使用,包括直接在芯片上进行商业化实现。

今年 1 月,外媒报道称顶级芯片设计大师 Jim Keller 加入了初创公司 Tenstorrent,担任 CTO 以及董事会成员。

微信图片_20211205105114.jpg


据了解,Tenstorrent 设计的是高性能 AI 训练和推理,异构架构 AI SoC。该公司设计了针对机器学习优化的 Tensix 处理器内核,为了运行传统的工作负载,Tenstorrent 的 SoC 使用 SiFive 的新型通用智能 X280 内核,而 X280 是一个 64 位的 RISC-V 内核,集成了 512 位宽的 RISC-V 矢量指令扩展(RVV)。

无独有偶,美国的芯片设计公司 Pixilica 已与 RV64X 团队合作,提出了一套新的图形指令集,旨在融合 CPU-GPU ISA,并将其用于 3D 图形和媒体处理,从而为 FPGA 创建了开源参考实现。Europena 工具开发商 Codasip 的高级市场总监 Roddy Urquhart 表示,这是 RISC-V 生态系统的优势之一:「如果要创建特定于领域的处理器,关键任务之一就是选择符合软件需求的指令集架构(ISA)。」

「有些公司选择从头开始创建指令集,但是如果你有这样的 ISA,则可能要付出移植软件的代价。现在,RISC-V 开放式的 ISA 可以提供一个很好的起点和一个软件生态系统,」Urquhart 表示。RISC-V ISA 以模块化的方式设计,使处理器设计人员不仅可以添加任何标准扩展,还可以创建自己的自定义指令,同时保持完整的 RISC-V 兼容性。

「为特定领域的处理器选择了起点,然后有必要弄清楚需要哪些特殊指令来满足你的计算要求。这需要仔细分析你需要在处理器核心上运行的软件。概要分析工具可以识别计算热点,一旦了解,设计人员就可以创建自定义指令来解决这些热点。」

虽然基于 Arm 架构设计的处理器已出现在几乎所有智能手机及数十亿电子设备中,但越来越多人在将目光转向 RISC-V。Linux 的主要开发者 Arnd Bermann 就认为,到 2030 年我们将看到三种体系结构:Arm、RISC-V 和 X86 占据市场大部分份额。然而对于 DSA 而言,显然 RISC-V 拥有巨大的优势。

科技公司自造芯片是不是最合理的方式?一些公司已经提出了深度结合自身业务,并与软件体系绑定,可以进行 AI 模型训练的芯片,包括亚马逊的 Inferentia 和 Trainium、谷歌 TPU 等等。但这些算力仅限于对于各家公司自有业务体系进行特化,面向的范围有限。

从一些大厂最近的行动中,我们可以看出人们的思考变化:百度等公司的 AI 芯片业务已经独立,而腾讯、字节跳动等公司则选择了投资创业公司的方式,希望能够培养出面向广泛市场的新体系。

自 2010 年左右深度学习技术大发展至今,我们见证过寒武纪、昇腾等芯片横空出世,又被谷歌、亚马逊的技术能力所惊艳,但在无尽的算力需求下,国内 AI 芯片爆发的时代似乎依然还没有到来。

但在最近,指令集、体系架构和人工智能应用的落地已经让情况发生了变化。随着字节跳动等投资 AI 芯片创业公司快速流片成功,专属推理芯片的应用获得良好效果,在科技领域里发展 DSA 芯片的新风向正在出现。

在芯片产品生命的周期中,如果有一家创业公司可以更加理解场景,定义出最合适的方案,最快地做出实现,就可以获得相对领先的位置。同时,如果这种新的机制催生出了足够高效的算力,科技公司的开发者们也可以创造出更多的 AI 应用。

根据目前的估算,国内市场每年会出现 20-30 万片的 AI 推理计算版卡需求。对于国内的创业者来说,这或许会是一个前所未有的发展机会,实力强大的工程师团队将会在新的竞争过程中脱颖而出。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3月前
深挖计算机的根:汇编语言与计算机架构之间不可告人的秘密
【8月更文挑战第31天】本文深入探讨了汇编语言与计算机架构之间的重要联系。通过解析汇编语言的基本概念及其与硬件的直接映射关系,文章展示了它在计算机体系中的独特地位。以一个简单的“Hello, World!”汇编程序为例,详细说明了汇编语言如何操作底层硬件。尽管现代软件开发中较少使用汇编语言,但掌握它有助于理解计算机工作原理,对于性能优化和系统编程至关重要。
49 2
|
1月前
|
存储 缓存 数据处理
简述计算机X86架构
【10月更文挑战第3天】本文介绍了计算机的基本工作原理,重点阐述了CPU(中央处理器)及其组成部分:运算单元、数据单元和控制单元的功能。文中解释了CPU通过总线与内存等设备通信的过程,并详细描述了指令执行的步骤,包括指令获取、数据处理和结果存储。此外,还介绍了地址总线和数据总线的作用,以及段寄存器在内存管理中的应用。最后,提供了一些基本的CPU指令示例。文中配有多幅插图帮助理解。
|
2月前
|
网络协议 安全 中间件
系统架构设计师【第2章】: 计算机系统基础知识 (核心总结)
本文全面介绍了计算机系统及其相关技术,涵盖计算机系统概述、硬件、软件等内容。计算机系统由硬件(如处理器、存储器、输入输出设备)和软件(系统软件、应用软件)组成,旨在高效处理和管理数据。硬件核心为处理器,历经从4位到64位的发展,软件则分为系统软件和应用软件,满足不同需求。此外,深入探讨了计算机网络、嵌入式系统、多媒体技术、系统工程及性能评估等多个领域,强调了各组件和技术在现代信息技术中的重要作用与应用。
84 4
|
3月前
|
运维 安全 Linux
计算机架构“寒武纪爆发”,操作系统进化迸发中国浪潮
计算机架构“寒武纪爆发”,操作系统进化迸发中国浪潮
|
2月前
|
缓存
计算机X86架构
【9月更文挑战第7天】计算机的基本工作原理,重点阐述了CPU(中央处理器)及其内部结构,包括运算单元、数据单元和控制单元的功能。文中还解释了内存、总线(地址总线和数据总线)的作用,并简述了x86架构与操作系统交互的关键部分及基本指令集。
|
3月前
|
XML 分布式数据库 数据库
【计算机三级数据库技术】第13章 大规模数据库架构--附思维导图
文章概述了分布式数据库、并行数据库、云计算数据库架构和XML数据库的基本概念、目标、体系结构以及与传统数据库的比较,旨在提供对这些数据库技术的全面理解。
44 1
|
4月前
|
编译器 芯片
计算机中CPU 架构
【7月更文挑战第27天】
71 2
|
3月前
|
消息中间件 存储 监控
"微服务的神经中枢:深度解析DCM系统架构,打造智能配置管理的黄金时代!"
【8月更文挑战第21天】分布式配置管理(DCM)系统是微服务架构的核心,集中管理配置以确保一致性与灵活性。需满足集中管理、实时更新、高可用及安全性需求。架构包括配置存储、服务器、客户端代理、消息队列及监控组件。工作流程涵盖配置写入、变更通知、获取更新、本地缓存及配置生效。技术选型考虑etcd、Consul等存储方案,及RabbitMQ、Kafka等消息队列。安全性方面实施加密传输、访问控制及审计日志记录。高效可靠的DCM系统对于构建健壮微服务架构至关重要。
45 0
|
4月前
|
人工智能 领域建模
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
应用工程化架构问题之AI计算机中的大模型评估体系发生变化如何解决
|
5月前
|
前端开发 JavaScript Java
计算机Java项目|基于SSM架构的网上书城系统
计算机Java项目|基于SSM架构的网上书城系统
下一篇
无影云桌面