单芯片每秒1000万亿次运算：谷歌TPU原班团队全新AI架构，晶体管性能提升6倍-阿里云开发者社区

单芯片每秒1000万亿次运算：谷歌TPU原班团队全新AI架构，晶体管性能提升6倍

2021-12-02 375

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2016 年底，谷歌 TPU 团队的十位核心开发者中的八位悄悄离职，创办了一家名为 Groq 的机器学习系统公司。在此后的三年里，这家公司一直很低调。但最近，他们带着一款名为 TSP 的芯片架构出现在公众视野里。

TSP 的全称是 Tensor Streaming Processor，专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿（10 的 15 次方）次运算，是全球首个实现该级别性能的架构，其浮点运算性能可达每秒 250 万亿次（TFLOPS）。在摩尔定律走向消亡的背景下，这一架构的问世标志着芯片之争从晶体管转向架构。

250 TFLOPS 浮点运算性能是什么概念？目前的世界第一超级计算机 Summit，其峰值算力为 200,794.9 TFLOPS，它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率，仅需 803 块就可以实现同样的性能。

微信图片_20211202083006.jpg

Groq 在一份白皮书中介绍了这项全新的架构设计。此外，他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
白皮书地址：https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf

「我们为这一行业和我们的客户感到兴奋，」Groq 的联合创始人和 CEO Jonathan Ross 表示。「顶级 GPU 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品，但 Groq 现在就做到了，而且建立了一个新的性能标准。就低延迟和推理速度而言，Groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」

Groq 的 TSP 架构是专为计算机视觉、机器学习和其他 AI 相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说，Groq 的解决方案是非常理想的选择，」Groq 的首席架构师 Dennis Abts 表示，「但除此之外，Groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」

一款「简单」的 AI 芯片架构

Groq 的这款架构受到「软件优先」（software first）理念的启发。它在 Groq 开发的 TSP 中实现，为实现计算灵活性和大规模并行计算提供了一种新的范式，但没有传统 GPU 和 CPU 架构的限制和沟通开销。

「软件优先」的硬件设计理念

在 Groq 的架构中，Groq 编译器负责编码所有内容：数据流入芯片，并在正确的时间和正确的地点插入，以确保计算实时进行，没有停顿。执行规划由软件负责，这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。这使得 Groq 的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算，因此编译器和芯片之间没有抽象（abstraction）。由于编译器了解硬件和每条指令的速度，所以它可以准确地告诉硬件做什么，什么时候做。

在传统的体系架构中，将数据从 DRAM 移动到处理器需要大量的算力和时间，而且相同工作负载上的处理性能也是可变的。在典型的工作流中，开发人员通过反复运行工作负载或程序来对其进行配置和测试，以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同，这种处理可能会得到略有差别的结果，而开发人员的工作就是手动调整程序以达到预定的可靠性级别。

但有了 Groq 的硬件和软件，编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置，这样就不会有延迟。到达硬件的指令流是完全编排好的，使得处理速度更快，而且可预测。

开发人员可以在 Groq 芯片上运行相同的模型 100 次，每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说（如自动驾驶汽车），这种计算上的准确性至关重要。

另外，使用 Groq 硬件设计的系统不会受到长尾延迟的影响，AI 系统可以在特定的功率或延迟预算内进行调整。

这种软件优先的设计（即编译器决定硬件架构）理念帮助 Groq 设计出了一款简单、高性能的架构，可以加速推理流程。

该架构既支持传统的机器学习模型，也支持新的计算学习模型，目前在 x86 和非 x86 系统的客户站点上运行。

更简单的架构设计

为了满足深度学习等计算密集型任务的需求，芯片的设计似乎正在变得越来越复杂。但 Groq 认为，这种趋势从根本上就是错误的。他们在白皮书中指出，当前处理器架构的复杂性已经成为阻碍开发者生产和 AI 应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率，再加上摩尔定律逐渐变慢，实现更高的计算性能变得越来越困难。

Groq 的芯片设计降低了传统硬件开发的复杂度，因此开发者可以更加专注于算法（或解决其他问题），而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计，开发者无需进行剖析研究（profiling），因此可以节省资源，更容易大规模部署 AI 应用。

与基于 CPU、GPU 和 FPGA 的传统复杂架构相比，Groq 的芯片还简化了认证和部署，使客户能够简单而快速地实现可扩展、单瓦高性能的系统。

让每个晶体管实现更高的性能

Groq 的张量流架构可以在任何需要的地方提供算力。与当前领先的 GPU、CPU 相比，Groq 处理器的每个晶体管可以实现 3-6 倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是，Groq 的架构使用起来更加简单，而且性能高于传统计算平台。

备受瞩目的 Groq

Groq 总部位于加州山景城，针对计算密集型应用程序提供高效的软件驱动解决方案，在性能、准确性和延迟度（亚毫秒级）等方面处于行业领先水准。

创立之初，Groq 颇受关注的原因是它的团队组成：创始团队的 8 位研发成员均来自谷歌 TPU 核心团队——在此之前，谷歌 TPU 核心团队总共不过才 10 个人。谷歌在短短 14 个月内发布 TPU，1 年后又完成第 2 代 TPU，所以外界对 Groq 抱有非常高的期待值。

尽管 Groq 只是一家成立三年的创业公司，但一举一动都会受到外界的高度关注。今年 9 月，Groq 在 AI Hardware Summit 2019 无故缺席，业内纷纷猜测 Groq 公司内部是否遇到了危机。

Groq 现任 CEO Jonathan Ross 的身份是「前谷歌芯片高层人员」，他毕业于纽约大学，曾在谷歌度过了 5 年多的职业生涯，是 TPU 的主要设计者之一。与他相关的还有非常神秘的谷歌 X 实验室，这个部门所从事的工作都是最前沿的领域，比如太空电梯、无人驾驶汽车、谷歌眼镜等。一定意义上说，谷歌是在「利用这个实验室来追踪 100 个震撼世界的创意」。创立之初，Jonathan Ross 担任 Groq 的 CTO，后来从 2018 年底开始接任 Doug Wightman 担任 CEO 一职。

微信图片_20211202083107.jpg

Douglas Wightman 也是谷歌 X 实验室的前成员。Groq 成立几个月后，赛灵思全球销售执行副总裁 Krishna Rangasayee 也加盟出任 COO。

就在前几天，Groq 官网宣布 Stuart Pann 也将加入其董事会。Stuart Pann 目前是惠普的首席供应链官（Chief Supply Chain Officer），之前在英特尔工作了 33 年之久，负责英特尔微处理器和芯片组业务的定价，收入和预测等相关工作，在控制成本支出、提高营收方面有着非常深厚的经验。

Groq 目前大约有 70 名员工，从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过，Groq 却在用于人工智能行业的关键领域——新型芯片研发方面占有相当的优势。这个领域未来可能价值数百亿美元，而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收购」。

原本 Groq 对外公布要在 2018 年发布第一代芯片，实际发布时间却是今年的 9 月。虽然来得晚了一些，但还是足够惊艳。