单芯片每秒1000万亿次运算:谷歌TPU原班团队全新AI架构,晶体管性能提升6倍

简介: 2016 年底,谷歌 TPU 团队的十位核心开发者中的八位悄悄离职,创办了一家名为 Groq 的机器学习系统公司。在此后的三年里,这家公司一直很低调。但最近,他们带着一款名为 TSP 的芯片架构出现在公众视野里。

TSP 的全称是 Tensor Streaming Processor,专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿(10 的 15 次方)次运算,是全球首个实现该级别性能的架构,其浮点运算性能可达每秒 250 万亿次(TFLOPS。在摩尔定律走向消亡的背景下,这一架构的问世标志着芯片之争从晶体管转向架构。


250 TFLOPS 浮点运算性能是什么概念?目前的世界第一超级计算机 Summit,其峰值算力为 200,794.9 TFLOPS,它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率,仅需 803 块就可以实现同样的性能。


微信图片_20211202083006.jpg

Groq 在一份白皮书中介绍了这项全新的架构设计。此外,他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。
白皮书地址:https://groq.com/wp-content/uploads/2019/10/Groq_Whitepaper_2019Oct.pdf


「我们为这一行业和我们的客户感到兴奋,」Groq 的联合创始人和 CEO Jonathan Ross 表示。「顶级 GPU 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品,但 Groq 现在就做到了,而且建立了一个新的性能标准。就低延迟和推理速度而言,Groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。」


Groq 的 TSP 架构是专为计算机视觉、机器学习和其他 AI 相关工作负载的性能要求设计的。「对于一大批需要深度学习推理运算的应用来说,Groq 的解决方案是非常理想的选择,」Groq 的首席架构师 Dennis Abts 表示,「但除此之外,Groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。」


一款「简单」的 AI 芯片架构


Groq 的这款架构受到「软件优先」(software first)理念的启发。它在 Groq 开发的 TSP 中实现,为实现计算灵活性和大规模并行计算提供了一种新的范式,但没有传统 GPU 和 CPU 架构的限制和沟通开销。


「软件优先」的硬件设计理念


微信图片_20211202083042.jpg


在 Groq 的架构中,Groq 编译器负责编码所有内容:数据流入芯片,并在正确的时间和正确的地点插入,以确保计算实时进行,没有停顿。执行规划由软件负责,这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。 这使得 Groq 的芯片性能具有确定性。编译器动态地重新配置硬件来执行每个计算,因此编译器和芯片之间没有抽象(abstraction)。由于编译器了解硬件和每条指令的速度,所以它可以准确地告诉硬件做什么,什么时候做。


在传统的体系架构中,将数据从 DRAM 移动到处理器需要大量的算力和时间,而且相同工作负载上的处理性能也是可变的。在典型的工作流中,开发人员通过反复运行工作负载或程序来对其进行配置和测试,以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同,这种处理可能会得到略有差别的结果,而开发人员的工作就是手动调整程序以达到预定的可靠性级别。


但有了 Groq 的硬件和软件,编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置,这样就不会有延迟。到达硬件的指令流是完全编排好的,使得处理速度更快,而且可预测。


开发人员可以在 Groq 芯片上运行相同的模型 100 次,每次得到的结果都完全相同。对于安全和准确性要求都非常高的应用来说(如自动驾驶汽车),这种计算上的准确性至关重要。


另外,使用 Groq 硬件设计的系统不会受到长尾延迟的影响,AI 系统可以在特定的功率或延迟预算内进行调整。


这种软件优先的设计(即编译器决定硬件架构)理念帮助 Groq 设计出了一款简单、高性能的架构,可以加速推理流程。


该架构既支持传统的机器学习模型,也支持新的计算学习模型,目前在 x86 和非 x86 系统的客户站点上运行。


更简单的架构设计


为了满足深度学习等计算密集型任务的需求,芯片的设计似乎正在变得越来越复杂。但 Groq 认为,这种趋势从根本上就是错误的。他们在白皮书中指出,当前处理器架构的复杂性已经成为阻碍开发者生产和 AI 应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率,再加上摩尔定律逐渐变慢,实现更高的计算性能变得越来越困难。


Groq 的芯片设计降低了传统硬件开发的复杂度,因此开发者可以更加专注于算法(或解决其他问题),而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计,开发者无需进行剖析研究(profiling),因此可以节省资源,更容易大规模部署 AI 应用。


与基于 CPU、GPU 和 FPGA 的传统复杂架构相比,Groq 的芯片还简化了认证和部署,使客户能够简单而快速地实现可扩展、单瓦高性能的系统。


让每个晶体管实现更高的性能


Groq 的张量流架构可以在任何需要的地方提供算力。与当前领先的 GPU、CPU 相比,Groq 处理器的每个晶体管可以实现 3-6 倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是,Groq 的架构使用起来更加简单,而且性能高于传统计算平台。


备受瞩目的 Groq


Groq 总部位于加州山景城,针对计算密集型应用程序提供高效的软件驱动解决方案,在性能、准确性和延迟度(亚毫秒级)等方面处于行业领先水准。


创立之初,Groq 颇受关注的原因是它的团队组成:创始团队的 8 位研发成员均来自谷歌 TPU 核心团队——在此之前,谷歌 TPU 核心团队总共不过才 10 个人。谷歌在短短 14 个月内发布 TPU,1 年后又完成第 2 代 TPU,所以外界对 Groq 抱有非常高的期待值。


尽管 Groq 只是一家成立三年的创业公司,但一举一动都会受到外界的高度关注。今年 9 月,Groq 在 AI Hardware Summit 2019 无故缺席,业内纷纷猜测 Groq 公司内部是否遇到了危机。


Groq 现任 CEO Jonathan Ross 的身份是「前谷歌芯片高层人员」,他毕业于纽约大学,曾在谷歌度过了 5 年多的职业生涯,是 TPU 的主要设计者之一。与他相关的还有非常神秘的谷歌 X 实验室,这个部门所从事的工作都是最前沿的领域,比如太空电梯、无人驾驶汽车、谷歌眼镜等。一定意义上说,谷歌是在「利用这个实验室来追踪 100 个震撼世界的创意」。创立之初,Jonathan Ross 担任 Groq 的 CTO,后来从 2018 年底开始接任 Doug Wightman 担任 CEO 一职。


微信图片_20211202083107.jpg


Douglas Wightman 也是谷歌 X 实验室的前成员。Groq 成立几个月后,赛灵思全球销售执行副总裁 Krishna Rangasayee 也加盟出任 COO。


就在前几天,Groq 官网宣布 Stuart Pann 也将加入其董事会。Stuart Pann 目前是惠普的首席供应链官(Chief Supply Chain Officer),之前在英特尔工作了 33 年之久,负责英特尔微处理器和芯片组业务的定价,收入和预测等相关工作,在控制成本支出、提高营收方面有着非常深厚的经验。


Groq 目前大约有 70 名员工,从工程师数量上看还不及英特尔这种大型芯片制造商的四分之一。不过,Groq 却在用于人工智能行业的关键领域——新型芯片研发方面占有相当的优势。这个领域未来可能价值数百亿美元,而 CEO Jonathan Ross 此前不久表示「Groq 不希望被收购」。


原本 Groq 对外公布要在 2018 年发布第一代芯片,实际发布时间却是今年的 9 月。虽然来得晚了一些,但还是足够惊艳。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
9天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
5天前
|
人工智能 机器人 API
【通义】AI视界|谷歌Q3财报:Gemini API六个月增长14倍,公司超25%的新代码由AI生成
本文内容由通义自动生成,涵盖谷歌Q3财报、马斯克xAI融资、九巨头联盟挑战英伟达、Meta加大AI投入及麻省理工研究LLM与人脑相似性等热点资讯。更多精彩内容,请访问通通知道。
|
4天前
|
人工智能 自然语言处理 算法
【通义】AI视界|OpenAI最新发布!ChatGPT搜索功能强势来了,挑战谷歌?
本文由【通义】自动生成,精选24小时内的重要资讯:OpenAI推出ChatGPT搜索功能挑战谷歌,微软披露130亿美元投资OpenAI,Reddit首次盈利股价暴涨20%,软银CEO孙正义看好英伟达及“超级AI”前景,谷歌云与沙特PIF共建全球AI中心。更多内容请访问通通知道。
|
11天前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
2月前
|
设计模式 Java 关系型数据库
【Java笔记+踩坑汇总】Java基础+JavaWeb+SSM+SpringBoot+SpringCloud+瑞吉外卖/谷粒商城/学成在线+设计模式+面试题汇总+性能调优/架构设计+源码解析
本文是“Java学习路线”专栏的导航文章,目标是为Java初学者和初中高级工程师提供一套完整的Java学习路线。
335 37
|
23天前
|
人工智能 自然语言处理 安全
Gemini 人工智能:谷歌AI重磅来袭!好消息,国内可用
Gemini 是 Google 🧠 开发的革命性人工智能模型,旨在打造一个功能强大的多模态 AI 系统。
|
25天前
|
人工智能 搜索推荐 算法
【通义】AI视界|强制谷歌交出私有AI模型数据?美政府要对谷歌进行重大拆分
本文精选了24小时内的重要科技新闻,包括OpenAI董事会考虑采用PBC公司模式、o1推理模型贡献者Luke Metz离职、美国政府计划拆分谷歌、苹果AI功能遭质疑及股票评级下调、AI教父杰弗里·辛顿对其学生解雇OpenAI CEO感到自豪等内容。此外,文章还探讨了PBC模式对OpenAI的影响及其在法律和商业实践中的潜在挑战。点击[通义官网](https://tongyi.aliyun.com/qianwen?spm=a2c6h.13046898.publish-article.10.5ff66ffaj8oqp3&code=cykjlxy964)体验更多功能。
|
28天前
|
安全 数据安全/隐私保护 UED
优化用户体验:前后端分离架构下Python WebSocket实时通信的性能考量
在当今互联网技术的迅猛发展中,前后端分离架构已然成为主流趋势,它不仅提升了开发效率,也优化了用户体验。然而,在这种架构模式下,如何实现高效的实时通信,特别是利用WebSocket协议,成为了提升用户体验的关键。本文将探讨在前后端分离架构中,使用Python进行WebSocket实时通信时的性能考量,以及与传统轮询方式的比较。
55 2
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
2月前
|
人工智能 搜索推荐 安全
【通义】AI视界|苹果和谷歌受罚,欧盟监管部门“连斩”美国科技巨头。
苹果前设计官乔尼·艾夫确认正与OpenAI合作开发AI硬件,结合其设计经验与OpenAI技术,预期将推出革新智能设备。同时,苹果和谷歌因税务与垄断问题遭欧盟处罚,显示欧盟加强监管科技巨头。此外,新版Siri将在AI加持下于明年推出,提供更流畅的交互体验。微软则与上海医疗机构合作,运用AI辅助阿尔茨海默症治疗。最后,三哩岛核电站重启以满足微软数据中心的电力需求。

热门文章

最新文章