谷歌推出定制化机器学习芯片 速度是传统GPU的15到30倍

简介:

谷歌推出定制化机器学习芯片 速度是传统GPU的15到30倍

谷歌(微博)自主开发定制化芯片,以加速其机器学习算法,这已不是什么秘密了。早在2016年5月,该公司就在其I/O开发者大会上首次公布了这款名为Tensor Processing Units(简称TPU)的芯片。但是,该公司从未详细地介绍过它们,只是声称这些芯片是专门为其TensorFlow机器学习框架度身定做的。

但是在周三,谷歌首次详细地介绍了这种芯片的相关信息。

谷歌的大卫-帕特森(David Patterson)不仅与人联合发表了有关TPU芯片的文章,而且在美国国家工程院于加利福尼亚州山景城举行的一次活动中作了相关演讲。这篇有关TPU芯片的文章总共有高达75名联合署名作者。

芯片设计师可以上述文章中找到详细的有关TPU的运行原理。根据谷歌自己的衡量标准,TPU执行谷歌一般机器学习任务的平均速度是标准GPU/CPU芯片(这里指英特尔Haswell芯片和英伟达K80 GPU)的15到30倍。由于数据中心的耗电量也是一个重要的考量,TPU的每瓦计算能力是GPU/CPU芯片的30到80倍。

谷歌推出定制化机器学习芯片 速度是传统GPU的15到30倍

谷歌还指出,虽然大多数工程师针对卷积神经网络改造了其芯片,但是这些网络仅占谷歌数据中心工作量的大约5%,因为该公司的大多数应用程序均使用多层感知器神经网络。

谷歌声称,早在2006年,它就开始研究如何在其数据中心使用GPU、FPGA(现场可编程门阵列)和定制化ASIC(实际上就是TPU)。但是在当时,并没有多少应用程序可以从这种特殊的芯片受益,因为大多数任务均可以通过数据中心提供的额外的芯片进行处理。

“在2013年,情况发生了改变。我们预计,由于深度神经网络(DNN)变得如何非常流行,它可能要求我们把数据中心的计算能力提高一倍。如果采用传统的CPU芯片,成本就会变得极其昂贵。”谷歌在其文件中称,“因此,我们开始优先开发定制化ASIC。”

谷歌推出定制化机器学习芯片 速度是传统GPU的15到30倍

  谷歌研究人员称,他们的目标就是“将其性价比提高到GPU芯片的10倍。”

谷歌从2015年起就一直在公司内部使用TPU芯片,而且它以后也可能只会让自己使用这种芯片。但是该公司指出,它希望其他公司能够借鉴吸收它的研究成果,“打造下一代更高标准的芯片”。

在过去五年中,AMD和英伟达等公司的GPU芯片已成为了经济型深度学习技术的默认基础架构。但是,谷歌、微软和其他公司还开始探索其他类型的芯片,包括处理各种不同人工智能任务的FPGA。谷歌知名硬件工程师诺姆-久皮(Norm Jouppi)在一篇博文中称,谷歌的TPU芯片已开始支持Google Image Search(图片搜索)、Google Photos(谷歌照片)和Google Cloud Vision(图像识别平台)应用编程接口等等。

相对而言,TPU芯片的单片存储器容量是英伟达K80 GPU的3.5倍,但是它的体积相对更小。目前,谷歌可以在一台服务器中整合两个TPU芯片。

“为了减少延缓部署的概率,TPU芯片并没有与CPU进行整合,而是被设计成PCIe I/O总线上的协处理器。这使得它能够直接插入现有的服务器中,就像GPU芯片一样。而且,为了让硬件设计和故障排除过程变得更为简单,托管服务器会发送指令给TPU芯片执行,而不是让TPU芯片自己获取指令。因此,从设计理念上来说,TPU芯片更接近于FPU协处理器,而不是GPU。”上述文章称。 


  

本文转自d1net(转载)

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
机器学习/深度学习 人工智能 Java
机器学习PAI报错问题之跑collective gpu分布式报错如何解决
人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。
|
机器学习/深度学习 弹性计算 TensorFlow
阿里云GPU加速:大模型训练与推理的全流程指南
随着深度学习和大规模模型的普及,GPU成为训练和推理的关键加速器。本文将详细介绍如何利用阿里云GPU产品完成大模型的训练与推理。我们将使用Elastic GPU、阿里云深度学习镜像、ECS(云服务器)等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
3984 0
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
739 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
机器学习/深度学习 人工智能 并行计算
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。
2202 3
Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟
|
存储 人工智能 芯片
多GPU训练大型模型:资源分配与优化技巧 | 英伟达将推出面向中国的改良芯片HGX H20、L20 PCIe、L2 PCIe
在人工智能领域,大型模型因其强大的预测能力和泛化性能而备受瞩目。然而,随着模型规模的不断扩大,计算资源和训练时间成为制约其发展的重大挑战。特别是在英伟达禁令之后,中国AI计算行业面临前所未有的困境。为了解决这个问题,英伟达将针对中国市场推出新的AI芯片,以应对美国出口限制。本文将探讨如何在多个GPU上训练大型模型,并分析英伟达禁令对中国AI计算行业的影响。
3611 0
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之进入DSW后,如何把工作环境切换为GPU状态
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 人工智能 算法
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
为什么大模型训练需要GPU,以及适合训练大模型的GPU介绍
1952 1
|
视频直播 芯片 异构计算
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能
总而言之,对于直播系统源码来说,GPU加速功能是提升实时图像质量和观看体验的重要手段,是不可或缺的重要功能技术之一。
山东布谷科技直播系统源码热点分析:不同芯片实现高质量编码与渲染视频的GPU加速功能
|
机器学习/深度学习 并行计算 异构计算
gpu是什么和cpu的区别 模型训练
gpu是什么和cpu的区别 模型训练
1534 1
|
机器学习/深度学习 并行计算 算法
机器学习算法对GPU的要求分析
简单介绍做机器学习算法的厂家对GPU的要求
940 1

热门文章

最新文章