开发者社区> 知与谁同> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

谷歌披露了TensorFlow处理器单元架构的细节

简介:
+关注继续查看

本月早些时间谷歌进一步披露了更多关于一年前发布的TPU的细节。TPU项目和团队的高级架构师Norm Jouppi表示,与Nvidia K80和Haswell E5-2699 V3等主流高性能处理器相比,使用TPU执行神经网络计算可以获得成数量级的性能增益。Jouppi说:

“据估计TPU会比K80 GPU和Haswell CPU快大概15倍到30倍……在6个神经网络用例中,有4个在TPU上是内存或带宽受限的,假如让TPU使用和K80 GPU一样的内存系统,那它就可以比GPU和CPU快30到50倍……在一个标准的效率指标功耗效率比(TOPS/Watt)测试中,TPU的测试结果也比传统处理器高30到80倍。”

最早定制ASIC的动机来自于使用谷歌翻译API的计算需求,注意,假设这个地球上的每台手机每天都使用谷歌翻译API三分钟,那就得多搭建好几十个数据中心。

架构白皮书上记录了把K80和E5-2699作为计算核心进行一定范围内的神经网络计算时,相应的实验设计、数据收集和分析等细节。TPU现在不是用于训练神经网络的。它最早就是用作矩阵乘法器,通过矩阵乘法器、板载内存和缓存系统一起,实现神经网络的多层功能。其中包括在各层之间保存感知器的输出和状态等,这些在MLP和CNN等内部都广为使用。

但TPU并不仅仅限于神经网络的实现,它是通用的,它的架构是基于Jouppi和团队研究的全面用例的。这么做的部分动机就是要支持TPU的按时交付,还有必要的灵活性来优化矩阵浮点运算,而这也是芯片要执行的最基本的运算操作。而把TPU和包含了应用程序所需的其它部件的CPU/GPU架构结合起来很方便,只需要用上PCIe总线就好了。

这样的架构让CPU/GPU可以在神经网络的计算之外执行训练或TensorFlow程序的任意部分。比如程序要提前加载数据,或者要把指令输入TensorFlow运行等等,这些都要由CPU/GPU管理并发给TPU。从这方面看,TPU非常像显卡或FPU。

“TPU像CPU或GPU一样都是可编程的。它并不专为某个神经网络模型设计,可以在多种网络上执行CISC指令(卷积、LSTM模型、大型全连接模型等)。所以它是可编程的,但使用矩阵作为原语,而不是向量或标量。”

就像CPU和GPU架构的时变优化特性一样,TPU具有确定性的特性,在功耗效率比的测试中TPU优于基准芯片及每秒千万亿次的超级计算机。据测试数据来看,TPU在功耗效率比的测试中性能超出一般处理器30到80倍。

“与K80 GPU的32位浮点运算相比,TPU使用的是8位收缩矩阵乘法器,消耗的能量少了几个数量级,压缩了25倍的MAC(65536 8位对2496 32位)和3.5倍的板上内存(28MB对8MB)。更大的内存有助于增加应用程序的操作强度,让它们可以更充分地使用额外的MAC……商业产品在计算架构上很少出现数量级的差别,因此TPU可能会成为专用领域架构的一个原型。”

作为实验设计研究阶段的一部分,Jouppie和团队在谷歌的平台上研究了神经网络的使用,他们发现了更多关于时间敏感型应用的需求,而不是关于他们最初设想的吞吐量敏感型应用,这让他们意识到,对大量廉价资源的适当使用仍然可以得到性价比很高的高性能,这也符合阿姆达尔定律。

TPU实验涉及六种神经网络:MLP、CNN和LSTM各两种。MLP和LSTM都是内存受限型的,因此调整实验的内存和带宽排列对性能的影响非常大。这可能要归因于MLP和CNN会重用前层的权重,而且也会在一定程度上重用前层的输出。另一方面,LSTM会在各个时间步长重用权重,但只会选择性地使用前层的输出,这样就会不受限于内存,更多地是受限于计算能力。这一点在考察TPU使用的PCIe总线IO带宽时也适用。

经过15个月多的开发周期,以及在假设以TPU为核心的架构上对内存和缓存的改进,Jouppie和团队声称他们已经获得了比K80和E5-2699性能高30到50倍的成绩。

本文转自d1net(转载)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
TensorFlow实现学习率衰减
训练深度学习模型的常见模式是随着训练的进行逐渐减少学习。这通常称为“学习率衰减”。
41 0
【干货推荐】基于 TensorFlow 的实体及关系抽取
【干货推荐】基于 TensorFlow 的实体及关系抽取
80 0
深度学习进阶:多分类与TensorFlow(二)
深度学习进阶:多分类与TensorFlow(二)
44 0
谷歌云大会最后一天解读开放性:从TensorFlow开源到开放云平台
当地时间 3 月 10 日,Google Cloud Next '17 在美国旧金山顺利闭幕。机器之心作为受邀媒体对这场为期 3 天的会议进行了现场报道,参阅《现场直击 | 李飞飞首度亮相谷歌云大会:发布全新 API,解读 AI 民主化》和《谷歌云官方正式宣布收购数据科学社区 Kaggle》。谷歌云大会的最后一天,Google Cloud 产品开发、计算 & 开发者服务副总裁 Sam Ramji、谷歌大脑 TensorFlow 负责人 Rajat Monga 和 Google Senior Fellow Jeff Dean 等演讲者和受邀嘉宾重点围绕 Kubernetes、TensorFlow
45 0
机器学习PAI 可视化建模 Tensorflow升级通知
机器学习PAI 可视化建模 Tensorflow升级通知!请PAI Tensorflow用户注意查收邮件!
2878 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
LOCKet:安全源于独立
立即下载
安全,源于独立
立即下载
基于英特尔®FPGA的数据分析可重构加速
立即下载