性能: Roofline 模型, 响应时间, 吞吐量
为了说明上述 6 个应用在 3 类处理器上的性能,我们采用了高性能计算(HPC, high-performance computing)中的 Roofline 性能模型[36]。虽然不是完美的视觉模型,但可以洞察到性能瓶颈的原因。该模型背后的假设是,应用不适合在片上缓存,所以要么计算受限,要么内存带宽受限。对于 HPC 来说,Y 轴是每秒浮点运算的性能,因此峰值计算率构成了屋顶的平坦部分。X 轴是计算强度(operational intensity),以每个浮点操作访问的 DRAM 字节来衡量。由于(FLOPS/s)/(FLOPS/Byte)=Bytes/s,因此内存带宽的单位是字节/秒,从而构成屋顶的斜面部分。如果没有足够的计算强度,程序就会受到内存带宽的限制,停留在屋顶的斜面部分。
应用实际的每秒操作数与其上限之间的差距显示了在不触及计算强度的情况下进一步调整性能的潜在好处,增加计算强度的优化(如缓存模块化)可能会实现更好的性能。
为了将 Roofline 模型应用于 TPU,当 DNN 应用被量化时,首先用整数运算取代浮点运算。由于权重通常不适用于 DNN 应用的片上存储器,第二个变化是重新定义计算强度为每字节读取权重的整数乘积操作,如表 1 所示。
图 3 显示了 TPU、CPU 和 GPU 在对数尺度上的单芯片 Roofline 模型。TPU 的屋顶有很长的倾斜部分,计算强度意味着性能受限于内存带宽,而不是峰值计算量。6 个应用中有 5 个无法触及上线,MLP 和 LSTM 受内存限制,而 CNN 受计算限制。
图 3. TPU、CPU 和 GPU 的 Roofline 合并成一个对数图。星形代表 TPU,三角形代表 K80,圆形代表 Haswell。所有 TPU 的星星都处于或高于其他两个 Roofline。
与图 3 的 TPU 相比,6 个 DNN 应用普遍低于其在 Haswell 和 K80 的上限,原因是由于响应时间。这些 DNN 应用中有许多是面向终端用户服务的,研究人员已经证明,即使是响应时间的小幅增加也会导致客户减少使用服务。虽然训练可能没有严格的响应时间限制,但推理通常会有,或者说推理更倾向于延迟而不是吞吐量[28]。
例如,按照应用开发者的要求,MLP0 的 P99 响应时间限制为 7ms。(每秒的推理和 7ms 的延迟包含服务器主机和加速器的执行时间)。如果放宽响应时间限制,Haswell 和 K80 的运行速度分别只有 MLP0 可实现的最高吞吐量的 42%和 37%。这些限制也影响到了 TPU,但在 80%的情况下,其运行速度更接近 TPU 的最大 MLP0 吞吐量。与 CPU 和 GPU 相比,单线程 TPU 没有任何复杂的微架构特性,这些特性消耗晶体管和能量来改善平均情况,但不是 99%的情况。也就是说,没有缓存、分支预测、失序执行、多处理、投机预取、地址凝聚、多线程、上下文切换等等。极简主义是特定领域处理器的一大美德。
表 4 显示了每个芯片的相对推理性能的底线,包括两个加速器与 CPU 的主机服务器开销,显示了 6 个 DNN 应用的相对性能加权平均值,表明 K80 芯片的速度是 Haswell 芯片的 1.9 倍,而 TPU 芯片的速度是其 29.2 倍,因此 TPU 芯片的速度是 GPU 芯片的 15.3 倍。
表 4. K80 GPU 芯片和 TPU 芯片相对于 CPU 的 DNN 工作负载性能。加权平均值基于表 1 中 6 个应用的实际组合。
性能开销(Cost-Performance), TCO, 每瓦性能(Performance/Watt)
当购买大量计算机时,性能开销胜过性能。数据中心的最佳成本指标是总拥有成本(TCO, total cost of ownership)。如谷歌这样的组织为成千上万的芯片支付的实际价格取决于相关公司之间的谈判,由于商业机密的原因,我们无法公布这类价格信息或可能用于推导这类信息的数据。然而,功率与总拥有成本相关,而且我们可以公布每台服务器的功率,所以我们在这里使用每瓦性能(performance/Watt)作为性能/TCO 的代表。我们在本节中比较了整个服务器,而不是单个芯片。
图 4 显示了 K80 GPU 和 TPU 相对于 Haswell CPU 的平均每瓦性能。我们提出了两种不同的每瓦性能计算方法。第一种"总量",在计算 GPU 和 TPU 的每瓦性能时包含主机 CPU 服务器消耗的功率。第二种"增量",从 GPU 和 TPU 中减去主机 CPU 服务器的功率。
图 4. GPU(蓝色)、TPU(红色)与 CPU 的相对每瓦性能,以及 TPU 与 GPU(橙色)的相对每瓦性能(TDP)。TPU′是使用 K80 的 GDDR5 内存的改进型 TPU。绿色条显示了改进后的 TPU 与 CPU 的每瓦性能比率,淡紫色条显示了与 GPU 的比率。总量包含主机服务器功率,增量不包含主机功率。
就每瓦总性能而言,K80 服务器是 Haswell 的 2.1 倍。就每瓦增量性能而言,如果忽略 Haswell 服务器的功率,K80 服务器是 Haswell 的 2.9 倍。TPU 服务器的每瓦总性能比 Haswell 高 34 倍,使得 TPU 服务器的每瓦性能是 K80 服务器的 16 倍。TPU 的相对每瓦增量性能(谷歌定制 ASIC 的理由)是 83 倍,从而使 TPU 的每瓦性能达到 GPU 的 29 倍。
另一种 TPU 替代方案的评估
与 FPU 一样,TPU 协处理器也比较容易评估,所以我们为 6 个应用建立了性能模型,模型结果与硬件性能计数器之间的差异平均不到 10%。
如果我们有超过 15 个月的时间,就可以用同样的工艺技术来设计一款新芯片 TPU',我们用性能模型来评估这款理论上的芯片。更积极的逻辑合成和模块设计仍然可以将时钟频率提高 50%。就像 K80 那样为 GDDR5 内存设计一个接口电路,可以将加权内存带宽提高 5 倍以上,将其 roofline 最高点从 1350 降到 250。
将时钟速度提高到 1050MHz,但不改善内存,这样影响不会太大。而如果我们将时钟速度保持在 700MHz,但使用 GDDR5(双数据率 5 型同步图形随机存取存储器)作为加权存储器,加权平均值就会跳到 3.9。做到这两点并不改变平均值,所以理论上的 TPU'只是拥有更快的内存。
仅仅用 K80 一样的 GDDR5 内存替换 DDR3 加权内存,需要将内存通道的数量增加一倍,达到四个,这一改进将使芯片尺寸扩大约 10%。因为每台服务器有四个 TPU,GDDR5 还将使 TPU 系统的功率预算从 861W 增加到大约 900W。
图 4 报告了 TPU 的每芯片的每瓦相对总性能,比 Haswell 跃升 86 倍,比 K80 跃升 41 倍。增量指标相对 Haswell 达到惊人的 196 倍,相对 K80 高达 68 倍。
讨论
本节遵循 Hennessy 和 Patterson 的谬误-易犯错误-反驳(fallacy-and-pitfall-with-rebuttal)模式[17]:
谬误(Fallacy)。数据中心的 DNN 推理应用重视吞吐量和响应时间。 我们感到惊讶的是,由于有人在 2014 年提出,批量大小足以使得 TPU 达到峰值性能(或者对延迟要求不那么严格),因此谷歌 TPU 开发人员对响应时间有着强烈的要求。其中一个驱动应用是离线图像处理,谷歌开发人员的直觉是,如果交互业务也想要 TPU,大多数人只会积累更大的批处理。即使到 2014 年某个关心响应时间的应用(LSTM1)的谷歌开发人员也说,限制是 10ms,但在实际移植到 TPU 时缩减到了 7ms。许多这样的服务对 TPU 的意外需求,加上对快速响应时间的影响和偏好,改变了平衡,应用开发者往往选择减少延迟,而不是等待积累更大的批次。幸运的是,TPU 有一个简单、可重复的执行模型,以帮助满足交互业务的响应时间目标,以及高峰值吞吐量,即使是相对较小的批次规模,也能带来比当代 CPU 和 GPU 更高的性能。
谬误(Fallacy)。K80 GPU 架构非常适合 DNN 推理。 我们看到 5 个具体原因,即 TPU 在性能、能耗和成本方面都比 K80 GPU 更有优势。首先,TPU 只有一个处理器,而 K80 有 13 个,用单线程更容易达到严格的延迟目标。其次,TPU 有非常大的二维乘法单元,而 GPU 有 13 个较小的一维乘法单元。DNN 的矩阵乘法强度适合排列在二维阵列中的算术逻辑单元。第三,二维数组还能实现系统化,通过避免寄存器访问来提高能源效率。第四,TPU 的量化应用使用 K80 上不支持的 8 位整数,而不是 GPU 的 32 位浮点数。较小的数据不仅提高了计算的能源效率,而且使加权 FIFO 的有效容量和加权存储器的有效带宽翻了两番。(这些应用经过训练,尽管只使用 8 位,却能提供与浮点数相同的精度)。第五,TPU 省略了 GPU 需要但 DNN 不使用的功能,因此缩小了芯片面积,节省了能源,并为其他升级留出了空间。TPU 芯片的尺寸几乎是 K80 的一半,通常以三分之一的功率运行,但包含 3.5 倍内存。这五个因素解释了 TPU 在能源和性能方面 30 倍的优势。
易犯错误(Pitfall)。在设计特定领域架构时,忽视架构历史。 那些在通用计算中没有成功的想法可能是特定领域架构的理想选择。对于 TPU 来说,有三个重要的架构特征可以追溯到 20 世纪 80 年代初: 收缩阵列(systolic arrays)[23]、解耦访问/执行[33]和复杂指令集[29]。第一个特征减少了大型矩阵乘法单元的面积和功率; 第二个特征在矩阵乘法单元的操作中同时获取权重; 第三个特征更好利用了 PCIe 总线的有限带宽来传递指令。因此,具有历史意识、特定领域的架构师可以拥有竞争优势。
谬误(Fallacy)。如果谷歌更有效的使用 CPU,那么 CPU 的结果将与 TPU 相当。 我们最初在 CPU 上只有一个 DNN 的 8 位结果,这是因为需要做大量工作来有效使用高级向量扩展(AVX2)的整数支持,这样做大约能获得 3.5 倍好处。以浮点方式呈现所有的 CPU 结果,而不是让一个例外情况有自己的顶线,这样比较不容易混淆(而且需要更少的空间)。如果所有 DNN 都有类似的加速,每瓦性能将从 41-83 倍下降到 12-24 倍。
谬误(Fallacy)。如果谷歌能使用适当的较新版本,GPU 的结果将与 TPU 相匹配。 表 3 显示了 GPU 的发布和可以在云端被客户使用之间的时间差异。较新的 TPU 可以与较新 GPU 公平比较,而且,只要增加 10W,我们就可以通过使用 K80 的 GDDR5 内存将 28 纳米、0.7GHz、40W 的 TPU 的性能提高两倍。将 TPU 转移到 16 纳米工艺将进一步提高其每瓦性能。16 纳米的 Nvidia Pascal P40 GPU 的峰值性能是原来 TPU 的一半,但 250W 的功率却比原来多出许多倍[15]。如前所述,缺乏错误检查意味着谷歌无法在其数据中心部署 P40,因此无法在其上运行生产工作负载以确定其实际相对性能。
相关工作
两篇调查文章证实定制 DNN ASIC 至少可以追溯到 20 世纪 90 年代初[3][18]。正如 2016 年 Communications 杂志所介绍的,支持四种 DNN 体系架构的 DianNao 家族通过对 DNN 应用中的内存访问模式提供高效的体系架构支持,最大限度的减少了片上和外部 DRAM 的内存访问[7][21]。原生 DianNao 使用 64 个 16 位整数乘法累加单元。
谷歌去年 5 月推出的 TPU 3.0,比 2.0 强大 8 倍,性能高达 100 petaflops。
DNN 的特定领域架构仍然是计算机架构师的热门话题,其中一个主要焦点在于稀疏矩阵架构,出现于 2015 年首次部署 TPU 之后。高效推理引擎基于第一道程序,通过独立步骤过滤掉非常小的值,将权重数量减少大约 10[13]倍,然后使用 Huffman 编码进一步缩小数据,以提高推理性能[14]。Cnvlutin[1]通过避免激活输入为零时的乘法(大概有 44%的乘法是这种类型,其原因可能部分由于调整线性单元、ReLU、非线性函数,将负值转化为零),平均提高 1.4 倍性能。Eyeriss 是新型低功耗数据流架构,通过运行长度编码数据利用零值,以减少内存占用,并通过避免输入为零时的计算来节省能源[8]。Minerva 是一个跨越算法、架构和电路学科的代码设计系统,通过部分修剪具有小值的激活数据和部分量化数据实现 8 倍功率的降低。2017 提出的 SCNN[27]是一个用于稀疏和压缩卷积神经网络(CNN)的加速器。权重和激活函数都被压缩在 DRAM 和内部缓冲区中,从而减少数据传输所需的时间和能耗,并允许芯片存储更大的模型。
2016 年以来的另一个趋势是用于训练的特定领域架构。例如,ScaleDeep[35]是针对 DNN 训练和推理而设计的高性能服务器,包含成千上万的处理器。每个芯片包含重度计算模块和重度存储模块,比例为 3:1,性能比 GPU 高出 6 倍到 28 倍,以 16 位或 32 位浮点运算进行计算。芯片通过高性能互连拓扑结构连接,与 DNN 的通信模式类似。像 SCNN 一样,这种拓扑结构完全是在 CNN 上评估的。2016 年,CNN 在谷歌数据中心的 TPU 工作负荷中仅占 5%。计算机架构师们期待着在其他类型的 DNN 上评估 ScaleDeep,并期待出现硬件实现。
DNN 似乎是 FPGA 作为数据中心计算平台的一个很好的用例,一个实际倍部署的例子是 Catapult[30]。虽然 Catapult 在 2014 年公开发布,但它和最新的 TPU 产品是同一代的,2015 年微软在数据中心部署了 28nm Stratix V FPGA。Catapult 运行 CNN 的速度比服务器快 2.3 倍。也许 Catapult 和 TPU 之间最重要的区别是,为了达到最佳性能,用户必须用低级硬设计语言 Verilog 编写长程序,而不是用高级的 TensorFlow 框架编写短程序。也就是说,TPU 软件相对 FPGA 固件提供了更好的"可编程性"。
结论
尽管 I/O 总线和相对有限的内存带宽限制了 TPU 的利用率(6 个 DNN 应用中有 4 个是内存受限的),但正如 Roofline 性能模型所证明的那样,某些计算的能力提升相对还是比较大的,比如每周期可以完成 65,536 次乘法。这一结果表明 Amdahl 定律的一个推论: 大量廉价资源的低利用率仍然可以提供高性价比的性能。
我们知道推理应用往往是面向终端用户的应用的一部分,因此对响应时间有很高的要求,所以 DNN 架构需要在 99%的情况下表现出良好的延迟特性。
TPU 芯片利用其在 MAC 和片上存储器方面的优势,运行面向特定领域的 TensorFlow 框架编写的短程序的速度比 K80 GPU 芯片快 15 倍,从而使每瓦性能优势提升 29 倍,从而优化了性能/总拥有成本。与 Haswell CPU 芯片相比,相应提升了 29 和 83 倍。
五个架构因素可以解释这种能效差距:
单一处理器。 TPU 只有一个处理器,而 K80 有 13 个,CPU 有 18 个。单线程使系统更容易保证固定的延迟限制。
大型二维乘法单元。 TPU 有一个非常大的二维乘法单元,而 CPU 和 GPU 分别有 18 和 13 个较小的一维乘法单元,二维乘法硬件单元更适合于计算矩阵乘法。
压缩数组。 对二维组织进行阵列收缩,以减少寄存器访问和能量消耗。
8 位整数。 TPU 应用使用 8 位整数运算而不是 32 位浮点运算,以提高计算和内存的效率。
放弃额外功能。 TPU 放弃了 CPU 和 GPU 需要而 DNN 不需要的功能,使 TPU 成本更低,同时节省能源,并允许晶体管被重新用于特定领域的片上存储器。
虽然 CPU 和 GPU 在未来肯定会以更快的速度运行推理,但重新设计的 TPU 通过使用 2015 年左右的 GPU 内存将性能提升了三倍,并将每瓦性能优势提升到 K80 的 70 倍以及 Haswell 的 200 倍。
至少在过去十年里,计算机架构研究人员一直在发表基于模拟的创新成果,使用有限基准,并声称基于通用处理器的改进幅度不超过 10%,而我们现在可以说,部署在真实硬件中的特定领域架构的改进幅度超过了 10 倍[17]。
商业产品之间的数量级差异在计算机架构中比较罕见,甚至可能导致 TPU 成为该领域未来工作的原型。我们预计,今后很多人都会构建类似的架构,并将标准提得更高。
致谢
感谢 TPU 团队所有成员在项目中的贡献[20]。设计、验证和实现类似 TPU 这样的系统硬件和软件,并制造、部署和大规模应用,需要很多人共同努力,正如我们在谷歌看到的那样。
参考文献
- Abadi, M. et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint, 2016; https://arxiv.org/abs/1603.04467
- Albericio, J., Judd, P., Hetherington, T., Aamodt, T., Jerger, N.E., and Moshovos, A. 2016 Cnvlutin: Ineffectual-neuron-free deep neural network computing. In Proceedings of the 43rd ACM/IEEE International Symposium on Computer Architecture (Seoul, Korea), IEEE Press, 2016.
- Asanovic´, K. Programmable neurocomputing. In The Handbook of Brain Theory and Neural Networks, Second Edition, M.A. Arbib, Ed. MIT Press, Cambridge, MA, Nov. 2002; https://people.eecs.berkeley.edu/~krste/papers/neurocomputing.pdf
- Barroso, L.A. and Hölzle, U. The case for energyproportional computing. IEEE Computer 40, 12 (Dec. 2007), 33–37.
- Barr, J. New G2 Instance Type for Amazon EC2: Up to 16 GPUs. Amazon blog, Sept. 29, 2016; https://aws.amazon.com/about-aws/whats-new/2015/04/introducing-a-new-g2-instance-size-the-g28xlarge/
- Barr, J. New Next-Generation GPU-Powered EC2 Instances (G3). Amazon blog, July 13, 2017; https://aws.amazon.com/blogs/aws/new-next-generationgpu-powered-ec2-instances-g3/
- Chen, Y., Chen, T., Xu, Z., Sun, N., and Teman, O. DianNao Family: Energy-efficient hardware accelerators for machine learning. Commun. ACM 59, 11 (Nov. 2016), 105–112.
- Chen, Y.H., Emer, J., and Sze, V. Eyeriss: A spatial architecture for energy-efficient dataflow for convolutional neural networks. In Proceedings of the 43rd ACM/IEEE International Symposium on Computer Architecture (Seoul, Korea), IEEE Press, 2016.
- Clark, J. Google turning its lucrative Web search over to AI machines. Bloomberg Technology (Oct. 26, 2015).
- Dally, W. High-performance hardware for machine learning. Invited talk at Cadence ENN Summit (Santa Clara, CA, Feb. 9, 2016); https://ip.cadence.com/uploads/presentations/1000AM_Dally_Cadence_ENN.pdf
- Dean, J. Large-Scale Deep Learning with TensorFlow for Building Intelligent Systems. ACM webinar, July 7, 2016; https://www.youtube.com/watch?v=vzoe2G5g-w4
- Hammerstrom, D. A VLSI architecture for high-performance, low-cost, on-chip learning. In Proceedings of the International Joint Conference on Neural Networks (San Diego, CA, June 17–21). IEEE Press, 1990.
- Han, S., Pool, J., Tran, J., and Dally, W. Learning both weights and connections for efficient neural networks. In Proceedings of Advances in Neural Information Processing Systems (Montreal Canada, Dec.) MIT Press, Cambridge, MA, 2015.
- Han, S., Liu, X., Mao, H., Pu, J., Pedram, A., Horowitz, M.A., and Dally, W.J. EIE: Efficient Inference Engine on compressed deep neural network. In Proceedings of the 43rd ACM/IEEE International Symposium on Computer Architecture (Seoul, Korea). IEEE Press, 2016.
- Huang, J. AI Drives the Rise of Accelerated Computing in Data Centers. Nvidia blog, Apr. 2017; https://blogs.nvidia.com/blog/2017/04/10/ai-drives-riseaccelerated-computing-datacenter/
- He, K., Zhang, X., Ren, S., and Sun, J. Identity mappings in deep residual networks. arXiv preprint, Mar. 16, 2016; https://arxiv.org/abs/1603.05027
- Hennessy, J.L. and Patterson, D.A. Computer Architecture: A Quantitative Approach, Sixth Edition. Elsevier, New York, 2018.
- Ienne, P., Cornu, T., and Kuhn, G. Special-purpose digital hardware for neural networks: An architectural survey. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology 13, 1 (1996), 5–25.
- Jouppi, N. Google Supercharges Machine Learning Tasks with TPU Custom Chip. Google platform blog, May 18, 2016; https://cloudplatform.googleblog.com/2016/05/Google-supercharges-machinelearning-tasks-with-custom-chip.html
- Jouppi, N. et al, In-datacenter performance of a tensor processing unit. In Proceedings of the 44th International Symposium on Computer Architecture (Toronto, Canada, June 24–28). ACM Press, New York, 2017, 1–12.
- Keutzer, K. If I could only design one circuit ... Commun. ACM 59, 11 (Nov. 2016), 104.
- Krizhevsky, A., Sutskever, I., and Hinton, G. Imagenet classification with deep convolutional neural networks. In Proceedings of Advances in Neural Information Processing Systems (Lake Tahoe, NV). MIT Press, Cambridge, MA, 2012.
- Kung, H.T. and Leiserson, C.E. Algorithms for VLSI processor arrays. Chapter in Introduction to VLSI systems by C. Mead and L. Conway. Addison-Wesley, Reading, MA, 1980, 271–292.
- Lange, K.D. Identifying shades of green: The SPECpower benchmarks. IEEE Computer 42, 3 (Mar. 2009), 95–97.
- Larabel, M. Google Looks to Open Up StreamExecutor to Make GPGPU Programming Easier. Phoronix, Mar. 10, 2016; https://www.phoronix.com/scan.php?page=news_item&px=Google-StreamExec-Parallel
- Metz, C. Microsoft bets its future on a reprogrammable computer chip. Wired (Sept. 25, 2016); https://www.wired.com/2016/09/microsoftbets-future-chip-reprogram-fly/
- Moore, G.E. No exponential is forever: But ‘forever’ can be delayed! In Proceedings of the International SolidState Circuits Conference (San Francisco, CA, Feb. 13). IEEE Press, 2003.
- Parashar, A., Rhu, M., Mukkara, A., Puglielli, A., Venkatesan, R., Khailany, B., Emer, J., Keckler, S.W., and Dally, W.J. SCNN: An accelerator for compressedsparse convolutional neural networks. In Proceedings of the 44th Annual International Symposium on Computer Architecture (Toronto, ON, Canada, June 24–28). IEEE Press, 2017, 27–40.
- Patterson, D.A. Latency lags bandwidth. Commun. ACM 47, 10 (Oct. 2004), 71–75.
- Patterson, D.A. and Ditzel, D.R. The case for the reduced instruction set computer. SIGARCH Computer Architecture News 8, 6 (Sept. 1980), 25–33.
- Putnam, A. et al. A reconfigurable fabric for accelerating large-scale datacenter services. Commun. ACM 59, 11 (Nov. 2016), 114–122.
- Reagen, B., Whatmough, P., Adolf, R., Rama, S., Lee, H., Lee, S.K., Hernández-Lobato, J.M., Wei, G.Y., and Brooks, D. Minerva: Enabling low-power, highly accurate deep neural network accelerators. In Proceedings of the 43rd ACM/IEEE International Symposium on Computer Architecture (Seoul, Korea), IEEE Press 2016.
- Silver, D. et al. Mastering the game of Go with deep neural networks and tree search. Nature 529, 7587 (Sept. 20, 2016).
- Smith, J.E. Decoupled access/execute computer architectures. In Proceedings of the 11th Annual International Symposium on Computer Architecture (Austin, TX, Apr. 26–29). IEEE Computer Society Press, 1982.
- Szegedy, C. et al. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (Boston, MA, June 7–12). IEEE Computer Society Press, 2015.
- Venkataramani, S. et al. ScaleDeep: A scalable compute architecture for learning and evaluating deep networks. In Proceedings of the 44th Annual International Symposium on Computer Architecture (Toronto, ON, Canada, June 24–28). ACM Press, New York, 2017, 13–26.
- Williams, S., Waterman, A., and Patterson, D. Roofline: An insightful visual performance model for multi-core architectures. Commun. ACM 52, 4 (Apr. 2009), 65–76.
- Wu, Y. et al. Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint, Sept. 26, 2016; arXiv:1609.08144
作者
Norman P. Jouppi (jouppi@google.com) 谷歌杰出硬件工程师
Cliff Young (cliffy@google.com) 谷歌大脑团队成员
Nishant Patil (nishantpatil@google.com) 谷歌技术主管
David Patterson (pattrsn@cs.berkeley.edu) 加州大学伯克利分校电子工程与计算机科学学院 Pardee 荣誉教授,谷歌杰出工程师