【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测-阿里云开发者社区

【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测

2018-01-08 2325

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 上周爆出的英特尔CPU漏洞门受到很大关注，Linux内核针对Meltdown漏洞出了PIT补丁，但据报告该补丁对性能影响很大。那么它对机器学习任务的影响如何呢？本文作者对神经网络（TensorFlow&Keras）、Scikit-learn、XGBoost等进行了使用和不使用PTI补丁时的性能比较，发现该补丁对性能的影响非常依赖于任务——有些任务不受影响，有些任务的性能下降了40％。

就在上周，互联网爆出两个新的严重漏洞，分别是 Meltdown和Spectre,这两组漏洞几乎影响所有的主流CPU。这些漏洞都源于处理器的“推演执行”（speculative execution）的bug，它允许攻击者读取（并潜在地执行）其各自进程之外的内存位置，这意味着程序可以读取其他软件内存中的敏感数据。

为了解决这个问题，Linux内核合并了一个名为KAISER或PTI（页表隔离）的补丁，这个补丁有效地解决了Meltdown攻击。但是，这个补丁对性能造成了很大的影响，据报告CPU性能下降达到5％至35％（甚至一些综合benchmark性能下降超过50％）。

但是，PTI的性能问题在很大程度上取决于当前的任务，大幅度下降可能仅会出现在FSMark等综合benchmark中。因此，我们提出一个问题：在机器学习应用程序中，性能受到怎样的影响？

安装

为了比较使用和不使用PTI补丁的性能，我安装了一台新的安装了Intel microcode的Ubuntu 16.04机器，并将Ubuntu 16.04（4.10.0-42-generic）上自动安装的最新内核与最新的有PTI补丁的主线内核版本（4.15.0–041500rc6-generic）进行比较。我使用了Python 3.6（以及来自pip的额外软件包）的Anaconda来执行测试。

我用于测试的机组包括英特尔酷睿i7-5820K（Haswell-E，stock clocks）和64GB DDR4 @ 2400MHz。值得注意的是，AMD处理器没有启用PTI补丁，因为它们不受Meltdown攻击的影响——所以如果你使用AMD的话，性能不会受到任何影响。

结果

df58c1d12c1b77fc20b824e59d77c7b80d98582a

首先，所有的性能都出现了轻微的下降，但是卷积层模型的推断性能下降很大。特别是AlexNet，前向传播速度慢了大约5％，但反向传播速度几乎没变——训练性能受到的影响大约是推理的一半。

就Keras的raw操作而言，全连接层和LSTM层的性能几乎没有受到影响，但卷积层的性能降了10％。

对于Alexnet和MNIST基准测试，我使用了TensorFlow教程模型，对于Keras，我使用了随机初始化模型和几个有问题的层，并测试了随机数据的推理速度。值得注意的是，这些基准测试完全在CPU上运行。

68e2bb7a6fbacfccb2598851840a490c97bd67f6

我在这里使用了Scikit-learn来衡量“经典”ML和数据科学算法的性能。从上图中可以看到，与神经网络相比，经典ML算法的性能下降更大，PCA和线性回归/逻辑回归受到的影响最严重。造成这么大的性能下降的原因可能是某些数学运算受到严重影响，我将在下文的NumPy benchmarks讨论这一点。

有意思的是，kNearestNeighbour完全不受PTI的影响，而且看起来在新内核上甚至表现更好。这可能只是在error的范围之内，但也有可能是其他一些内核的改进有助于提高速度。

我还从内存缓存的文件中提取了一个pandas.read_csv（）的benchmark，目的是看看PTI对CSV的解析速度有多大的影响——在读取 Bosch Kaggle竞赛数据集的速度下降是6%。

所有scikit-learn benchmark也都在Bosch数据集上计算了——我发现通常对于ML benchmark表现较好，因为这个数据集具有规模大，标准化和格式良好的数据（虽然kNN和Kmeans是在一个子集上计算的，因为使用完整的数据需要的时间太长）。

d306a073fcc27d04658e945236db34ddf9b356bd

这些benchmark可能是这里最综合的，测试的是一个单一的scipy操作的速度。但是，上图的结果显示，PTI的性能受到的影响是极端任务依赖性（ task-dependent）的。我们可以看到，大多数操作只受到很小的影响，点积（dot product）和FFT对性能影响很小。

当PTI启用时，SVD，LU分解和QR分解都会大幅度影响性能，QR分解从190GFLOPS降低到110GFLOPS，降低了37％。这可能有助于解释PCA（主要依赖于SVD）和线性回归（主要依赖于QR分解）的性能下降。

这些 benchmark是使用英特尔自己的ibench软件包完成的，只使用了Anaconda而不是英特尔的python发行版。

41bb37cedcd86ccc695332a85f0c23a84d747df7

XGBoost的结果有点意思。大多数情况下，使用较少的线程数时，无论使用慢的Exact方法还是快的直方图方法，PTI对XGBoost的性能影响都可以忽略不计。

但是，当使用的线程非常多时，CPU同时处理更多的column，使用PTI的处理速度就下降了。

这并不是XGBoost如何在大量内核上执行的一个完美展示（因为这是在12个逻辑内核上运行了40个线程），但是它表明PTI对CPU同时处理很多线程时的影响更大。不过，我没法访问任何可以修改内核的多内核数量的服务器，所以没法得到更深入的结果。

与scikit-learn一样，这些基准是在Bosch数据集上进行的。

原文发布时间为：2018-01-07

本文作者：Mikel Bober-Irizar

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接：【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测

【最大降40%】CPU漏洞补丁对机器学习和深度学习性能影响实测

新智元

热门文章

最新文章

相关课程

相关电子书

相关实验场景