性能最高提升50％，ECS倚天实例深度学习推理性能实测-阿里云开发者社区

性能最高提升50％，ECS倚天实例深度学习推理性能实测

2022-11-23 1776

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本次实测涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐等四种常见的深度学习推理场景

近几年，深度学习在视觉、自然语言处理、搜索广告推荐等工业界的各个领域广泛落地。深度学习模型参数量的指数级上升、以及新的业务对复杂模型的需求，都要求云厂商的弹性计算能够降低算力成本、提高计算效率，尤其是深度学习的推理，将会成为优化的重点。在此因素影响下，阿里云平头哥团队推出了全球首个 5nm 制程的 ARM Server 芯片倚天710。该芯片基于 ARM Neoverse N2 架构，支持最新的 ARMv9 指令集，其中包括 i8mm，bf16等扩展指令集，能在科学/AI计算领域获得性能优势。

在本文中，我们聚焦于采用倚天710芯片的 ECS倚天实例g8y，对深度学习推理任务的性能进行了测试和比较。

01 Workloads

本次分析，我们选择了四种常见的深度学习推理场景，涵盖图像分类识别、图像目标检测、自然语言处理以及搜索推荐领域。所使用的代表性模型如下：

Area	Task	Model
Vision	Image Classification	Resnet50-v1.5 and VGG19
Vision	Object Detection	SSD-Resnet34
Language	Natural Language Processing	BERT-Large
Recommendation	Click-Through Rate Prediction	DIN

02 Platforms

实例类型

我们在阿里云两种实例类型上进行测试，分别是ECS g8y(倚天710) 和 ECS g7(Ice Lake)，实例均为 8-vCPU。

Deep Learning Framework

在所有平台，我们使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 设备上，TensorFlow 支持两种后端，我们使用 OneDNN 后端。OneDNN 是一个开源的跨平台深度学习库，并且能够集成 Arm Compute Library（Arm设备的机器学习计算库）。在 Arm 设备上使用该后端能够取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是实验版本，因此在 PyTorch 框架上使用默认的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一种浮点数表示形式，其指数位与单精度浮点数（IEEE FP32）保持一致，但是小数位只有 7 位，因此 BF16 的表示范围与 FP32 几乎一致，但是精度较低。BF16 非常适合深度学习，因为通常精度下降并不会显著降低模型的预测精度，但是16位的数据格式却能够节省空间、加速计算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令，大幅提升了深度学习模型的推理性能，在多个场景下跑出了比 g7 更优秀的数据。此外，倚天 710 作为自研芯片，相比 g7 最大有 30% 的价格优势。

下面四幅图分别是 Resnet50，SSD，BERT 和 DIN 模型下的对比结果，其中，Resnet，SSD 和 BERT 都来自 MLPerf Inference Benchmark 项目，DIN 是 alibaba 提出的点击率预测模型。蓝色柱状条是直接性能对比，橙色柱状条是考虑了单位价格的性能对比，例如在 Resnet50 上，g8y 的性能是 g7 的 1.43倍，单位价格的性能是 g7 的 2.05 倍。

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能对比图

说明：此处设置 Batch Size = 32，测试图像尺寸为 224 * 224

Figure 2: SSD 性能对比图

说明：此处 Batch Size = 1，测试图像尺寸为1200 * 1200

Figure 3: BERT 性能对比图

Figure 4: DIN 性能对比图

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是实验性质，因此本次实验采用默认的 OpenBLAS 后端。OpenBLAS 是一个开源的线性代数库，我们为其添加了针对 Arm Neoverse N2 的 BFloat16 矩阵乘法计算的优化实现。

OpenBLAS BFloat16 矩阵乘法优化

矩阵乘法和深度学习存在非常紧密的关系，例如深度学习中常见的 Fully Connected Layer，Convolutional Layer等，最终是被转换成矩阵乘法实现的。因此，加速矩阵乘法最终能加速模型的计算。

OpenBLAS 是一个广泛使用的计算库，默认作为 Numpy，PyTorch 等库的后端，我们在调研中发现该库不支持倚天 710 的 bf16 指令扩展，在和社区交流后，我们决定利用倚天 710 支持的 BFMMLA 等向量指令实现支持 bf16 数据格式的矩阵乘法，实现后性能的到大幅提升，性能对比如图 5 所示。该实现目前已经贡献给开源社区，OpenBLAS 的最新版本 0.3.21 也已经合入。

Figure5: OpenBLAS 矩阵乘法性能对比

说明：参与运算的矩阵的行数和列数均为 1000。

PyTorch CNN Performance

OpenBLAS 作为 PyTorch 的默认后端，在矩阵乘法上的优化可以体现在 PyTorch 实现的深度学习模型中，我们以卷积计算占比较高的模型 VGG19 为例，该模型推理时，所有的卷积算子会被转换为矩阵乘法，并调用 OpenBLAS 完成计算。下图是 VGG 19 的性能对比：

Figure 6: VGG19性能对比图

05 结论

本文的分析显示，在阿里云倚天实例g8y上，多个深度学习模型的推理性能高于同规格 g7，这主要得益于 Arm Neoverse N2 的新指令以及不断更新的软件支持（OneDNN、ACL 和 OpenBLAS）。在这个过程中，阿里云编译器团队贡献了一部分软件优化，后续我们将继续关注该领域的软硬件优化，提高 Arm 系列实例在 ML/AI 方面的竞争力。

性能最高提升50％，ECS倚天实例深度学习推理性能实测

01 Workloads

02 Platforms

实例类型

Deep Learning Framework

BFloat16

03 TensorFlow Performance Comparison

04 PyTorch Performance Comparison

OpenBLAS BFloat16 矩阵乘法优化

PyTorch CNN Performance

05 结论

云服务器ECS

热门文章

最新文章

相关产品

相关课程

相关电子书