PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比-阿里云开发者社区

PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

2023-01-01 1215

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PyTorch 2.0 于 2022 年 12 月上旬在 NeurIPS 2022 上发布，它新增的 torch.compile 组件引起了广泛关注，因为该组件声称比 PyTorch 的先前版本带来更大的计算速度提升。

这对我们来说是一个好消息，训练时间改进的结果令人印象深刻。PyTorch 团队在发布新闻稿和 PyTorch GitHub 上没有提到的是 PyTorch 2.0 推理性能。所以我们来对推理的速度做一个简单的研究，这样可以了解 PyTorch 2.0 如何与其他推理加速器（如 Nvidia TensorRT 和 ONNX Runtime）是否还有差距。

我们使用 Nebuly 的开源库 Speedster 运行了一些推理测试，对于这个我们这个测试，Speedster 允许我们运行 TensorRT、ONNX Runtime，并将它们与 16 位和 8 位动态和静态量化相结合（仅用 2 行代码）。在测试期间，我们还使用 Speedster 收集有关顶级策略的性能信息，以减少推理延迟。

这次测试是在带有 ResNet 的 Nvidia 3090Ti GPU 进行的，与 PyTorch 2.0 新闻稿中示例中使用的模型相同。

PyTorch 2.0 的推理性能结果如下图:

以下是测试结果的 4个要点总结：

批量大小越大PyTorch 2.0 的速度提升越明显（与前版本相比）。fp16的精度在大批次时比fp32编译版本更有效，这应该是因为Pytorch 2.0编译主要是为训练而设计的，训练的批大小一般会高于推理（线上产品使用时）。对fp16的优化是很正常的，因为在训练时，我们一般都会使用混合精度，特别是对于大型模型来说。
ONNX Runtime 在较小的批量大小下比 PyTorch 2.0 表现更好，而在较大的批量大小下结果恰恰相反。这也是因为 ONNX Runtime 主要是为推理而设计的（通常使用较小的批大小），而PyTorch 2.0 的主要目标是训练。
PyTorch eager 模式和 PyTorch 2.0（已编译）都显示批大小 1 和 8 的运行时间相同。这说明批大小等于 1 时没有使用全部计算能力，而其他推理的优化器，如 ONNX 运行时能够更好地管理计算能力。还是那句话这可能与 PyTorch 编译器主要为训练而设计有关，它会忽略批大小不足以使用其内核的所有计算能力的情况。
在经过测试的 Nvidia GPU 上，TensorRT 在小批量和大批量方面的表现都远远优于其他。随着批量大小的增加，相对速度变得更快。这显示了 Nvidia 能够在推理时更好地利用硬件缓存，因为激活占用的内存随着批量大小线性增长，适当的内存使用可以大大提高性能。

基准测试高度依赖于所使用的数据、模型、硬件和优化技术。为了在推理中获得最佳性能，始终建议在将模型部署到生产环境之前测试。

参考

Speedster 是一个开源工具，可硬件上自动应用 SOTA 优化技术实现最大的推理加速。

本文的代码在这里：

https://avoid.overfit.cn/post/0db857b606044b1db30210e32ca071af

PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

热门文章

最新文章

相关课程

相关电子书

推荐镜像