利用GPU预热以及同步执行正确计算卷积神经网络推理性能【附代码】

2023-02-14 910

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 笔记

我们在评价一个卷积神经网络模型性能好坏时，通常会用AP，mAP来判断分类准确性，针对速度方面经常使用ms(毫秒)，或者FPS(表示每秒处理多少张图像，或者说处理一张图像用多少秒)。在看一些代码的时候，常常会看到是直接用python中的time函数来计算，比如下面代码：

time1 = time.time()
output = model(image)
time2 = time.time()
total_time =  time2 - time1

但不知道大家在实际测试时候有没有发现一个问题，通过上面的计算给出的时间感觉并不准确，就好像你从运行代码开始，到最终给出的结果这个时间差距好像挺大的。【反正我是这么觉得】

其实这有一定的硬件影响【大家肯定觉得我再说废话，gpu和CPU不同肯定不一样】，那么如何可以更准确的计算这个时间呢？

GPU预热

我在查阅了一些资料的时候以及听到其他一些工程师说有关推理速度的时候，听到了一个词--“预热”，而这里的预热一般指的是GPU的预热。

什么叫GPU的预热呢，打个比方，我们打开电脑或者其他电子产品的时候，如果你立马用设备，会感觉有些卡顿，但如果你稍微等一下，让后台程序都跑起来再用，就明显快很多了，这就是设备的预热。同理的，GPU在你不用的时候是低功耗状态，它会把有些高性能的功能暂时关闭或降低性能，这时候如果你把模型放上面处理，你就能明显感觉到有点满，甚至你从点击程序运行以后要等个几秒钟才出结果，因为这个阶段GPU要完成很多初始化工作【当然了，这也和显卡好坏有关系】。

所以为了可以充分利用起显卡，也为了可以更准确的计算预测时间，我们可以采用模型预热的方式，其实方式很简单，就好比你让模型在显卡上先空跑一段时间。例如这样：

device = torch.device('cuda:0')
model.to(device)
model.eval()
# 预热，让模型先跑20轮
for i in range(20):
    output = model(x)

以ResNet50为例，先来看下没有预热时候测出来的速率：

predict time : 67.120902ms,FPS:14.898488646953012

再来看看预热以后计算出来的速率，是不是和上面比速度有提升呢？

predict time : 55.680942ms,FPS:17.95946634245771

预热代码：

import torch
from torchvision.models import resnet50
import time
epoch = 100
model = resnet50(pretrained=False)
device = torch.device('cuda:0')
x = torch.ones(1, 3, 640, 640).to(device)
model.to(device)
model.eval()
for _ in range(20):
    output = model(x)
times = torch.zeros(epoch)  # 用来存放每次测试结果
randn_input = torch.randn(1, 3, 640, 640).to(device)
with torch.no_grad():
    for i in range(epoch):
        time1 = time.time()
        output = model(randn_input)
        time2 = time.time()
        times[i] = time2 - time1
mean_time = times.mean().item()  # 单位是秒
print("predict time : {:.6f}ms,FPS:{}".format(mean_time*1000, 1/(mean_time)))

异步转同步

其实到这里还没有完，因为在实际计算时间的时候还牵扯一个GPU的异步处理，而python中的time函数往往是在CPU端运行的【如果你的模型本来就是用CPU推理的，那没什么问题】，这就表明你用time函数计算时间时，可能有些数据在GPU上还没处理完呢你就已经给出结果了，因此在利用GPU推理的时候，应当用torch官方提供的torch.cuda.synchronize()将模型切换到同步处理，这样的时间才是更准确的，并用torch.cuda.Event来代替time获得最终的时间。

先看一张图，图的左边是同步执行，右边是异步执行。同步执行中进程A需要等进程B执行完或者给一个响应才会继续执行进程A，而在异步执行中，进程A并不需要等待进程B的响应然后再继续执行，这就有可能会出现一种情况，一个代码可能比另一个代码先执行完。打个比方，进程A是CPU，进程B是GPU，你的模型是在GPU上执行的，如果你用time函数，实际得出的结果是进程A的，但你的模型其实已经在B中完成了，那么你这个时间就是不准确的。

为了可以更精确的判断我们的模型推理性能，我们需要将这个过程从异步转为同步。代码如下：

import torch
from torchvision.models import resnet50
import time
epoch = 100
model = resnet50(pretrained=False)
device = torch.device('cuda:0')
x = torch.ones(1, 3, 640, 640).to(device)
starter, ender = torch.cuda.Event(enable_timing=True), torch.cuda.Event(enable_timing=True)
model.to(device)
model.eval()
for _ in range(20):
    output = model(x)
times = torch.zeros(epoch)  # 用来存放每次测试结果
randn_input = torch.randn(1, 3, 640, 640).to(device)
with torch.no_grad():
    for i in range(epoch):
        starter.record()
        output = model(randn_input)
        ender.record()
        # 异步转同步
        torch.cuda.synchronize()
        times[i] = starter.elapsed_time(ender)  # 单位是毫秒
mean_time = times.mean().item()
print("predict time : {:.6f}ms,FPS:{}".format(mean_time, 1000/mean_time))

elapsed_time()这个函数返回的时间单位是毫秒，需要和time函数区分。用synchronize()可以将GPU默认的异步转同步，等待事件的完成。

现在再来看一下这次的测量时间：

predict time : 47.589127ms,FPS:21.01320347146227

注意，上面说的这些东西也受硬件、分辨率、以及你模型大小以及计算量影响的，上面说的仅是一个参考。

利用GPU预热以及同步执行正确计算卷积神经网络推理性能【附代码】

GPU预热

异步转同步

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

利用GPU预热以及同步执行正确计算卷积神经网络推理性能【附代码】

GPU预热

异步转同步

热门文章

最新文章

相关课程

相关电子书