GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

简介: GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

3.2 通过推理延迟分层网络

image.png图5

为了设计由推理延迟划分的网络,选择直接度量搜索空间中网络的延迟。因为搜索空间的大小呈指数级大,通过从它中采样数百万个网络来近似搜索空间。采样技术对于捕获搜索空间的真实分布至关重要,这里使用Sobol序列,其优点在图5中很简单。采样是一种低成本的操作,可以在一分钟内获得数百万个样本。

具有挑战是测量采样网络的延迟。由于TensorRT已经主导了MLPerf推理基准,而又希望度量由TensorRT优化的推理延迟。然而,TensorRT需要几分钟来构建测量的推理引擎,这使得测量所有采样网络不可行。

作者通过增加每一层的延迟来近似一个网络的延迟。虽然搜索空间呈现了1030个网络,但这些层的配置却很有限,例如,在例子中是104个网络。因此,可以通过构建一个以输入数据形状和Layer配置作为关键的延迟表来显著加快延迟测量的速度。

给定一个网络,通过Layer的迭代来查找延迟。如果表中不存在一个Layer,则只对它进行基准测试,并在表中记录它的延迟。最后,网络延迟是所有Layer的延迟之和。

image.png图4

从图4可以看出,表估计延迟接近网络的实际延迟,表估计平均高于实际端到端测量值75µs。因为整个网络比单层有更多的层融合机会。对∼104层进行基准测试仍然是一项昂贵的任务,在多gpu上并行管理延迟表,以加快从几周到几天的进程。

3.3 GPUNet的整体架构

image.png

3.4 为什么GPUNet这么快?

1、Mixed types of activation

图6显示,GPUNetRELUSwish之间切换,但EfficientNetFBNet在所有层中都使用了Swish。图3.A表明,Swish大大增加了延迟。GPUNet的一些层使用RELU来减少其他机会以提高精度的延迟,例如,更大的滤波器。

2、Fewer expansions in IRB

图3.C显示,通过将所有IRB的expansions从1增加到6,网络延迟几乎增加了一倍。expansions是搜索空间的一部分,所以一些GPUNet层往往有较小的expansions来节省延迟。

3、Wider and Deeper

在一个阶段中的过滤器(宽)和层数(深)是搜索空间的一部分。由于混合激活的延迟节省和较少的expansions,GPUNet趋向于比FBNetEfficientNet更宽更深。

在同一精度组,FBNetV3-B遵循16→24→40→72→120→183→224,EfficientNet-B2遵循32→16→24→48→88→120→208→352,但GPUNet-1FBNetV3-BEfficientNet-B2的模式24→64→96→160→288→448。

此外,GPUNet-2有33层,比FBNetV3-F多2层,比EfficientNet-B3多5层。众所周知,更深网络和更宽的网络具有更好的准确性;因此,GPUNet的准确性在每一组内都优于Baseline。

4、Larger Resolution

GPUNet-(1和2)的分辨率分别比EfficientNet-B2EfficientNet-B3大32和64,比FBNetV3-BFBNetV3-F分别大72和120。使用大分辨率通常可以提高精度;因此,GPUNet显示出比Baseline更好的精度和更高的FLOPS


3实验


分类任务

检测任务


4参考


[1].Searching the Deployable Convolution Neural Networks for GPUs


5推荐阅读


即插即用 | 英伟达提出FAN,鲁棒性和高效性超越ConvNeXt、Swin

CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识

ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
弹性计算
2024年阿里云免费云服务器及学生云服务器申请教程参考
2024年阿里云继续推出免费学生云服务器与免费试用云服务器,其中学生云服务器最长可免费7个月(1个月首次领用+6个月免费续领),免费试用云服务器分为个人免费云服务器和企业免费云服务器,最长免费试用时长是3个月。下面小编来介绍一下阿里云免费云服务器及学生云服务器的申请教程。
54638 54
2024年阿里云免费云服务器及学生云服务器申请教程参考
|
10月前
|
人工智能 前端开发 算法
科技云报到:从大模型到云端,“AI+云计算”还能讲出什么新故事
科技云报到:从大模型到云端,“AI+云计算”还能讲出什么新故事
287 3
|
存储 缓存 Unix
从原理到实践:掌握DPDK内存池技术(上)
从原理到实践:掌握DPDK内存池技术
|
机器学习/深度学习 存储 人工智能
ONNX 与安全:保护模型免受攻击
【8月更文第27天】随着人工智能和机器学习模型的应用越来越广泛,模型的安全性也成为了人们关注的重点。Open Neural Network Exchange (ONNX) 作为一种开放的标准格式,不仅可以促进不同框架之间的模型共享,还面临着如何保护模型不被恶意攻击的风险。本文将探讨 ONNX 在模型安全方面的考虑,以及如何利用 ONNX 和其他技术来保护模型免受攻击。
816 4
|
存储 编解码 Android开发
NV21、NV12、YV12、RGB、YUV、RGBA、RGBX8888等图像色彩编码格式区别
NV21、NV12、YV12、RGB、YUV、RGBA、RGBX8888都是常见的图像颜色编码格式,它们之间的主要区别在于色彩空间和数据排列方式。
350 0
|
机器学习/深度学习 传感器 编解码
【多传感器融合】BEVFusion: 激光雷达和摄像头融合框架 NeurIPS 2022
BEVFusion提出一个融合多摄像头和激光雷达数据的框架,可用于3D检测。在自动驾驶领域,通过独立处理并融合摄像头和激光雷达数据,可以显著提升3D对象检测的准确性和稳健性,尤其是在激光雷达可能出现故障的真实场景中。
3911 57
【多传感器融合】BEVFusion: 激光雷达和摄像头融合框架 NeurIPS 2022
|
机器学习/深度学习 计算机视觉
【YOLO性能对比试验】YOLOv9c/v8n/v6n/v5n的训练结果对比及结论参考
【YOLO性能对比试验】YOLOv9c/v8n/v6n/v5n的训练结果对比及结论参考
|
机器学习/深度学习 编解码 自动驾驶
自动驾驶感知多任务框架 | MultiTask V3、HybridNets和YOLOP谁更强呢?
自动驾驶感知多任务框架 | MultiTask V3、HybridNets和YOLOP谁更强呢?
410 1
|
存储 编译器 API
高性能收发原始数据包的框架(Netmap)
高性能收发原始数据包的框架(Netmap)
552 1
|
人工智能 程序员 开发者
《深入浅出DPDK》—第2章2.5节Cache预取
以上章节讲到了多种和Cache相关的技术,但是事实上,Cache对于绝大多数程序员来说都是透明不可见的。程序员在编写程序时不需要关心是否有Cache的存在,有几级Cache,每级Cache的大小是多少;不需要关心Cache采取何种策略将指令和数据从内存中加载到Cache中;也不需要关心Cache何时将处理完毕的数据写回到内存中。
5057 0