GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

简介: GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

3.2 通过推理延迟分层网络

image.png图5

为了设计由推理延迟划分的网络,选择直接度量搜索空间中网络的延迟。因为搜索空间的大小呈指数级大,通过从它中采样数百万个网络来近似搜索空间。采样技术对于捕获搜索空间的真实分布至关重要,这里使用Sobol序列,其优点在图5中很简单。采样是一种低成本的操作,可以在一分钟内获得数百万个样本。

具有挑战是测量采样网络的延迟。由于TensorRT已经主导了MLPerf推理基准,而又希望度量由TensorRT优化的推理延迟。然而,TensorRT需要几分钟来构建测量的推理引擎,这使得测量所有采样网络不可行。

作者通过增加每一层的延迟来近似一个网络的延迟。虽然搜索空间呈现了1030个网络,但这些层的配置却很有限,例如,在例子中是104个网络。因此,可以通过构建一个以输入数据形状和Layer配置作为关键的延迟表来显著加快延迟测量的速度。

给定一个网络,通过Layer的迭代来查找延迟。如果表中不存在一个Layer,则只对它进行基准测试,并在表中记录它的延迟。最后,网络延迟是所有Layer的延迟之和。

image.png图4

从图4可以看出,表估计延迟接近网络的实际延迟,表估计平均高于实际端到端测量值75µs。因为整个网络比单层有更多的层融合机会。对∼104层进行基准测试仍然是一项昂贵的任务,在多gpu上并行管理延迟表,以加快从几周到几天的进程。

3.3 GPUNet的整体架构

image.png

3.4 为什么GPUNet这么快?

1、Mixed types of activation

图6显示,GPUNetRELUSwish之间切换,但EfficientNetFBNet在所有层中都使用了Swish。图3.A表明,Swish大大增加了延迟。GPUNet的一些层使用RELU来减少其他机会以提高精度的延迟,例如,更大的滤波器。

2、Fewer expansions in IRB

图3.C显示,通过将所有IRB的expansions从1增加到6,网络延迟几乎增加了一倍。expansions是搜索空间的一部分,所以一些GPUNet层往往有较小的expansions来节省延迟。

3、Wider and Deeper

在一个阶段中的过滤器(宽)和层数(深)是搜索空间的一部分。由于混合激活的延迟节省和较少的expansions,GPUNet趋向于比FBNetEfficientNet更宽更深。

在同一精度组,FBNetV3-B遵循16→24→40→72→120→183→224,EfficientNet-B2遵循32→16→24→48→88→120→208→352,但GPUNet-1FBNetV3-BEfficientNet-B2的模式24→64→96→160→288→448。

此外,GPUNet-2有33层,比FBNetV3-F多2层,比EfficientNet-B3多5层。众所周知,更深网络和更宽的网络具有更好的准确性;因此,GPUNet的准确性在每一组内都优于Baseline。

4、Larger Resolution

GPUNet-(1和2)的分辨率分别比EfficientNet-B2EfficientNet-B3大32和64,比FBNetV3-BFBNetV3-F分别大72和120。使用大分辨率通常可以提高精度;因此,GPUNet显示出比Baseline更好的精度和更高的FLOPS


3实验


分类任务

检测任务


4参考


[1].Searching the Deployable Convolution Neural Networks for GPUs


5推荐阅读


即插即用 | 英伟达提出FAN,鲁棒性和高效性超越ConvNeXt、Swin

CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识

ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
4月前
|
存储 人工智能 固态存储
NVIDIA破局第二曲线创新问题之NVIDIA大模型平台软件在云智能时代的作用如何解决
NVIDIA破局第二曲线创新问题之NVIDIA大模型平台软件在云智能时代的作用如何解决
39 0
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
7月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
7月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU V100 4卡:高效AI推理的领航者
随着人工智能的发展,AI推理在各种应用中扮演着越来越重要的角色。本文将详细介绍如何利用阿里云GPU产品中的V100 4卡完成高效的AI推理。我们将涵盖什么是AI推理、V100 4卡的产品介绍、程序代码以及具体使用流程,带你一步步了解和应用这一先进的技术。
927 0
|
7月前
|
机器学习/深度学习 人工智能 芯片
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
1173 0
|
人工智能 分布式计算 算法
详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能(2)
详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能
649 0
|
机器学习/深度学习 编解码 文件存储
GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(一)
GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(一)
248 0
|
人工智能 网络协议 算法
基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会阿里云开发者社区观看入口正式开放,阿里云高级技术专家林立翔带来了题为《基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能》的分享。
基于阿里云弹性GPU服务的神龙AI加速引擎无缝提升AI训练性能
|
机器学习/深度学习 人工智能 文字识别
LabVIEW开放神经网络交互工具包【ONNX】,大幅降低人工智能开发门槛,实现飞速推理
图形化编程,无需掌握文本编程基础即可完成机器视觉项目;支持Caffe2, PyTorch, MXNet,ML.NET,TensorRT 和 Microsoft CNTK等多种框架模型的调用并实现推理;支持Nvidia GPU、Intel等多种加速;集成了onnxRuntime加速推理引擎,实现CUDA,TensorRT加速
242 0
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
333 0