GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

简介: GPUNet | 英伟达打造最强轻量化模型,让你享受高精度、高速度的同时简单部署(二)

3.2 通过推理延迟分层网络

image.png图5

为了设计由推理延迟划分的网络,选择直接度量搜索空间中网络的延迟。因为搜索空间的大小呈指数级大,通过从它中采样数百万个网络来近似搜索空间。采样技术对于捕获搜索空间的真实分布至关重要,这里使用Sobol序列,其优点在图5中很简单。采样是一种低成本的操作,可以在一分钟内获得数百万个样本。

具有挑战是测量采样网络的延迟。由于TensorRT已经主导了MLPerf推理基准,而又希望度量由TensorRT优化的推理延迟。然而,TensorRT需要几分钟来构建测量的推理引擎,这使得测量所有采样网络不可行。

作者通过增加每一层的延迟来近似一个网络的延迟。虽然搜索空间呈现了1030个网络,但这些层的配置却很有限,例如,在例子中是104个网络。因此,可以通过构建一个以输入数据形状和Layer配置作为关键的延迟表来显著加快延迟测量的速度。

给定一个网络,通过Layer的迭代来查找延迟。如果表中不存在一个Layer,则只对它进行基准测试,并在表中记录它的延迟。最后,网络延迟是所有Layer的延迟之和。

image.png图4

从图4可以看出,表估计延迟接近网络的实际延迟,表估计平均高于实际端到端测量值75µs。因为整个网络比单层有更多的层融合机会。对∼104层进行基准测试仍然是一项昂贵的任务,在多gpu上并行管理延迟表,以加快从几周到几天的进程。

3.3 GPUNet的整体架构

image.png

3.4 为什么GPUNet这么快?

1、Mixed types of activation

图6显示,GPUNetRELUSwish之间切换,但EfficientNetFBNet在所有层中都使用了Swish。图3.A表明,Swish大大增加了延迟。GPUNet的一些层使用RELU来减少其他机会以提高精度的延迟,例如,更大的滤波器。

2、Fewer expansions in IRB

图3.C显示,通过将所有IRB的expansions从1增加到6,网络延迟几乎增加了一倍。expansions是搜索空间的一部分,所以一些GPUNet层往往有较小的expansions来节省延迟。

3、Wider and Deeper

在一个阶段中的过滤器(宽)和层数(深)是搜索空间的一部分。由于混合激活的延迟节省和较少的expansions,GPUNet趋向于比FBNetEfficientNet更宽更深。

在同一精度组,FBNetV3-B遵循16→24→40→72→120→183→224,EfficientNet-B2遵循32→16→24→48→88→120→208→352,但GPUNet-1FBNetV3-BEfficientNet-B2的模式24→64→96→160→288→448。

此外,GPUNet-2有33层,比FBNetV3-F多2层,比EfficientNet-B3多5层。众所周知,更深网络和更宽的网络具有更好的准确性;因此,GPUNet的准确性在每一组内都优于Baseline。

4、Larger Resolution

GPUNet-(1和2)的分辨率分别比EfficientNet-B2EfficientNet-B3大32和64,比FBNetV3-BFBNetV3-F分别大72和120。使用大分辨率通常可以提高精度;因此,GPUNet显示出比Baseline更好的精度和更高的FLOPS


3实验


分类任务

检测任务


4参考


[1].Searching the Deployable Convolution Neural Networks for GPUs


5推荐阅读


即插即用 | 英伟达提出FAN,鲁棒性和高效性超越ConvNeXt、Swin

CVPR2022 Oral | CosFace、ArcFace的大统一升级,AdaFace解决低质量图像人脸识

ICLR2022 ViDT | 检测超越YOLOS,实例分割超越SOLOv2,同时达到实时!!!

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
26天前
|
人工智能 测试技术
LIMO:上海交大推出高效推理方法,仅需817条训练样本就能激活大语言模型的复杂推理能力
LIMO 是由上海交通大学推出的一种高效推理方法,通过极少量的高质量训练样本激活大语言模型的复杂推理能力。
142 11
|
2月前
|
人工智能 自动驾驶 安全
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
Cosmos 是英伟达推出的生成式世界基础模型平台,旨在加速物理人工智能系统的发展,特别是在自动驾驶和机器人领域。
264 15
Cosmos:英伟达生成式世界基础模型平台,加速自动驾驶与机器人开发
|
2月前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
|
机器学习/深度学习 存储 人工智能
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
训练和微调大型语言模型对于硬件资源的要求非常高。目前,主流的大模型训练硬件通常采用英特尔的CPU和英伟达的GPU。然而,最近苹果的M2 Ultra芯片和AMD的显卡进展给我们带来了一些新的希望。
1567 0
|
10月前
|
人工智能 文字识别 并行计算
面壁推出超强端侧多模态模型,推理仅需8G显存!
面壁小钢炮 MiniCPM 系列,再次推出超强端侧多模态模型 MiniCPM-Llama3-V 2.5,且支持 30+ 多种语言
|
机器学习/深度学习 人工智能 芯片
一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限,华为如何力挽狂澜?
近年来,全球范围内的芯片禁令不断升级,给许多企业和科研机构带来了很大的困扰,需要在技术层面进行创新和突破。一方面,可以探索使用国产芯片和其他不受限制的芯片来替代被禁用的芯片;另一方面,可以通过优化算法和架构等方法来降低对特定芯片的依赖程度。
|
10月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案
阿里云弹性计算林立翔在【AIGC】话题下带来了题为《基于阿里云GPU的AIGC小规模训练优化方案》的主题演讲,围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。
|
10月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云GPU V100 4卡:高效AI推理的领航者
随着人工智能的发展,AI推理在各种应用中扮演着越来越重要的角色。本文将详细介绍如何利用阿里云GPU产品中的V100 4卡完成高效的AI推理。我们将涵盖什么是AI推理、V100 4卡的产品介绍、程序代码以及具体使用流程,带你一步步了解和应用这一先进的技术。
1062 0
|
10月前
|
机器学习/深度学习 人工智能 芯片
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势
1272 0
|
存储 人工智能 自然语言处理
高性能计算与多模态处理的探索之旅:英伟达GH200性能优化与GPT-4V的算力加速未来
随着人工智能技术的不断发展,多模态大模型成为越来越重要的发展趋势。GPT-4V(GPT-4 近日开放的视觉模态)大型多模型(LMMs)扩展大型语言模型(LLMs)以增强多感知技能(如视觉理解等)从而实现更强大的通用智能。本文着重对GPT-4V进行深入分析,以进一步深化对LMM的理解。在此本文分析核心是GPT-4V可以执行的任务,同时包含用于探测其能力质量和通用性的测试样本。