即插即用! | 苹果推出新型网络架构 FastViT: 又快又强又稳,端侧一键部署毫无压力!

简介: 即插即用! | 苹果推出新型网络架构 FastViT: 又快又强又稳,端侧一键部署毫无压力!

640.png


Title: FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

Paper: https://arxiv.org/pdf/2303.14189.pdf

导读

本文介绍了一种新颖的混合视觉架构——FastViT,其有机的结合了CNNsTransformer,无论在精度或者运行效率上均有了稳定的提升。FastViT的主要贡献是引入了一种新的Token混合算子,命名为叫做RepMixer,听名字就知道结合结构重新参数化技术啦。该算子的作用原理是通过消除网络中的skip connection来降低内存访问成本。与此同时,本文还采用了traintime overparametrization和大内核卷积等技术来提高精度。

实验结果表明,FastViT

  • 在移动设备上的速度比最近的混合Transformer架构CMT3.5倍!
  • ImageNet数据集上的精度相同,但速度比EfficientNet4.9倍且比ConvNeXt1.9倍!
  • 在相似的延迟下,FastViTImageNet上的Top-1精度比MobileOne高出4.2%

就问你服不服?总而言之,FastViT在多个任务(图像分类、检测、分割甚至是 3D 网格回归)上的表现均优于竞争对手,特别是在移动设备和桌面GPU上都有显着的延迟改进。此外,FastViT模型能够较好的适应域外和破损数据,相较于其它SOTA架构具备很强的鲁棒性和泛化性能。说得我都想赶紧替换上去了,真香!

方法

上图为FastViT的整体框架图,如上所述,这是一种混合Transformer模型,其架构是基于CVPR'2022 Oral上的一篇工作PoolFormer改进的:

PoolFormer is instantiated from MetaFormer by specifying the token mixer as extremely simple operator, pooling. PoolFormer is utilized as a tool to verify MetaFormer hypothesis "MetaFormer is actually what you need" (vs "Attention is all you need").

时间宝贵,我们参照上面示意图快速过一下。

上述框架图中最左侧的部分是整体的模块示意图,共包含一个Stem层和四个Stage,分别作用在不同的尺度上,最后是接入一个  的深度可分离MobileOne块和一个平均池化层直接套个全连接输出最终的分类结果。

首先,从上往下观察,Stem部分在右上角那里,同其余Stage内的模块一样,都是套用了结构参数化技术,常规套路,用于推理时融合算子加速用的。其次,可以看到,针对每个Stage的不同特性,这里采用不同的结构去捕获不同层级的特征。具体的,看下图(a)先,这里主要引入了

可以看到,针对每个Stage的不同特性,这里采用不同的结构去捕获不同层级的特征,但整体范式上还是套用了结构参数化技术,常规套路。先看下图(a)部分,此处主要采用了分解机制。图(c)部分眼熟的小伙伴一眼就闻到了ConvNeXt的味道,(⊙o⊙)…。重点可能是放在图(d),也就是本文反复强调的RepMixer,跟MetaFormer一样,也是一种Token混合算子,主要功效是对跳跃连接进行重参数化改造,有助于减轻内存访问成本。

类似于ConvNeXtFastViT也是由里而外逐步做实验去优化的,具体的改进方案如下所示:

下表给出它的不同配置:

为了验证重参数化跳跃连接的好处,作者对MetaFormer架构中最高效的Token混合算子之一,即PoolingRepMixer进行了相关实验:

其中,两个压缩过的模型都具有约1.8G FLOPs。实验环境是在iPhone 12 Pro移动设备上对各种输入分辨率的模型进行时间测量,分辨率从224×2241024×1024逐步缩放。从图中可以看出,RepMixer显著优于Pooling算子,尤其是在更高的分辨率下。观察下384×384这里,使用RepMixer可以使延迟降低25.1%,而在更大的分辨率例如1024×1024下,延迟直接降低至43.9%,Cool!

为了进一步提高效率(参数数量、FLOPs 和延迟),本文设计了一种分解版本替换了所有的密集卷积(如)。但是,参数量低了性能肯定会受影响啦。所以,为了增加拟合能力,作者执行线性训练时超参数化,具体可参考MobileOne论文。

此外,在卷积的初始阶段、Patch Embedding和投影层中进行MobileOne风格的超参数化有助于提高性能,如下表所示:

可以看出,训练时超参数化可以使FastViT-SA12模型在ImageNet上的Top1精度直接提高0.6%。哪怕是在较小的FastViT-S12变体中,Top-1精度也能提高0.9%

然而,训练时超参数化会导致由于添加分支所带来的计算开销而增加训练时间(多分支并行的通病)。因此,为了解决此问题,在该架构中,我们只对那些分解层进行超参数化,这些层位于卷积初始阶段、Patch Embedding和投影层中。这些层的计算成本比网络的其余部分要低,因此超参数化这些层不会显著增加训练时间。例如,FastViT-SA12使用训练时超参数化的训练时间比在相同设置下不使用超参数化的训练时间长 6.7%,FastViT-SA36也仅为4.4%。

最后,便是大卷积核的魔力了,笔者先前讲了挺多的,有兴趣的自行去翻阅『CVHub』历史文章:

总的来说,随着感受野的增加,大核卷积有助于提高模型的鲁棒性。因此,结合大核卷积是提高模型性能和鲁棒性的有效方法。

效果

不说了,一句话概括就是又快又强!值得一提的是,作者还将其扩展到 3D 手部网格估计:

这是最终的效果图,看来还是苹果香啊!哈哈哈~~~

总结

本文提出了一种通用的混合视觉转换器,它在多种计算结构上非常高效,包括移动设备和桌面级 GPU。通过结构重参数化,所提模型FastViT显著降低了内存访问成本,尤其是在高分辨率下提速明显。此外,通过进一步的架构优化,最终提高了 ImageNet 分类任务和其他下游任务(如目标检测、语义分割和 3D 手部网格估计)的性能,同时对域外数据和损失数据具备很强的泛化性和鲁棒性!



目录
相关文章
|
25天前
|
存储 关系型数据库 算法框架/工具
Ceph 架构以及部署
Ceph 架构以及部署
68 26
|
5天前
|
弹性计算 运维 关系型数据库
云上Serverless高可用架构一键部署体验与测评
在数字化转型背景下,Serverless架构因其实现业务敏捷、降低成本及提升服务可靠性而备受青睐。本文以阿里云Serverless应用引擎(SAE)为核心,展示了一种高可用、低成本且易于扩展的解决方案。通过单地域双可用区部署,构建了具备自动伸缩与故障恢复能力的架构。借助阿里云的一键部署功能,大幅简化了搭建流程,实现了快速部署,并通过性能与成本分析验证了其优势。对比传统ECS,SAE在资源利用与运维效率上表现更佳,特别适合平均负载较低的应用场景。
|
15天前
|
存储 Ubuntu Linux
NFS服务部署全攻略:从零到一,轻松驾驭网络文件系统,让你的文件共享像飞一样畅快无阻!
【8月更文挑战第5天】NFS(网络文件系统)能让网络中的电脑无缝共享文件与目录。基于客户端-服务器模式,用户可像访问本地文件般透明操作远程文件。部署前需准备至少两台Linux机器:一台服务器,其余作客户端;确保已装NFS相关软件包且网络通畅。服务器端安装NFS服务与rpcbind,客户端安装nfs-utils。
37 4
|
6天前
|
存储 运维 安全
多云网络部署存在挑战,F5分布式云应用简化方案解读
多云网络部署存在挑战,F5分布式云应用简化方案解读
14 0
|
6天前
|
存储 Kubernetes 调度
使用 Kubeadm 部署 Kubernetes(K8S) 安装 -- 持久化存储(NFS网络存储)
使用 Kubeadm 部署 Kubernetes(K8S) 安装 -- 持久化存储(NFS网络存储)
20 0
|
6天前
|
Kubernetes Docker 容器
使用 Kubeadm 部署 Kubernetes(K8S) 安装--附K8S架构图
使用 Kubeadm 部署 Kubernetes(K8S) 安装--附K8S架构图
51 0
|
7天前
|
人工智能 物联网 异构计算
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
31 0
|
1月前
|
弹性计算 运维 关系型数据库
Serverless高可用架构体验与部署反馈
Serverless高可用架构体验与部署反馈
61 3
|
1月前
|
Kubernetes Cloud Native 持续交付
云原生架构的核心组成部分通常包括容器化(如Docker)、容器编排(如Kubernetes)、微服务架构、服务网格、持续集成/持续部署(CI/CD)、自动化运维(如Prometheus监控和Grafana可视化)等。
云原生架构的核心组成部分通常包括容器化(如Docker)、容器编排(如Kubernetes)、微服务架构、服务网格、持续集成/持续部署(CI/CD)、自动化运维(如Prometheus监控和Grafana可视化)等。
|
1月前
|
消息中间件 API 数据库
在微服务架构中,每个服务通常都是一个独立运行、独立部署、独立扩展的组件,它们之间通过轻量级的通信机制(如HTTP/RESTful API、gRPC等)进行通信。
在微服务架构中,每个服务通常都是一个独立运行、独立部署、独立扩展的组件,它们之间通过轻量级的通信机制(如HTTP/RESTful API、gRPC等)进行通信。