YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器（ViT）的视角重新审视CNN-阿里云开发者社区

YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器（ViT）的视角重新审视CNN

2024-02-07 805

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器（ViT）的视角重新审视CNN

一、本文介绍

本文给大家来的改进机制是RepViT，用其替换我们整个主干网络，其是今年最新推出的主干网络，其主要思想是将轻量级视觉变换器（ViT）的设计原则应用于传统的轻量级卷积神经网络(CNN)。我将其替换整个YOLOv5的Backbone，实现了大幅度涨点。我对修改后的网络(我用的最轻量的版本)，在一个包含1000张图片包含大中小的检测目标的数据集上(共有20+类别)，进行训练测试，发现所有的目标上均有一定程度的涨点效果，下面我会附上基础版本和修改版本的训练对比图。

二、RepViT基本原理

RepViT: Revisiting Mobile CNN From ViT Perspective 这篇论文探讨了如何改进轻量级卷积神经网络（CNN）以提高其在移动设备上的性能和效率。作者们发现，虽然轻量级视觉变换器（ViT）因其能够学习全局表示而表现出色，但轻量级CNN和轻量级ViT之间的架构差异尚未得到充分研究。因此，他们通过整合轻量级ViT的高效架构设计，逐步改进标准轻量级CNN（特别是MobileNetV3），从而创造了一系列全新的纯CNN模型，称为RepViT。这些模型在各种视觉任务上表现出色，比现有的轻量级ViT更高效。

其主要的改进机制包括：

结构性重组：通过结构性重组（Structural Re-parameterization, SR），引入多分支拓扑结构，以提高训练时的性能。
扩展比率调整：调整卷积层中的扩展比率，以减少参数冗余和延迟，同时提高网络宽度以增强模型性能。
宏观设计优化：对网络的宏观架构进行优化，包括早期卷积层的设计、更深的下采样层、简化的分类器，以及整体阶段比例的调整。
微观设计调整：在微观架构层面进行优化，包括卷积核大小的选择和压缩激励（SE）层的最佳放置。

这些创新机制共同推动了轻量级CNN的性能和效率，使其更适合在移动设备上使用，下面的是官方论文中的结构图，我们对其进行简单的分析。

这张图片是论文中的图3，展示了RepViT架构的总览。RepViT有四个阶段，输入图像的分辨率依次为

每个阶段的通道维度用 Ci 表示，批处理大小用 B 表示。

Stem：用于预处理输入图像的模块。
Stage1-4：每个阶段由多个RepViTBlock组成，以及一个可选的RepViTSEBlock，包含深度可分离卷积（3x3DW），1x1卷积，压缩激励模块（SE）和前馈网络（FFN）。每个阶段通过下采样减少空间维度。
Pooling：全局平均池化层，用于减少特征图的空间维度。
FC：全连接层，用于最终的类别预测。

总结：大家可以将RepViT看成是MobileNet系列的改进版本

YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器（ViT）的视角重新审视CNN

一、本文介绍

二、RepViT基本原理

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

YOLOv5改进 | 2023主干篇 | RepViT从视觉变换器（ViT）的视角重新审视CNN

一、本文介绍

二、RepViT基本原理

热门文章

最新文章

相关电子书