备案控制台

开发者社区人工智能文章正文

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin（二）

2023-05-25 570

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin（二）

4、本文方法

4.1、概览MogaNet

图A1提供了4阶段MogaNet架构的说明。对于阶段i，输入图像或特征首先被馈送到嵌入Stem中以调节特征分辨率并嵌入到维度中。假设输入图像为H×W分辨率，4个阶段的特征分别为H/4×W/4、H/8×W/8、H/16×W/16和H/32×W/32分辨率。

然后，嵌入的特征流到 Moga块中，Moga块由空间和通道聚合块组成，用于进一步的上下文提取和聚合。GAP和线性层将在分类任务的最终输出之后添加。对于密集预测任务，4个阶段的输出可以通过颈部模块使用。

4.2、多阶门控聚合

特征整合理论表明，人类视觉通过提取基本的上下文特征并将个体特征与注意力相关联来感知目标。然而，正如在第3节中经验性讨论的那样，仅存在区域性感知或语境聚合不足以同时学习不同的语境特征和多秩序互动。

图3b显示了传统DNN倾向于关注低阶或高阶相互作用。他们错过了最丰富的中阶交互。因此，主要的挑战是如何有效地捕捉上下文中的多阶交互。

为此，作者提出了一个空间聚合（SA）块，以在统一设计中聚合多阶上下文，如图4所示，该块由2个级联组件组成：

其中，是一个特征分解模块（FD），是一个多阶门控聚合模块，由门控和上下文分支组成。

1、多阶上下文特征

作为一个纯卷积结构，作者提取具有静态和自适应区域感知的多阶特征。除了模阶交互作用外，还有两个不重要的交互作用，每个patch本身的0阶交互作用和覆盖所有patch的一阶交互作用，可以用Conv1×1(·)和GAP(·)来建模。为了迫使网络关注于多阶交互作用，本文提出了来动态地排除不重要的交互作用，其表述为：

其中，是一个初始化为零的缩放因子。

通过重新对不重要的交互成分进行重新加权，也增加了特征多样性。然后，集成了深度卷积（DWConv），在的上下文分支中对多阶特征进行编码。

与之前的工结合正常DWConv和自注意力模型局部和全局交互，采用3个DWConv层与扩张比并行捕获低，中间，高阶交互：

给定输入特征，首先应用得到低阶特征；然后将输出的低阶特征分解为，和，其中；然后，和分别分配给和，而作为相同的映射；

最后，将、和的输出连接为多阶上下文，即。

请注意，与ConvNeXt中使用的DW7×7相比，建议的FD(·)和多阶DWConv层只需要少量额外的计算开销和参数，例如，+多阶和+FD(·)比DW7×8增加了0.04M参数和0.01G FLOPS，如表2所示。

2、门控聚合

为了聚合来自上下文分支的输出上下文，在门控分支中使用了，即。如附录C.1所证实的，作者发现既具有的门控效应，又具有稳定的训练特性。以的输出作为输入，重写等式(4)对于：

使用所提议的SA块，MogaNet捕获了更多的中间阶交互，如图3b所示。SA块产生与ConvNeXt相似的高质量多阶表示，这远远超出了现有方法的覆盖范围，而不需要应用成本消耗的聚合。

4.3、按通道聚合重新分配多阶特征

如在第二节中所讨论的，主流架构仅通过两个线性投影来执行通道混合，例如，具有通道扩展比的2层通道或的MLP。

如图5b所示，需要大量的参数（默认为4或8）来实现预期的性能，但计算效率较低。

这个问题可能是由冗余的跨通道引起的，大多数方法通过改善特征多样性来解决这个问题，例如，在中插入一个模块。与之前需要另一个瓶颈的设计不同，作者设计了一个轻量级的通道聚合模块来重新加权高维隐藏空间，并进一步将其扩展到通道聚合（）块。如图5a所示，块的输出被写为：

具体地说，通过通道减少投影：和GELU实现，以收集和重新分配通道级信息：

其中，是通道级的比例因子。

图5b验证了与普通MLP和带有SE模块的MLP相比的效率。尽管对基线进行了一些改进，但MLP / SE模块仍然需要较大的比率（例如，=6）来实现预期的性能，同时引入额外的参数和计算开销。

相比之下，提出的使用= 4的以较小的额外成本（0.04M额外参数和0.01G FLOPs）比基线带来了0.6%的收益，同时实现了与使用=8的基线相同的性能。

5、架构细节

6、实验

6.1、分类

6.2、目标检测与实例分割

6.3、语义分割

7、参考

[1].Efficient Multi-order Gated Aggregation Network.

8、推荐阅读

YOLO系列 | 一份YOLOX改进的实验报告，并提出更优秀的模型架构组合！

再战IOU | 总结分析IOU/GIOU/CIOU局限，提出Focal EIOU进一步提升目标检测性能

SSD没有错付 | SSD改进版本来啦！PSSD携实时性与高精度归来！

文章标签：

计算机视觉

编解码

机器学习/深度学习

固态存储

关键词：

.NET swin

backbone moganet convnext .NET

5i77ajz5u7ji6

目录

相关文章

汀丶人工智能

|

机器学习/深度学习编解码人工智能

深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

汀丶人工智能

10725 1 1

深度学习应用篇-计算机视觉-图像分类[3]：ResNeXt、Res2Net、Swin Transformer、Vision Transformer等模型结构、实现、模型特点详细介绍

5i77ajz5u7ji6

|

机器学习/深度学习编解码计算机视觉

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin（一）

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin（一）

5i77ajz5u7ji6

145 0 0

5i77ajz5u7ji6

|

机器学习/深度学习编解码固态存储

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin

5i77ajz5u7ji6

432 0 0

纯卷积Backbone巅峰 | MogaNet登峰造极，超越ConvNeXt、ParC-Net和SWin

追逐时光者

|

25天前

|

监控前端开发 API

一款基于 .NET MVC 框架开发、功能全面的MES系统

一款基于 .NET MVC 框架开发、功能全面的MES系统

追逐时光者

42 5 5

二二*一一

|

4月前

|

开发框架前端开发 JavaScript

ASP.NET MVC 教程

ASP.NET 是一个使用 HTML、CSS、JavaScript 和服务器脚本创建网页和网站的开发框架。

二二*一一

58 7 7

Echo_Wish

|

4月前

|

存储开发框架前端开发

ASP.NET MVC 迅速集成 SignalR

ASP.NET MVC 迅速集成 SignalR

Echo_Wish

104 0 0

VipSoft

|

5月前

|

开发框架前端开发 .NET

ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format

ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format

VipSoft

76 0 0

代码掌控者

|

5月前

|

开发框架前端开发安全

ASP.NET MVC 如何使用 Form Authentication?

ASP.NET MVC 如何使用 Form Authentication?

代码掌控者

89 0 0

VipSoft

|

5月前

|

开发框架 .NET

Asp.Net Core 使用X.PagedList.Mvc.Core分页 & 搜索

Asp.Net Core 使用X.PagedList.Mvc.Core分页 & 搜索

VipSoft

178 0 0

亚丁号

|

8月前

|

开发框架前端开发 .NET

ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程

ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程

亚丁号

236 0 0

热门文章

最新文章

一个包含了 50+ C#/.NET编程技巧实战练习教程

.net HTTP请求类封装

精选10款C#/.NET开发必备类库（含使用教程），工作效率提升利器！

使用 BenchmarkDotNet 对 .NET 代码进行性能基准测试

2025年全面的.NET跨平台应用框架推荐

将 EasySQLite 从 .NET 8 升级到 .NET 9

一个.NET开源、免费、功能强大的 PDF 处理工具

PasteEx：一款.NET开源的Windows快捷粘贴神器

.NET 在 Visual Studio 中的高效编程技巧集

ASP.NET Core 中的速率限制中间件

LabVIEW加载.NET程序集

LabVIEW中使用.NET方法时出现错误1316

LabVIEW中加载.NET 2.0,3.0和3.5程序集

.NET Compact Framework下的GPS NMEA data数据分析（二）转

ASP.NET AJAX使用方法概述（三）

Asp.net 2.0专题之一：MasterPage（2）

使用PyTorch实现L1, L2和Elastic Net正则化

C#/ASP.NET应用程序配置文件app.config/web.config的增、删、改操作

Asp.net 2.0专题之一：MasterPage(2)

安装ASP.NET AJAX (一安装)

相关电子书

更多

ImageNet:VGGNet,ResNet,Incepti

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

机器能理解上下文吗 RNN和LSTM神经网络的原理及应用

下一篇

阿里云oss简介和如何对接使用