YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块

简介: YOLOv11改进策略【Conv和Transformer】| CVPR-2021 Bottleneck Transformers 简单且高效的自注意力模块

一、本文介绍

本文记录的是利用Bottleneck Transformers (BoT)优化YOLOv11的目标检测网络模型。标准的卷积操作虽然能有效捕获局部信息,但在处理需要全局信息整合的任务时存在局限性,而自注意力机制能够有效地建模长距离依赖,因此考虑将其引入到视觉架构中。==本文利用BoT模块将标准卷积和自注意力相结合,提高模型的全局感知能力。==


专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、Bottleneck Transformers介绍

Bottleneck Transformers for Visual Recognition

Bottleneck Transformers(BoTNet)是一种将自注意力(Self-Attention)融入计算机视觉任务的骨干架构,其设计的原理和优势如下:

2.1 原理

2.1.1 架构组成

BoT block是通过将ResNet瓶颈块中的空间3×3卷积替换为Multi-Head Self-Attention(MHSA)层来构建的(如图所示)。

在这里插入图片描述

2.2.2 MHSA层

MHSA层在二维特征图上实现全局(all2all)自注意力(如图所示)。为了使注意力操作具有位置感知能力,使用了相对位置编码。注意力的计算逻辑为$qk^{T} + qr^{T}$,其中$q, k, r$分别代表查询、键和相对位置编码。此外,MHSA层还使用了多个头,并且相对位置编码和值投影是它与Non - Local Layer的主要区别。

在这里插入图片描述

2.1 优势

  • 性能提升
    • 在COCO实例分割基准测试中,使用BoTNet显著提高了性能,如在不同训练配置和数据增强情况下,性能均有提升。
    • 对小对象的检测性能有显著增强,在不同ResNet家族骨干网络上的实验也表明了其适用性。
    • 与Non - Local Neural Networks相比,BoTNet中的BoT块设计更好,能够带来更高的性能提升。
  • 可扩展性:通过调整和扩展BoTNet的模型结构,可以在ImageNet验证集上达到较高的准确率,同时在计算效率上具有优势。
  • 简单有效BoT block的设计简单,基于已有的ResNet架构进行改进,易于实现和应用。尽管在构建上相对简单,但性能出色,为未来视觉架构中自注意力的应用提供了一个强有力的基线。

论文:https://arxiv.org/pdf/2101.11605
源码: https://github.com/tensorflow/tpu/tree/master/models/official/detection

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/142818558

相关文章
|
Linux Shell
linux 下安装minio并配置
现在我们去服务器,我们启动时指定的目录去看看,文件桶相当于文件目录,这里没有使用纠删码的模式,所以直接就是源文件了。当我们线上运行的项目已经有源文件了,在使用minio的时候,可以直接指定该目录为minio的文件目录就行了。
|
10月前
|
传感器 存储 边缘计算
定位与专长的分野:ThingsBoard 物联网平台与 MyEMS 能源管理系统的深度对比
ThingsBoard 与 MyEMS 是两款数据驱动的开源技术平台,分别聚焦物联网全域管理与能源垂直领域。前者以泛在物联为核心,具备设备接入、规则引擎、可视化与多租户管理能力,适用于智慧城市、工业物联网等场景;后者专注能源管理,提供能源数据治理、能效优化与碳排分析功能,广泛应用于制造、建筑与新能源场景。两者在技术架构与应用场景上各具特色,分别体现了“广度连接”与“深度专精”的技术路径。
362 2
|
12月前
鸿蒙Next仓颉语言开发实战教程:下拉刷新和上拉加载更多
本文介绍了在仓颉开发语言中实现下拉刷新和上拉加载更多的方法。通过Refresh组件实现下拉刷新,结合Timer模拟网络加载;并通过监听列表滚动事件,在列表底部添加加载动画实现上拉加载更多功能。代码示例清晰实用,适用于商城等含列表交互的移动应用开发。
|
传感器 监控 网络协议
OSI 物理层详解
本文介绍了多种传输介质及其特性,包括双绞线、光纤、同轴电缆和无线介质。双绞线成本低、易于安装,适合短距离传输;光纤具有大带宽、远距离传输和高安全性,适用于数据中心互联和广域网;同轴电缆抗干扰能力强,但安装复杂;无线介质通过电磁波传输,2.4GHz覆盖广但速度慢,5GHz速度快但穿墙能力弱。此外,文章还提及了曼彻斯特编码的特点与应用,以及传输速率单位bps的定义与换算方法,为网络规划提供了理论依据。
591 5
|
资源调度 监控 前端开发
第七章(原理篇) 微前端技术之依赖管理与版本控制
第七章(原理篇) 微前端技术之依赖管理与版本控制
862 0
|
计算机视觉
YOLOv11改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
YOLOv11改进策略【Neck】| PRCV 2023,SBA(Selective Boundary Aggregation):特征融合模块,描绘物体轮廓重新校准物体位置,解决边界模糊问题
718 11
|
算法 Go vr&ar
YOLOv8模型yaml结构图理解(逐层分析)
YOLOv8模型yaml结构图理解(逐层分析)
24149 1
|
JavaScript 前端开发 Go
Docker 入门:如何打包、部署并运行你的应用
Docker 入门:如何打包、部署并运行你的应用
1927 0
|
人工智能 自然语言处理 小程序
基于通义千问32B及RAG技术的CACA指南诊疗规范平台落地实践
本方案整合CACA智能导航系统与基于RAG的大模型医疗问答系统,旨在提供高效、精准的肿瘤诊治支持。通过指南AI导航、知识图谱查询等功能,优化医生诊疗流程,提升患者服务质量,实现医疗资源的有效利用。
1010 6
|
域名解析 Ubuntu 安全
如何在 Ubuntu 20.04 上安装 Visual Studio Code
Visual Studio Code 是一个由微软开发的强大的开源代码编辑器。它包含内建的调试支持,嵌入的 Git 版本控制,语法高亮,代码自动完成,集成终端,代码重构以及代码片段功能。本文主要为大家讲解两种在 Ubuntu 20.04 上安装 Visual Studio Code 的方式。
63078 1
如何在 Ubuntu 20.04 上安装 Visual Studio Code

热门文章

最新文章