CVPR 2019|APCNet:基于全局引导的局部匹配度自适应金字塔上下文网络

简介: 不同物体可能有相似的特征,如木桌和椅子有相似的纹理,会造成歧义

🏆本篇论文发现了一种全局引导的局部匹配度(Global-guided Local Affinity (GLA))特征,用于构造上下文语义信息。基于此特性,作者设计了自适应上下文模块,构建自适应金字塔上下文网络(APCNet)。在不使用COCO数据集预训练模型的情况下,获得了2019年PASCAL VOC2012最高的分数84.2%


5d191f00cf8927eaf352ce9cd7b35ebc.png


会议/期刊:CVPR2019


论文题目:《Adaptive Pyramid Context Network for Semantic Segmentation》


论文链接Adaptive Pyramid Context Network for Semantic Segmentation

开源代码:Junjun2016/APCNet: Adaptive Pyramid Context Network for Semantic Segmentation (APCNet CVPR’2019) (github.com)

解决的问题


1.局部卷积感受野较小,且主要描述核心区域,忽略边界周围的背景。


2.不同物体可能有相似的特征,如木桌和椅子有相似的纹理,会造成歧义


如下图,图片中的马和雪容易相互影响


723843a392018540cecf90fc3abb01b4.png


同时,在以前的工作中,利用局部像素分配权重的方式,忽略了上下文信息。


3.不同数据集有不同的语境,传统的特征域自适应效果差,作者希望探索什么是最佳语境。


思路和主要过程


最优上下文向量的理想性质


为了解决第三个问题,最近的一些工作DeepLabV3+、PSANet将上下文向量聚合到局部卷积特征以提高分割性能。


这些方法在构造上下文向量的方式上各不相同,并且在不同的数据集上执行不同的操作。所以有一个自然的问题,什么是语义分割的最佳语境。作者试图通过研究最优上下文向量应该表现出的理想性质来解决这个问题。最优上下文向量原则上应该可以描述与局部特征互补的、与分割相关的图像内容,同时,该向量应该与尽可能少的无关信息紧凑。具体地说,论文总结了以下三个关键属性:


  • 多尺度


7eb83bd0bc596d41acf5c9ae59bbb266.png


  • 适应性:如何自动识别重要的区域


  • GLA:全局引导的局部匹配度


16dc3977dc9f2b72bf201da3a418ba1c.png


作者还总结了先前网络中这三个属性的分布情况


32f542bbed0c1460c580ac147e56d673.png


PS:MS: multi-scale, GLA: global-guided local affinity.


APCNet:Adaptive Pyramid Context Network


af1c3987488e0e16d0a81cc1c78bceae.png


1.将输入图片经过主干网络卷积后,得到特征矩阵X(Feature Map),特征矩阵X分解为多个不同尺度,馈送到自适应上下文模块(ACM)以估计每个局部位置的自适应上下文向量。


2.对于不同s的ACM模块,又分为两个支路


。1️⃣第一条(上路)是经过一个 1 ∗ 1 的卷积,得到 h ∗ w ∗ 512 的特征矩阵,然后再平铺为一个长度为512的全局向量g(x),g(x)表示图片中的全局信息


。将特征矩阵x和g(x)相乘。此步骤的意义是:利用局部特征x(i)和全局向量g(x),来计算每个局部位置i的全局亲和量a i (我觉得翻译成匹配度更好一点)


。将GLA的亲和系数 a s 由3D矩阵(h ∗ w ∗ s 2 )reshape成2D矩阵 h w ∗ s 2  ,等待输入。这个过程就是计算 f s ( x i , g ( x ) , j ) ,的过程


。2️⃣第二条(下路)经过自适应池化+卷积,获取全局信息,得s∗s∗512 的卷积,然后再reshape成 s 2 ∗ 512 的2维矩阵 y s ,然后再和f s ( x i , g ( x ) , j ) 相乘


。最后reshape得到一个3维矩阵z s ,这样,一个s的ACM模块就构建好了。它的输入输出都是一个 h ∗ w ∗ 512的矩阵


3.将特征矩阵X(Feature Map)和ACM(s=1、2、3………)矩阵拼接在一起,得到分割结果


上图用数学可以表示为:


6d84c24cfdd7c3f0b5482e00d64d1f24.png


实验结果


在不经过COCO预训练的情况下,mIoU达到84.2%


4c3e435b5559dc6ed16b9ce3c12c7a33.png


在ADE20K验证集上,达到45.38%的mIoU


image-20221208201926364.png

相关文章
|
2月前
|
机器学习/深度学习 算法 机器人
基于自适应RBF神经网络滑模控制的机械臂轨迹跟踪仿真(Simulink仿真实现)
基于自适应RBF神经网络滑模控制的机械臂轨迹跟踪仿真(Simulink仿真实现)
172 4
|
9月前
|
编解码 异构计算
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
701 10
RT-DETR改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
9月前
|
机器学习/深度学习 自然语言处理 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
393 13
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
|
9月前
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
336 13
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)
|
9月前
|
机器学习/深度学习 计算机视觉 网络架构
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
705 12
RT-DETR改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
9月前
|
机器学习/深度学习 编解码 数据可视化
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
660 11
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)
|
9月前
|
编解码 异构计算
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
2489 7
YOLOv11改进策略【Neck】| BiFPN:双向特征金字塔网络-跨尺度连接和加权特征融合
|
9月前
|
计算机视觉
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
214 5
RT-DETR改进策略【卷积层】| CGblock 内容引导网络 利用不同层次信息,提高多类别分类能力 (含二次创新)
|
9月前
|
机器学习/深度学习 计算机视觉 网络架构
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
892 0
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题
|
9月前
|
机器学习/深度学习 自然语言处理 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力
292 0
YOLOv11改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力