CVPR 2019|APCNet:基于全局引导的局部匹配度自适应金字塔上下文网络

简介: 不同物体可能有相似的特征,如木桌和椅子有相似的纹理,会造成歧义

🏆本篇论文发现了一种全局引导的局部匹配度(Global-guided Local Affinity (GLA))特征,用于构造上下文语义信息。基于此特性,作者设计了自适应上下文模块,构建自适应金字塔上下文网络(APCNet)。在不使用COCO数据集预训练模型的情况下,获得了2019年PASCAL VOC2012最高的分数84.2%


5d191f00cf8927eaf352ce9cd7b35ebc.png


会议/期刊:CVPR2019


论文题目:《Adaptive Pyramid Context Network for Semantic Segmentation》


论文链接Adaptive Pyramid Context Network for Semantic Segmentation

开源代码:Junjun2016/APCNet: Adaptive Pyramid Context Network for Semantic Segmentation (APCNet CVPR’2019) (github.com)

解决的问题


1.局部卷积感受野较小,且主要描述核心区域,忽略边界周围的背景。


2.不同物体可能有相似的特征,如木桌和椅子有相似的纹理,会造成歧义


如下图,图片中的马和雪容易相互影响


723843a392018540cecf90fc3abb01b4.png


同时,在以前的工作中,利用局部像素分配权重的方式,忽略了上下文信息。


3.不同数据集有不同的语境,传统的特征域自适应效果差,作者希望探索什么是最佳语境。


思路和主要过程


最优上下文向量的理想性质


为了解决第三个问题,最近的一些工作DeepLabV3+、PSANet将上下文向量聚合到局部卷积特征以提高分割性能。


这些方法在构造上下文向量的方式上各不相同,并且在不同的数据集上执行不同的操作。所以有一个自然的问题,什么是语义分割的最佳语境。作者试图通过研究最优上下文向量应该表现出的理想性质来解决这个问题。最优上下文向量原则上应该可以描述与局部特征互补的、与分割相关的图像内容,同时,该向量应该与尽可能少的无关信息紧凑。具体地说,论文总结了以下三个关键属性:


  • 多尺度


7eb83bd0bc596d41acf5c9ae59bbb266.png


  • 适应性:如何自动识别重要的区域


  • GLA:全局引导的局部匹配度


16dc3977dc9f2b72bf201da3a418ba1c.png


作者还总结了先前网络中这三个属性的分布情况


32f542bbed0c1460c580ac147e56d673.png


PS:MS: multi-scale, GLA: global-guided local affinity.


APCNet:Adaptive Pyramid Context Network


af1c3987488e0e16d0a81cc1c78bceae.png


1.将输入图片经过主干网络卷积后,得到特征矩阵X(Feature Map),特征矩阵X分解为多个不同尺度,馈送到自适应上下文模块(ACM)以估计每个局部位置的自适应上下文向量。


2.对于不同s的ACM模块,又分为两个支路


。1️⃣第一条(上路)是经过一个 1 ∗ 1 的卷积,得到 h ∗ w ∗ 512 的特征矩阵,然后再平铺为一个长度为512的全局向量g(x),g(x)表示图片中的全局信息


。将特征矩阵x和g(x)相乘。此步骤的意义是:利用局部特征x(i)和全局向量g(x),来计算每个局部位置i的全局亲和量a i (我觉得翻译成匹配度更好一点)


。将GLA的亲和系数 a s 由3D矩阵(h ∗ w ∗ s 2 )reshape成2D矩阵 h w ∗ s 2  ,等待输入。这个过程就是计算 f s ( x i , g ( x ) , j ) ,的过程


。2️⃣第二条(下路)经过自适应池化+卷积,获取全局信息,得s∗s∗512 的卷积,然后再reshape成 s 2 ∗ 512 的2维矩阵 y s ,然后再和f s ( x i , g ( x ) , j ) 相乘


。最后reshape得到一个3维矩阵z s ,这样,一个s的ACM模块就构建好了。它的输入输出都是一个 h ∗ w ∗ 512的矩阵


3.将特征矩阵X(Feature Map)和ACM(s=1、2、3………)矩阵拼接在一起,得到分割结果


上图用数学可以表示为:


6d84c24cfdd7c3f0b5482e00d64d1f24.png


实验结果


在不经过COCO预训练的情况下,mIoU达到84.2%


4c3e435b5559dc6ed16b9ce3c12c7a33.png


在ADE20K验证集上,达到45.38%的mIoU


image-20221208201926364.png

相关文章
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自适应神经网络:原理与应用
【8月更文挑战第14天】在深度学习领域,自适应神经网络作为一种新兴技术,正逐渐改变我们处理数据和解决问题的方式。这种网络通过动态调整其结构和参数来适应输入数据的分布和特征,从而在无需人工干预的情况下实现最优性能。本文将深入探讨自适应神经网络的工作原理、关键技术及其在多个领域的实际应用,旨在为读者提供一个全面的视角,理解这一技术如何推动深度学习向更高效、更智能的方向发展。
|
2月前
|
编解码 Go 文件存储
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
【YOLOv8改进 - 特征融合NECK】 DAMO-YOLO之RepGFPN :实时目标检测的创新型特征金字塔网络
|
2月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进 - 特征融合NECK】 GIRAFFEDET之GFPN :广义特征金字塔网络,高效地融合多尺度特征
YOLOv8专栏探讨了目标检测的创新改进,提出了GiraffeDet,一种轻量级主干和深度颈部模块结合的高效检测网络。GiraffeDet使用S2D-chain和GFPN,优化多尺度信息交换,提升检测性能。代码和论文可在相关链接找到。GFPN通过跳跃和跨尺度连接增强信息融合。文章还展示了核心组件如SPPV4、Focus和CSPStage的代码实现。
|
2月前
|
编解码 计算机视觉 网络架构
【YOLOv10改进- 特征融合NECK】BiFPN:加权双向特征金字塔网络
YOLOv10专栏探讨了目标检测的效率提升,提出BiFPN,一种带加权和自适应融合的双向特征金字塔网络,优化了多尺度信息传递。EfficientDet系列利用这些创新在效率与性能间取得更好平衡,D7模型在COCO测试集上达到55.1 AP。YOLOv8引入MPDIoU,结合BiFPN学习分支权重,提高检测精度。详情见[YOLOv10 创新改进](https://blog.csdn.net/shangyanaf/category_12712258.html)和相关文章。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自适应神经网络
【6月更文挑战第24天】在深度学习的浪潮中,自适应神经网络以其独特的灵活性和高效性引起了研究者的广泛关注。本文将深入探讨自适应神经网络的设计原理、优化算法以及在不同领域的应用案例,揭示其在处理复杂数据模式时的优势与挑战。
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深度学习中的自适应神经网络:理论与应用
【7月更文挑战第1天】本文旨在探究自适应神经网络在深度学习领域的理论基础及其在多个应用场景中的实际效能。通过分析自适应机制如何优化网络结构,提高学习效率和模型泛化能力,我们进一步讨论了自适应神经网络面临的主要挑战及未来发展方向。
|
4月前
|
计算机视觉
【YOLOv8改进】 AFPN :渐进特征金字塔网络 (论文笔记+引入代码).md
YOLO目标检测专栏介绍了YOLO的有效改进和实战案例,包括AFPN——一种解决特征金字塔网络信息丢失问题的新方法。AFPN通过非相邻层直接融合和自适应空间融合处理多尺度特征,提高检测性能。此外,还展示了YOLOv8中引入的MPDIoU和ASFF模块的代码实现。详情可参考提供的专栏链接。
|
3月前
|
机器学习/深度学习 算法
基于RBF神经网络的自适应控制器simulink建模与仿真
使用MATLAB2022a,开发了一个基于RBF神经网络的自适应控制器Simulink S函数,进行了控制仿真。核心程序展示了RBF网络的权重和参数调整。测试结果显示了控制效果。RBF网络是一种三层前馈网络,利用高斯函数处理非线性系统。自适应控制器通过在线调整参数应对系统变化。网络学习分为自组织和有导师两个阶段,通过误差信号调整权重,确保系统稳定性。
|
4月前
|
人工智能 自然语言处理 安全
构建未来:AI驱动的自适应网络安全防御系统提升软件测试效率:自动化与持续集成的实践之路
【5月更文挑战第30天】 在数字化时代,网络安全已成为维护信息完整性、保障用户隐私和企业持续运营的关键。传统的安全防御手段,如防火墙和入侵检测系统,面对日益复杂的网络攻击已显得力不从心。本文提出了一种基于人工智能(AI)技术的自适应网络安全防御系统,该系统能够实时分析网络流量,自动识别潜在威胁,并动态调整防御策略以应对未知攻击。通过深度学习算法和自然语言处理技术的结合,系统不仅能够提高检测速度和准确性,还能自主学习和适应新型攻击模式,从而显著提升网络安全防御的效率和智能化水平。 【5月更文挑战第30天】 在快速迭代的软件开发周期中,传统的手动测试方法已不再适应现代高效交付的要求。本文探讨了如
|
4月前
|
编解码 计算机视觉 网络架构
【YOLOv8改进】BiFPN:加权双向特征金字塔网络 (论文笔记+引入代码)
该专栏深入研究了YOLO目标检测的神经网络架构优化,提出了加权双向特征金字塔网络(BiFPN)和复合缩放方法,以提升模型效率。BiFPN通过双向跨尺度连接和加权融合增强信息传递,同时具有自适应的网络拓扑结构。结合EfficientNet,构建了EfficientDet系列检测器,在效率和准确性上超越先前技术。此外,介绍了YOLOv8如何引入MPDIoU并应用BiFPN进行可学习权重的特征融合。更多详情可参考提供的专栏链接。