论文推荐：CCNet用于语义分割的交叉注意力-阿里云开发者社区

论文推荐：CCNet用于语义分割的交叉注意力

2022-12-25 330

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CCNet， Transformer递归交叉自注意力，比非局部神经网络更有效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联合研发

CCNet， Transformer递归交叉自注意力，比非局部神经网络更有效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联合研发

论文提出了交叉网络 (CCNet)，对于每个像素，CCNet 中的一个新的交叉注意力模块收集其交叉路径上所有像素的上下文信息。通过进一步的递归操作，每个像素最终都可以从所有像素中捕获完整图像的依赖关系。与 Non-Local Neural Network 相比，CCNet 使用的 GPU 内存减少了 11 倍，FLOP 减少了约 85%。TPAMI的CCNet，进一步增强了更好的损失函数，扩展到3D情况。

CCNet (2019 ICCV)

CNN骨干：深度卷积神经网络(DCNN)，以全卷积的方式设计，如DeepLabv2，用于生成空间大小为H×W的特征图X。去除最后两个下采样操作，并在后续的卷积层中使用膨胀卷积，从而将输出特征映射的宽度/高度放大X到输入图像的1/8。

交叉注意力模块

对于输入X，应用卷积层来获得降维的特征图H，然后将特征图H输入到cross -cross attention模块以生成新的特征图H '。

特征图H '仅聚合水平和垂直方向的上下文信息。

为了获得更丰富、更密集的上下文信息，特征图H '会再次输入到交叉注意力模块中，以获得特征图H ’’。特征图H”中的每个位置实际上收集了所有像素的信息。

两个交叉注意力模块在前后共享相同的参数，这样可以避免添加过多的额外参数，它被命名为循环交叉注意力(RCCA)模块。

然后，密集上下文特征H”与局部表示特征x会被连接起来，通过一个或多个卷积层进行批量归一化和激活进行特征融合。最后将融合后的特征送入分割层预测最终的分割结果。

CCNet (2020 TPAMI)

类别一致的特征学习

在TPAMI中，除了分割损失的交叉熵损失lseg之外，还增加了类别一致的损失来驱动RCCA模块直接学习类别一致特征。lvar、ldis、lreg 被用于

惩罚每个实例具有相同标签的特征之间的大距离
惩罚不同标签的平均特征之间的小距离
分别向原点绘制所有类别的平均特征

表示如下

图中设C是类的集合，Nc是属于类C的有效元素个数，hi是空间位置i的特征向量，μc是类C∈C(聚类中心)的均值特征。φ是一个分段距离函数。δv和δd分别为边距。为了减少计算量，首先在RCCA模块的输出上应用一个带有1×1核的卷积层进行降维，然后将这三个损失应用于通道较少的特征图。最终损失l是所有损失的加权和: