CMNEXT: 基于编解码架构的强大语义分割基线，解锁多模态语义分割的正确姿势！-阿里云开发者社区

CMNEXT: 基于编解码架构的强大语义分割基线，解锁多模态语义分割的正确姿势！

2023-05-13 185

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CMNEXT: 基于编解码架构的强大语义分割基线，解锁多模态语义分割的正确姿势！

Title: Delivering Arbitrary-Modal Semantic Segmentation

Paper: https://arxiv.org/pdf/2303.01480.pdf

Code: https://jamycheung.github.io/DELIVER.html

导读

自全卷积神经网络(Fully Convolutional Network, FCN)提出以来，语义分割领域得到了飞速的发展，期间涌现了许多极具代表性的工作。例如，以提取多尺度上下文信息为代表的DeepLab和PSPNet系列网络；以轻量化分割路线为主的BiseNet系列网络；以霸榜医学、遥感等多领域的U-Net为核心系列的网络等。总的来说，以上工作大都属于单模态的RGB图像分割范畴。另一方面，随着模块化传感器的爆炸式增长，用于语义分割的多模态融合方向也取得了快速进展。众所周知，多模态融合可以获取更高的分割精度，同时促进更鲁邦的语义分割模型。然而目前学术界中融合任意模态的语义分割(Arbitrary-Modal Semantic Segmentation, AMSS)仍未得到充分探索。

因此，为了更加深入的探讨和研究这个问题，本文提出了一个任意模态分割基准——DELIVER，其涵盖以下几个模态的数据：

深度
LiDAR
多视图
事件
RGB

此外，本文还额外提供了四种恶劣天气条件下的数据集以及五个传感器故障案例，以利用模态互补性和解决部分中断问题。为了更好的评估以上基准，本文针对性地提出了一种任意跨模任意态分割模型——CMNEXT，在不增加计算开销的情况下，当添加更多模态时，CMNeXt 结合了一种新颖的Hub2Fuse范例(图 3c)。与依赖往往计算成本高昂的单分支(图 3a)或使用通常会丢弃有价值信息的单个联合分支(图 3b)相比，CMNeXt 是一种具有双分支的非对称架构，一个用于RGB，另一个用于不同的模态信息补充方式。最重要的是，为了从辅助模式中高效灵活地获取判别线索，本文另外引入了一种简单的并行池化混合器(Parallel Pooling Mixer, PPX)。

最后，通过对总共六个基准的广泛实验，所提方法在 DELIVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF 和 MCubeS 数据集上实现了最先进的性能。在新收集的 DELIVER 上，四模态模型 CMNEXT 在 mIoU 中达到 66.30%，与单模态基线相比增加了 +9.10%，从侧面上直接验证了多模态融合对语义分割的实际促进作用！

动机

在正式介绍CMNEXT时，我们先观察两个现象：

首先，上图是用本文所提方法CMNeXt在基于多个不同模态组合而成的数据上所得到的AMSS结果。从图中不难看出，融合更多的模态信息可以有效提高分割精度，这充分表明了多模态数据可以提供多样化的补充信息。下面再让我们看下第二组示意图：

上图展示了以往的多模态融合方法如CMX和HRFuser由于 LiDAR 抖动融合未对齐的传感数据导致了分割性能的下降，充分表明它们无法有效的挖掘多模态数据的潜能，因为这些方法遵循预定义模态组合的设计，均建立在每个模态始终准确的假设之上。通常来说，多个传感器的协作有望更好的应对单个传感器故障，毕竟部分传感器故障在现实生活中非常常见。

如上所述，为了应对这种问题，作者提出了CMNeXt。其关键的挑战在于设计两个分支来获取多模态线索。具体来说，在 Hub2Fuse 的中心步骤，为了从辅助模态收集有用的补充信息，本文设计了一个自查询中心(SQ-Hub)，它在与 RGB 分支融合之前动态地从所有模态源中选择信息特征。此外，SQ-Hub的另一个巨大好处是可以轻松地将其扩展到任意数量的模态，参数增加可以忽略不计(每个模态约0.01M)。

此外，在融合步骤中，对于没有显式融合的联合分支架构，例如TokenFusion融合稀疏模态如LiDAR或事件数据可能很难处理。为了规避这个问题并充分利用密集和稀疏模态，作者应用了一种交叉融合模块并将它们与所提出的并行池化混合器相结合，有助于高效灵活地从任何辅助模态中获取最具辨别力的线索。这些设计选择汇集在CMNeXt架构中，为AMSS铺平了道路，并通过仔细组合替代模式克服单个传感器故障并增强分割稳健性，从而更好的应对以上两大挑战。

方法

Framework

上图为CMNeXt的整体架构图，可以明显的看出这是一个典型的编码器-解码器(Encoder-Decoder)架构。其中，编码器部分为双分支的骨干网络。基于RGB表示对于语义分割必不可少的假设，这两个分支分别对应于 RGB 的主要分支和其他模态的次要分支。此外，Backbone遵循大多数的CNN/Transformer模型，以用于提取多尺度的金字塔特征。需要注意的是，为了模态表示的一致性，本文将遵循ISSAFE和PMF将LiDAR和事件数据预处理为类图像表示。下面就每个主要模块分别介绍下。

Self-Query Hub

为了执行任意模态融合，自查询中心(SQ-Hub)是一个关键设计，用于在与 RGB 特征融合之前选择补充模态的信息特征，如上图中间部分下面的子图所示。其实这块简单的理解就是用一个类自注意力机制的模块将不同的模态信息进行融合输出。随后，该输出特征经过PPX模块进行进一步加工。

Parallel Pooling Mixer

并行池化混合器作用是从上述 SQ-Hub 中的任意模态补充中高效灵活地获取判别线索。这个很好理解，大家可以认为SQ-Hub的作用就是先简单粗暴的融合不同的模态信息，而PPX就好比“提纯”获取更具有判别力或代表性的表征，相当于一个Coarse-to-Fine的过程。

此外，与基于卷积的MSCA、基于池化的MetaFormer或者是基于全注意力的FAN相比，本文所提出的PPX模块主要有两点改进：

基于并行池化层对注意力部分进行有效加权；
基于特征混合部分的逐通道增强；

总的来说，这两个特征分别有助于促进空间和通道方面的跨模态特征融合。

数据集

如前所述，为了更加深入的探讨和研究这个问题，本文提出了一个任意模态分割基准——DELIVER，下面我们直接引用原文分三方面为大家详细介绍下该数据集。

Sensor settings and modalities

如上图所示，本文基于CARLA模拟器构建了一个包含深度、LiDAR、视图、事件、RGB 数据的大规模多模态分割数据集。DELIVER 提供同一空间视点的六个相互正交的视图(即前、后、左、右、上、下)，即完整的数据帧以全景立方体贴图的格式编码。每个视图的视场(FoV)均为，图像分辨率为。当传感器正常工作时，所有深度、视图和事件传感器都使用相同的相机设置。根据近期LiDAR传感器的特点，我们进一步定制了一个 64 垂直通道虚拟语义LiDAR传感器，每秒生成 1,728,000 个点的点云，FoV 为和 100 米的范围，以便收集相对密集的 LiDAR 数据。

Adverse conditions and corner cases

除了多模式设置外，DELIVER 还提供包括四种环境条件和五种部分传感器故障情况。对于环境条件，除了晴天，作者还考虑了多云、多雾、夜间和下雨的天气条件。环境条件会导致太阳位置和光照、大气漫反射、降水和场景阴影的变化，从而给稳健感知带来挑战。

对于传感器故障情况，本文考虑了 RGB 相机常见的运动模糊、曝光过度和曝光不足问题。由于固定问题或旋转轴偏心，LiDAR 故障通常表现为沿轴 LiDAR 抖动，因此我们添加了一定度数范围内的随机角抖动和[−1cm, 1cm]位置抖动到 LiDAR 传感器的三个轴向方向。由于电路设计，目前使用的事件传感器的分辨率有限。因此，我们为事件相机定制了一个0.25×分辨率的事件低分辨率场景来模拟实际设备。

Statistics and annotations

DELIVER包括六个视图，共计 47,310 帧，大小为。其中 7,885 个前视图样本分为 3,983/2,005/1,897 分别用于训练/验证/测试，每个样本包含两种类型的注释，即语义分割和实例分割标签。为了提高注释的类多样性，我们修改并重新映射源代码中的语义标签。举个例子，Vehicles类被细分为四个细粒度类别：Cars、TwoWheeler、Bus 和 Truck，用于语义相机和语义 LiDAR，使 DELIVER 与主流的分割数据集完美兼容。

实验

表 1 为 CMNeXt 与其它多模态融合领域的 SOTA 方法在六个多模态的分割数据集上的对比。实现结果表明，与HRFuser、TokenFusion以及CMX等众多前辈相比，所提方法无论是在任意单模态或多模态下均能发挥出色的分割性能，具备很强的鲁棒性！

表 2 则展示了 CMNeXt 与主流多模式融合范例在不同条件下的比较结果，包括恶劣天气和部分传感器故障场景。可以看出，先前的方法在两大挑战上均表现不加。受益于所提出的用于选择有效特征的SQ-Hub，所提方法显着提高了整体的分割性能，平均提升了 9.1 个点！

表 3 主要对本文所提的各个模块进行消融实验论证。从实验结果不难看出，以上模块被有机的整合到了CMNeXt架构上，任一模块的缺失均有损最终的分割性能。

最后，在让我们一起看下CMNeXt针对RGB-only SegFormer和RGB-X CMX的语义分割结果。可以看出，在曝光不足的黑夜中，仅 RGB 的 SegFormer 几乎无法分割近处的车辆，而基于 RGB-D 深度估计的 CMNeXt 明显优于SegFormer。另一方面，结合四种不同模态RGB-D-E-L的CMNeXt方法则进一步提高了性能并产生了更完整的分割效果。同时，在激光雷达抖动的部分传感器故障场景中，CMX产生了不令人满意的雨景解析结果；而本文所提方法几乎不受传感数据未对齐的影响，CMNeXt进一步加强了全场景分割的性能。

总结

本文致力于解决任意模态的语义分割AMSS问题，并为此提出了在各种天气条件下具有四种模态和部分传感器故障的DELIVER多模态数据集。此外，结合不对称分支的Hub2Fuse范式，作者设计了一个通用模型CMNeXt，用于与SQ-Hub进行任意模态融合，以动态选择互补表示。最后，为了更加高效灵活地获取有区别的跨模态特征，本文额外引入了一种并行池化混合器，以促进网络整体的分割性能。最终，实验结果充分的表明了所提方法可以在六个不同模态的数据集上均获得最新的技术水准。

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣，强烈推荐您关注有料、有趣、有爱的公众号『CVHub』，每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案！欢迎扫码与我交流，一起探讨更多有趣的话题！

CMNEXT: 基于编解码架构的强大语义分割基线，解锁多模态语义分割的正确姿势！

导读

动机