翻译:Multi-scale Multi-path Multi-model Fusion Nerwork

简介: M3Net: 多尺度多路径多模型融合网络及其在 RGB-D 显着目标检测中的应用实例

M3Net: 多尺度多路径多模型融合网络及其在 RGB-D 显着目标检测中的应用实例

摘要 — 融合 RGB 和深度数据对于提高各种机器人和计算机视觉任务的性能是很受关注的。通常,RGB 和深度信息的(数据)流在早期或者晚期的阶段合并为一个单一的融合点,以生成合并的特征或者决策。单一的融合点也意味着单一的融合路径,它拥挤且不灵活,无法融合来自不同模态的所有信息。因此,融合过程是暴力的,所以也缺乏能力。为了解决这个问题,我们提出了一种多尺度多路径多模态融合网络(M3Net),其中的融合路径是分散的,可以从全局和局部的视角使每种模式的贡献多样化。 特别是每一种形态的 CNN 流都同时融合了全局理解路径和局部捕获路径。M3Net 通过多路径过滤和调节信息流 ,具有更高适应性、更灵活的融合机制,从而简化了基于梯度的学习过程,提高了融合过程的直观性和透明性,同时促进了融合过程具有多尺度视角。综合实验表明,与最先进的方法相比,所提出的方法有显著和一致的改进。

I. 引言

目前,一些现成的 RGB-D 传感器由于其低成本和具有竞争力的传感能力,已广泛应用于各种机器人系统中。与仅使用 RGB 数据的传统模型相比,利用 RGB-D 数据构建机器人视觉模型是很有前途的,也是符合人类视觉系统的。

使用 RGB-D 数据的关键问题是如何融合来自 RGB 和深度模式的信息。早期作品主要集中在 RGB-D 图像中手工特征的设计 [1] [2]。然而,特征设计过程需要对领域特定知识有很强的理解,容易导致对新任务的泛化能力较低。更重要的是,它们没有能力捕捉对场景理解至关重要的高级信息。

此外,为了克服手工 RGB-D 特性的局限性,提出了各种非监督特征学习方法(如稀疏编码[3]和深度自编码器[4])。尽管如此,由于它们的体系结构相对较浅,这些非监督学习方法对 RGB-D 特性的表示能力和高层次理解仍然有限。

这里写图片描述

近年来,深度卷积神经网络(CNN)[5] 因其探索高阶表示和多种模式的复杂关联的能力,已成功应用于各种计算机视觉和机器人视觉任务。受其优势的鼓舞,一些研究人员 [6-10] 利用 CNN 自动融合 RGB 和深度模式。这两种方式的信息通常在输入、早期表示或后期表示阶段通过单个融合点完全结合(如图 1 (a), (b), (c),分别所示)。近年来,通过考虑不同模态之间的关系,如一致性和独立性,引入了一些更专业的融合方法 [8] [10]。遗憾的是,它们没有超越传统的 RGB-D 特征学习的理念,即将现有的标准方法分别应用于 RGB 和深度模式,然后在决策阶段融合它们的结果,或者简单地将 RGBD 视为输入阶段的无差异四通道数据。综上所述,虽然已经取得了令人振奋的结果,但是以往的 RGB 和深度融合模型的融合路径通常集中在一个点上,这可能缺乏将多种模态的所有有用信息进行合并的能力。因此,融合过程是暴力且能力不足的。

因此,通过人类模仿的方法,融合 RGB 和深度模式的主题有很大的改进空间。最近的证据 [11-16] 显示,在设计基本的 CNN 架构时,设计的理念已经从让简单网络变更深 [11] [12] 转变为使连接路径多样化 [13-16]。为了追求跨越多层的畅通无阻的信息流,作者在文章 [13] 中引入了门控制功能的快捷连接,学习来控制通过网络的信息的流动。为了解决退化问题(即随着网络深度的增加,预测的准确性变得饱和,然后迅速退化),作者在文章 [14] 中引入了一个带有恒等函数的短连接路径。最近,除了用深度和宽度来测量一个网络,在 [13-16] 中提出的知识已经被总结和概括为一个代号为基数[16]的新的维度。基数可以隐式地解释为网络模块中路径的数量,这是网络性能关于优化效率的一个基本因素。

这里写图片描述

在这条线索的启发下,我们相信多路径融合问题可以应用于多模态融合问题,以简化优化过程,而多模态融合问题的研究很少考虑到这一点。此外,我们观察到人类的视觉系统以一种包含的方式 [17] 来理解一个场景,其中包括对确定目标物体的位置和形状的全局理解,以及对其细节部分探测的局部捕获。 类似地,大范围的机器人视觉任务也需要全局和局部视角的协作。例如,一个抓取系统应该同时要求全局理解来定位目标对象(例如,一个杯子)的位置,和局部捕捉来进一步关注特定的子部分(例如,握手)。此外,显着性检测 [18],旨在自动检测在一个场景中最吸引人注意力的东西,还需要强调从全局视角看哪个物体是显着的,并在局部视图中获得清晰的对象边界。

通过对人类视觉系统和各种计算机视觉或机器人视觉任务的属性的观察,发现了在多模态融合过程中同时结合全局和局部视图的角度,从而引入了更多的融合路径。受这个角度的激发,我们把显著目标检测视为目标任务,结合多角度来举例和定制一个多路径多模态融合网络(如图 2 所示)。更具体地说,对于 M3Net 中每一个模态的网络,我们首先制定一个并行多尺度网络的两个分支分别表示全局理解和局部捕获,由专门设计的 CNN 分支实现。全局理解分支和局部捕获分支的顶部分别采用一个完全连接的层和一个 1×1 卷积层。为每种模态所提出的多分支网络能够同时在全局范围内进行推理并捕获局部细节,而不是传统的一开始进行全局理解然后执行局部的细化过程 [19] [20]。

与之前的工作相比,(我们)提出来的(网络)有三个主要贡献:

(1)我们提出了一种多路径多模态融合框架,它能够以一种更加多样化、适应性和任务驱动的方式融合不同的模态,而以前的融合策略则依赖于一条简单的路径。

(2)我们以端到端的方式实现了全局理解和局部捕获。

(3)综合实验证明,我们提出的方法比其他最先进的方法有显著的改进。

II. 相关工作

现有的为了显着性检测将 RGB 和深度数据融合的工作主要集中在三种模式:输入融合、早期融合和后期融合。输入融合 [21] 意味着直接将 RGB-D 视为一致的四通道数据,或者用固定的权重将它们结合 [22] [23]。在 [24] 内,由 RGB 和深度模态的手工特征被串联为 CNN 的输入,以产生集体特征。这种融合策略增加了学习有效组合模型的难度,因为每种模态的低级特征都是嘈杂的。

其他一些方法分别直接处理不同的模态,并独立地使用每种模态预测显著性。然后,通过简单的求和 [22] [25]、乘法 [26] 或其他人工设计的规则,将不同模式的结果合并在一起。然而,这些方法通常不能考虑一个内在的融合机制,并且缺乏泛化能力。

一般来说,其他 RGBD 诱发的任务也不会在超出上述范例的范围探索。Andreas [7] 等人通过一个融合层,在后期将两个独立的 CNN 处理流合并在一起。Wang 等人 [10] 和 Zhu 等人[8]致力于在一个单一的晚期融合层中学习不同模态的模态权重。然而,我们认为,仅仅通过一个点和路径将信息流从多个模式中融合是暴力的。因此,需要有一个多路径融合框架,具有多样化的融合点和更多的自适应融合路径,这不仅促进了基于梯度的优化过程,而且为将多尺度理解融合到融合过程中提供了一个平台。

III. 提出的方法

考虑到 CNNs 的「数据饥渴」性质与现有的 RGB-D 图像数据集规模小之间的冲突,我们充分利用了可用的目标数据,并以一种阶段的方式训练我们的多模态融合 CNN。在训练阶段,每个模式的网络包括一个全局理解分支和一个局部捕获分支。具体地说,我们根据 VGG-16 [11] 模型对 RGB 诱发的显着检测网络(R_SalNet)进行了微调。然后,将微好调的 R_SalNet 的参数作为初始化,继续进行深度模态的训练阶段(用「D_SalNet」表示)。最后,结合训练好的 R_SalNet 和 D_SalNet,联合训练多模型融合网络(M3Net)。在本节中,我们将根据实现顺序描述具体的设计。

A. 单一模态的多分支网

RGB 诱发的显着检测网络(R_SalNet)

看一下图 2 所示的 RGB 流,我们首先将每个输入的 RGB 图像大小调整为 224×224 像素,然后将其输入 VGG-16 模型。这个网络在卷积层 Conv3_3 中被分成了一个全局理解分支和一个局部捕获分支。

对于全局理解分支来说,在最初的 VGG-16 结构中,从卷积层 Conv3_3 输出的特征映射被输入到卷积和池层的其余部分中。然后是一个全连接层(例如 fcRGB)包含 3136 个带有 sigmoid 激活函数的节点,用于将深层特征转换为显著性概率。得到的 3136 个显著性概率被变形成一个大小为 56×56 的映射,通过全局理解分支预测出的显著性映射。通过采用全连接层,每个输出节点的感受野是整个输入图像,因此每个像素的显著值可以从全局上下文中估计,从而避免了局部显著模式的干扰。然而,由于采用了连续的池化层,全局理解分支无法捕获细节。因此,需要另一个用于捕获局部细节的分支。

对于局部捕获分支,我们采用了一个最近提出的卷积神经网络模块,名为扩张卷积 [29],它是专门为密集预测问题而设计的,并支持感受野的指数扩展而不损失分辨率。然后我们在扩张卷积层 D-Conv5_3 的顶部增加一个一通道的 1×1 卷积层来执行显著性预测。所采用的 1×1 卷积直接从 512×56×56 的特征映射中产生 56×56 的显著性概率。通过使用无池化层的扩展卷积,局部捕获分支具有系统地聚合多尺度上下文信息而不丢失分辨率的能力,从而有效地保存局部细节。通过「网络手术」程序,全局理解分支和局部捕获分支都使用 VGG-16 模型的参数进行了初始化。

每个分支的预测的显著性映射以一种元素的方式聚合。通过这种方式,这两个分支可以互补地实现 RGB 模态的全局推理和局部捕获能力。

深度诱发的显著性检测网络(D_SalNet)

由于深度模态中不充足标注的训练数据,我们首先把深度数值编码为三通道 HHA 表示 [9] (表示水平距离 H,距离地面的高度 H,和根据推断的重力方向正则的局部表面角度 A),使在 RGB 模态下训练的 CNNs 可以重新利用。然后,我们用训练好的 R_SalNet 而不是原始的 VGG-16 模型的参数作为初始化来训练 D_SalNet。我们做出这个改变,是出于对特定任务使用不同类型的监督标签来训练模型会促进相应结构和模型参数的学习过程的考虑。因此,基于一个更与任务相关的预先训练模型的初始化将为目标任务提供预先理解,同时也能使结构间隙和接近目标模型的更有效的路径更紧密。HHA 的平均值设为 [132.431, 94.076, 118.477],如论文 [9] 所示。D_SalNet 的其他实现细节遵循了 R_SalNet 的实践。

B. 多尺度多路径多模型融合网络(M3Net)

在我们的模型中,两个融合路径是关于全局和局部透视图设计的。由于缺乏大规模标注的 RGB-D 数据集,直接将RGB-D 视为一致的四通道输入来训练一个深度 CNN,是不可行的。考虑到 CNN 的高层更多的是任务特定的和模型无关的。相比之下,底层则更多的是任务无关的和模型特定的。因此,通过融合它们的高级层,可以更容易地从不同的模态中学习对特定任务(即显著性检测)的通用表示。因此,对于这两种融合路径,我们采用了后期融合策略,实现了 RGB 和深度数据的相互促进。

通过采用后期融合策略,将全局分支(分别称为 fcRGB 和 fcDepth)中两种模态的全连通层的输出连接起来,并送入具有 3136 个节点和 sigmoid 激活函数的联合全连通层(称为fcMG)。 然后通过合并来自两种模态的全局分支的融合预测可以表示为 $\Phi_G(I_i^R,I_i^D|\varphi,\Theta^{R_G},\Theta^{D_G})(x,y)$ ,其中 $I_i^R$ 表示第 $i$ 张训练 RGB 图片,$I_i^D$ 是 $I_i^R$ 对应的深度图片,$\Theta^{R_G}$ 和 $\Theta^{D_G}$ 分别代表 R_SalNet 和 D_SalNet 全局理解分支中的可训练参数。$\varphi$ 是 fcMG 层的参数集, $\Phi_G$ 代表整个全局融合路径中的映射函数。通过 fcMG 层预测 3136 个显著性概率,然后变为一个 56×56 的映射,这个映射被视为在全局视角中结合来自 RGB 和深度模态的预测。同时,在 R_SalNet 和 D_SalNet 的局部捕获分支中,最后的扩张卷积层(「D-Conv5_3」)串联起来。然后,一个单通道的 1×1 卷积层被连接串联的特征图的顶部以产生显著的预测 $\Phi_L(I_i^R,I_i^D|\phi,\Theta^{R_L},\Theta^{D_L})(x,y)$ ,其中 $\phi$ 是 1×1 卷积的参数集,$\Phi_L$ 是整个局部融合路径的映射函数。$\Theta^{R_L}$ 和 $\Theta^{D_L}$ 分别是 R_SalNet 和 D_SalNet 中局部捕获分支的参数。

这里写图片描述

70

最后,从每种模态中合并全局理解和局部捕获分支预测出的显著性映射,通过元素加法聚合,作为最终预测。选择了交叉熵损失函数来测量最终预测的显著性概率与标准显著性掩码之间的差异,由以下公式给定:

$$ L(\{I_i^R,I_i^D,Y_i\}_N|(\Theta^{R_G},\Theta^{R_L},\Theta^{D_G},\Theta^{D_L}))=-\frac{1}{n}\sum_{i=1}^n\sum_{x=1}^{W}\sum_{y=1}^{H}F\big(Y_i(x,y),\Phi_G(I_i^R,I_i^D|\varphi,\Theta^{R_G},\Theta^{D_G})(x,y)+\Phi_L(I_i^R,I_i^D|\phi,\Theta^{R_L},\Theta^{D_L})(x,y)\big)+\lambda r(W) $$

其中

$$ F(Y_i,\Phi)=Y_ilog\Phi+(1-Y_i)log(1-\Phi) $$

为标准显著性掩码 $Y_i\big(Y_i(x,y \in\{0,1\})\big)$ 和预测的显著性映射之间的交叉熵损失。$r(W)$ 为权重正则项,$\lambda$ 为衰减因子。$n$ 为迷你批次的大小,$W=H=56$ 为变形后的标准的宽度和长度,也是预测的显著性映射的大小。

损失函数表明多路径融合网络可以使用多种路径的梯度后向传播学习方法。因此,融合过程更具适应性和灵活性。与此同时,融合网络能够以端到端的方式同时获得来自这两种模式的全局理解和局部捕获。

70

IV. 实验

A. 数据集

在包含 1000,2003 和 797 个可用的 RGB-D 图像对和相应的标准掩码的三个名为 NLPR [21],NJUD [2] 和 STEREO [30] 的公共基准数据集上,我们评估了我们模型的有效性。这些数据集是从大量室内和室外场景中收集的。注意,NLPR 数据集包含了由 Kinect 获得的原始深度图,而 NJUD 和 STEREO 数据集的深度映射则从不同的映射中转换。考虑到不同映射和原始深度映射之间的不同分布和结构,我们分别在两种类型的数据集上分别训练两组模型。具体地说,我们分别随机从 NLPR 数据集中选择 650 个图像对,从 NJUD 数据集中选择 1400 张图像对作为训练样本。

B. 评估标准

为了评价所提出的方法的有效性,我们采用 「精确召回(PR)曲线」、「AP(平均精度)分数」和「F-测度」作为评价指标。具体地说,在一开始,显著性映射被划分为不同的阈值,然后通过与标准相比较,可以获得一系列 「精确-召回值」。然后我们可以画出 PR 曲线并计算 AP 分数。 「F-测度」用公式表示为:$F=\frac{(1+\beta^2\cdot Precision \cdot Recall)}{\beta ^2 \cdot Precision+Recall}$ ,其中参考文章 [31] 设 $\beta ^2=1$

数据扩张:由于所有现有的 RGB-D 显著对象检测数据集的规模很小,所以有必要增加数据集。我们采用水平翻转和图像裁剪,使训练样本增加 12 倍。与此同时,全球语义信息受到保护,因为裁剪是在本地环境中实现的。

参数设置:我们将迷你批次的大小设置为 6,以减少对 GPU 内存的需求。此外,我们分别将训练率,权重衰减和动量设为 5×10-7,2×10-4 和 0.9。注意,学习速率很慢,因为它是从 3136 个节点累积起来的。我们在一个有两个 GTX 1070 GPUs 的工作站上实现了我们的模型。M3Net 的培训时间大约是 8 小时。

这里写图片描述

这里写图片描述

D. 多路径融合的重要性

为了验证多路径融合的好处,我们将我们的多路径融合策略与单路径融合网络进行比较,单路径融合网络只会将全局或局部分支从每个模态中融合(分别表示为「全局路径」和「局部路径」)。图 3(a)的损失曲线表明,我们提出的多路径策略以一种更灵活、更灵活的方式分配融合负载,从而简化了基于梯度的训练过程,从而使收敛更快,损失更低。图 3(b-e)证明了在所有评估指标中多路径融合的好处。此外,图 4 直观地显示了「全局路径」的融合策略在捕获对象细节方面效率低下,这是由于连续的池化层减少了分辨率,而因为顶层的 1×1 感受野,全局视角超出了「局部路径」融合策略的范围。相比之下,「多路径」融合策略可以:1)不顾局部显著性的干扰,通过全局理解路径将显著性物体从全局视角中定位;2)用局部捕获路径突出目标显著对象的局部细节。

E. 与其他 RGB-D 显著性检测模型对比

我们将 M3Net 与 6 个最先进的 RGB-D 显著对象检测模型进行比较,包括 DF [24],LBE1 [1],NLPR [21],SRDS [22],EGP [32 ]和 ACSD [2] 。图 5 中所示的 PR 曲线和图 6 中所示的 AP 和 F 测度分数表明,我们的模型比其他所有的先进技术都有显著的优势。此外,DF 方法还利用 CNNs 进行 RGB-D 的显著性检测,并为改进集成了一个拉普拉斯传播框架。尽管我们的模型没有采用任何改进,但它仍然显著地优于 DF 模型。我们将我们的模型的优越性归功于多样化的融合路径和包含的多尺度视角。如图 7 所示,包含不一致区域的显著对象 (第 1-2 行)、 显著出对象包括分散细节 (第 3 行) 、背景复杂和混乱 (第 4-5 行) 、多个显著对象 (第 6 行) 和显著对象和背景之间的小深度值差别 (最后一行) 等各种具有挑战性的条件,我们的模型仍然可以精确定位显著物体,同时利用全局和局部的表示来捕获清晰的物体边界,从而有效地生成一致和精确的显著性映射。相比之下,其他的模型往往在这些具有挑战性的条件下无效,因为它们无法推广的手工特性或启发式和简单的多模式融合策略。对于复杂的场景,他们要么倾向于错误地强调局部的辨别干扰,要么是由于缺乏全局理解而导致的非均匀分布的真正突出对象的一些子区域。此外,由于缺乏本地视图,他们可能在捕捉显著对象的局部细节上较弱。

V. 结论

在此工作中,我们介绍了一种多路径多模式融合框架,它包含了融合 RGB 和深度数据的多尺度透视图。通过将融合路径多样化到全局理解和局部捕获流中,传统的不灵活的单路径融合过程变得更加适应和充分。摘要本文以显著对象检测为例,综合实验验证了所提出的多尺度多路径融合方法的优点。我们认为,所提议的 M3Net 可以进一步促进深度数据的采用,并能很好地推广到各种 RGBD 诱发的任务,例如,RGB-D 抓取、操作等等。它还有希望利用这个融合框架来融合其他模式,如图像和文本用于图像捕捉,图像和音频用于视频分类等等。

参考文献
目录
相关文章
|
4月前
|
JavaScript
Component name “header“ should always be multi-word
Component name “header“ should always be multi-word
|
6月前
|
前端开发 JavaScript
Error_ Multipart_ Boundary not foun
Error_ Multipart_ Boundary not foun
102 0
|
机器学习/深度学习 数据采集 人工智能
|
数据挖掘
MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts 论文解读
事件检测(ED)从非结构化文本中识别和分类事件触发词,作为信息抽取的基本任务。尽管在过去几年中取得了显著进展
66 0
|
机器学习/深度学习 自然语言处理 计算机视觉
【计算机视觉】MDETR - Modulated Detection for End-to-End Multi-Modal Understanding
对于图像模型,MDETR采用的是一个CNN backbone来提取视觉特征,然后加上二维的位置编码;对于语言模态,作者采用了一个预训练好的Transformer语言模型来生成与输入值相同大小的hidden state。然后作者采用了一个模态相关的Linear Projection将图像和文本特征映射到一个共享的embedding空间。 接着,将图像embedding和语言embedding进行concat,生成一个样本的图像和文本特征序列。这个序列特征首先被送入到一个Cross Encoder进行处理,后面的步骤就和DETR一样,设置Object Query用于预测目标框。
|
算法
Multi-scale multi-intensity defect detection in ray image of weld bead
用于检查内部缺陷的射线探伤是一种重要的焊接无损检测技术。不同检测场景、不同类型缺陷的焊道射线照片差异很大,限制了自动检测算法的通用性。
93 0
|
JavaScript 前端开发 开发者
Component name “xxx“ should always be multi-word
Component name “xxx“ should always be multi-word
Component name “xxx“ should always be multi-word
|
计算机视觉
目标检测的Tricks | 【Trick4】Multi-scale training与Multi-scale testing
目标检测的Tricks | 【Trick4】Multi-scale training与Multi-scale testing
330 0
|
SQL XML 缓存
《Orca: A Modular Query Optimizer Architecture for Big Data》
Orca: A Modular Query Optimizer Architecture for Big Data
《Orca: A Modular Query Optimizer Architecture for Big Data》