CVPR阿里优秀论文:针对场景分割两大问题提出语境对比特征和门控多尺度融合

简介: IEEE CVPR-18是计算机视觉领域最具影响力之一的学术会议。本次会议阿里巴巴有18篇优秀论文被收录,本篇就是其中之一。本文讨论了场景分割问题,场景分割需要进行像素级别的分类,上下文语境和多尺度特征融合对实现更好的场景分割至关重要。

作者:HenghuiDing[1],Xudong Jiang[1],Bing Shuai[1],Ai Qun Liu[1]Gang Wang[2].

[1]School of Electrical and ElectronicEngineering, Nanyang Technological University, Singapore

[2]Alibaba AI Labs, Hangzhou, China

本文首先提出了一种上下文语境和局部信息对比的特征,这种特征不仅利用了信息丰富的上下文语境,而且通过与语境的对比来聚焦更具辨识度的局部信息。这种特征提高了网络的解析性能,尤其提高了对不明显物体和背景填充部分的分割效果。同时,本文提出了一种门控融合机制,不同于以往的多尺度特征融合,门控融合可以根据输入图像的特征表象来为不同位置的分类选择性地融合多尺度特征。

门控的值由本文提出的网络产生,会随输入图像的变化而变化。这种门口融合机制可以控制不同尺度特征的信息流动,使网络对不同尺度的物体有更强的适应力。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 三个场景分割数据集上验证了性能,取得了目前最高的场景分割性能。

本文致力于场景分割中有两大问题:场景图片中像素形式的多样化(例如,显著或者不显著,前景或者背景),场景图片中物体大小的多样性。并针对这两个问题分别提出了语境对比局部特征和门控多尺度融合。

▌一、语境对比局部特征

1.jpg

场景图片中物体形式具有多样化,如显著或者不显著,前景或者背景。图像分类问题一般仅关注于图像中最显著的物体,而场景分割需要对所有像素进行分类,所以在进行场景分割时应该对不同存在形式的物体都给予关注,尤其是不显著的物体和背景。

上下文语境信息对于实现良好的场景分割至关重要。然而语境信息容易被场景图片中的显著物体的特征所主导,导致场景中其他的不显著物体和背景的特征被弱化甚至忽略。如图一所示,像素A属于不显著物体。像素A的局部特征(Local)包含了像素A的主要信息,但是缺乏足够的全局信息(如路),不能实现稳定的分割。但是收集语境信息(Context),就会带来旁边显著物体(人)的特征信息,导致像素A的语境特征被人的特征信息所主导,像素A自身的特征信息被弱化甚至忽略。

为此,本文提出了语境对比局部特征,同时收集像素A的局部特征和全局语境特征(如图二所示),然后将两者进行对比融合,一方面可以保护并突出局部特征,另一方面充分利用了信息丰富的语境特征。语境对比的局部特征,包含了富含信息的全局特征以及对像素A至关重要的局部特征,并且使得像素A的特征不会被其他显著物体特征所主导。语境对比局部特征的效果如图一中最后一幅图片所示。同时,在最终模型CCL中,多个context-local被连接起来以获得多层次的语境对比局部特征,如图二所示。

2.png

▌二、门控多尺度融合

场景分割的数据集中存在着大量的不同大小的物体,不同大小的物体所需的感受野和特征尺度不同,用单一尺度的特征对所有像素进行分类是不合理的,因此需要进行多尺度特征融合。本文采用了FCN网络中的skip结构来获取DCNN不同特征层的特征信息,但FCN中对skip的结果简单相加融合,并没有考虑不同skip结果的差异性。不同于FCN的是,本文提出了一种门控机制来进行多尺度特征的选择性融合。门控多尺度融合根据特征尺度、语境等信息来动态决定图像中每个像素最适合的感受野,对skip的分割结果进行选择性融合。门控的值由本文提出的网络产生(如图三所示),网络根据输入图像的特征表象生成相应的门控值,由这些门控的值来决定不同层的skip以多大比例进行融合,控制网络信息流动,产生最终的预测。

通过门控多尺度融合,网络可以为每个像素选择一个合理的组合方案,将合适的特征增强并将不合适的特征进行抑制。在门控多尺度融合中,可以添加更多的skip来提取更丰富的多尺度特征信息,同时不用担心skip中有不好的结果。这种门口融合机制可以控制不同尺度特征的信息流动,使网络对不同尺度的物体有更强的适应力。

1.jpg

▌三、实验

场景分割效果对比如图四所示,本文提出的方法对不显著物体和背景的分割效果有明显提升,同时对多尺度物体有很强的适应力。

1.jpg

相关文章
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式
|
人工智能 安全 Cloud Native
龙蜥社区衍生版浪潮信息 KOS 升级!支持最新 5.10 内核,让大模型“开箱即用”
社区衍生版KeyarchOS产品升级,实现了大模型应用的“开箱即用”。
|
9月前
|
人工智能 编解码 芯片
告别低效沟通|让技术提问不再头疼-这套高效AI提问模板来帮你
不会向ai提问,不知道怎么提问的 可以看看
20935 1
告别低效沟通|让技术提问不再头疼-这套高效AI提问模板来帮你
|
机器学习/深度学习 数据采集 供应链
Python实现深度学习模型:智能库存管理系统
【10月更文挑战第5天】 Python实现深度学习模型:智能库存管理系统
1026 9
|
人工智能 专有云 Serverless
亚太唯一!阿里云再度入选Gartner®容器管理魔力象限领导者
亚太唯一!阿里云再度入选Gartner®容器管理魔力象限领导者
357 2
|
机器学习/深度学习 自然语言处理 搜索推荐
承上启下:基于全域漏斗分析的主搜深度统一粗排
两阶段排序(粗排-精排)一开始是因系统性能问题提出的排序框架,因此长期以来粗排的定位一直是精排的退化版本,业内的粗排的优化方向也是持续逼近精排。我们提出以全域成交的hitrate为目标的全新指标,重新审视了召回、粗排和精排的关系,指出了全新的优化方向
94357 3
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
353 3
|
C语言 C++
C语言函数调用的易错点
在 C 语言中,函数调用时常见的易错点包括:参数类型不匹配、缺少或多余参数、返回值未使用、函数未声明、递归调用未终止、指针传递错误、使用未初始化的变量等。C 语言不支持函数重载,在 C++ 中使用时需注意区分。正确处理这些易错点可以提高代码的稳定性和可维护性。
|
数据库 开发者 Python
"揭秘FastAPI异步编程魔法:解锁高性能Web应用的终极奥义,让你的并发处理能力飙升,秒杀同行就靠这一招!"
【8月更文挑战第31天】FastAPI是一款基于Python的现代化Web框架,内置异步编程支持,可充分利用多核CPU的并行处理能力,大幅提升Web应用的性能。本文探讨FastAPI的异步编程特性,通过示例代码展示其在处理并发请求时的优势。异步编程不仅提高了并发处理能力,还降低了资源消耗,使代码更简洁易读。无论对于初创企业还是大型企业级应用,FastAPI都是构建高性能Web服务的理想选择。
656 0