CVPR阿里优秀论文:针对场景分割两大问题提出语境对比特征和门控多尺度融合

简介: IEEE CVPR-18是计算机视觉领域最具影响力之一的学术会议。本次会议阿里巴巴有18篇优秀论文被收录,本篇就是其中之一。本文讨论了场景分割问题,场景分割需要进行像素级别的分类,上下文语境和多尺度特征融合对实现更好的场景分割至关重要。

image

小叽导读:IEEE CVPR-18是计算机视觉领域最具影响力之一的学术会议。本次会议阿里巴巴有18篇优秀论文被收录,本篇就是其中之一。本文讨论了场景分割问题,场景分割需要进行像素级别的分类,上下文语境和多尺度特征融合对实现更好的场景分割至关重要。

作者:HenghuiDing[1],Xudong Jiang[1],Bing Shuai[1],Ai Qun Liu[1]Gang Wang[2].

[1]School of Electrical and ElectronicEngineering, Nanyang Technological University, Singapore

[2]Alibaba AI Labs, Hangzhou, China

本文首先提出了一种上下文语境和局部信息对比的特征,这种特征不仅利用了信息丰富的上下文语境,而且通过与语境的对比来聚焦更具辨识度的局部信息。这种特征提高了网络的解析性能,尤其提高了对不明显物体和背景填充部分的分割效果。同时,本文提出了一种门控融合机制,不同于以往的多尺度特征融合,门控融合可以根据输入图像的特征表象来为不同位置的分类选择性地融合多尺度特征。

门控的值由本文提出的网络产生,会随输入图像的变化而变化。这种门口融合机制可以控制不同尺度特征的信息流动,使网络对不同尺度的物体有更强的适应力。本文提出的模型在Pascal Context, SUN-RGBD和COCO Stuff 三个场景分割数据集上验证了性能,取得了目前最高的场景分割性能。

本文致力于场景分割中有两大问题:场景图片中像素形式的多样化(例如,显著或者不显著,前景或者背景),场景图片中物体大小的多样性。并针对这两个问题分别提出了语境对比局部特征和门控多尺度融合。

▌一、语境对比局部特征

image

图一

场景图片中物体形式具有多样化,如显著或者不显著,前景或者背景。图像分类问题一般仅关注于图像中最显著的物体,而场景分割需要对所有像素进行分类,所以在进行场景分割时应该对不同存在形式的物体都给予关注,尤其是不显著的物体和背景。

上下文语境信息对于实现良好的场景分割至关重要。然而语境信息容易被场景图片中的显著物体的特征所主导,导致场景中其他的不显著物体和背景的特征被弱化甚至忽略。如图一所示,像素A属于不显著物体。像素A的局部特征(Local)包含了像素A的主要信息,但是缺乏足够的全局信息(如路),不能实现稳定的分割。但是收集语境信息(Context),就会带来旁边显著物体(人)的特征信息,导致像素A的语境特征被人的特征信息所主导,像素A自身的特征信息被弱化甚至忽略。

为此,本文提出了语境对比局部特征,同时收集像素A的局部特征和全局语境特征(如图二所示),然后将两者进行对比融合,一方面可以保护并突出局部特征,另一方面充分利用了信息丰富的语境特征。语境对比的局部特征,包含了富含信息的全局特征以及对像素A至关重要的局部特征,并且使得像素A的特征不会被其他显著物体特征所主导。语境对比局部特征的效果如图一中最后一幅图片所示。同时,在最终模型CCL中,多个context-local被连接起来以获得多层次的语境对比局部特征,如图二所示。

image

图二

▌二、门控多尺度融合

场景分割的数据集中存在着大量的不同大小的物体,不同大小的物体所需的感受野和特征尺度不同,用单一尺度的特征对所有像素进行分类是不合理的,因此需要进行多尺度特征融合。本文采用了FCN网络中的skip结构来获取DCNN不同特征层的特征信息,但FCN中对skip的结果简单相加融合,并没有考虑不同skip结果的差异性。不同于FCN的是,本文提出了一种门控机制来进行多尺度特征的选择性融合。门控多尺度融合根据特征尺度、语境等信息来动态决定图像中每个像素最适合的感受野,对skip的分割结果进行选择性融合。门控的值由本文提出的网络产生(如图三所示),网络根据输入图像的特征表象生成相应的门控值,由这些门控的值来决定不同层的skip以多大比例进行融合,控制网络信息流动,产生最终的预测。

通过门控多尺度融合,网络可以为每个像素选择一个合理的组合方案,将合适的特征增强并将不合适的特征进行抑制。在门控多尺度融合中,可以添加更多的skip来提取更丰富的多尺度特征信息,同时不用担心skip中有不好的结果。这种门口融合机制可以控制不同尺度特征的信息流动,使网络对不同尺度的物体有更强的适应力。

image


图三

▌三、实验

场景分割效果对比如图四所示,本文提出的方法对不显著物体和背景的分割效果有明显提升,同时对多尺度物体有很强的适应力。

image

图四

原文发布时间为:2019-02-18
本文作者:阿里巴巴机器智能
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
SQL 数据采集 关系型数据库
大数据采集和抽取怎么做?这篇文章终于说明白了!
数据是数据中台\数据平台核心中的核心,因此数据汇聚必然是数据中台/平台的入口,本文详细讲述采集模块的方方面面、采集框架的使用选型以及企业真实落地
大数据采集和抽取怎么做?这篇文章终于说明白了!
|
2月前
|
机器学习/深度学习 人工智能 监控
提示词工程深度实践:从基础原理到生产级应用优化
蒋星熠Jaxonic,技术探索者,专注AI与提示词工程。分享提示词设计精髓,涵盖基础理论、高级模式与工程架构,助力开发者高效驾驭大语言模型,提升AI应用实战能力。
|
4月前
|
算法
基于和差波束法的单脉冲测角MATLAB实现
基于和差波束法的单脉冲测角MATLAB实现
420 0
|
开发框架 人工智能 小程序
小程序常见的 UI 框架
【10月更文挑战第17天】小程序 UI 框架为开发者提供了便捷的工具和资源,帮助他们快速构建高质量的小程序界面。在选择框架时,需要综合考虑各种因素,以找到最适合项目的解决方案。随着技术的不断进步,UI 框架也将不断发展和创新,为小程序开发带来更多的便利和可能性。
838 58
|
10月前
|
关系型数据库 MySQL 数据库
mysql慢查询每日汇报与分析
通过启用慢查询日志、提取和分析慢查询日志,可以有效识别和优化数据库中的性能瓶颈。结合适当的自动化工具和优化措施,可以显著提高MySQL数据库的性能和稳定性。希望本文的详解和示例能够为数据库管理人员提供有价值的参考,帮助实现高效的数据库管理。
261 11
|
安全 Java 测试技术
如何避免静态变量初始化中的异常
在Java中,静态变量初始化时可能会遇到异常。为避免此类问题,可以采取以下措施:1. 使用静态代码块进行初始化;2. 确保初始化逻辑简单且安全;3. 捕获并处理可能的异常。这些方法能有效提高程序的健壯性和稳定性。
260 15
|
运维 Devops 应用服务中间件
自动化运维的利器:Ansible实战指南
【10月更文挑战第36天】在快速迭代的数字时代,自动化运维成为提升效率、减少错误的关键。Ansible以其简洁性、易用性和强大的功能脱颖而出。本文将带你了解Ansible的核心组件,通过实际案例深入其应用,并探讨如何结合最佳实践优化你的自动化工作流程。无论你是新手还是有经验的运维人员,本指南都将为你提供宝贵的知识和技能。
|
网络协议 安全 网络安全
常见的网络传输协议有几种
常见的网络传输协议涵盖多个层次,包括传输层(如TCP、UDP、SCTP)、应用层(如HTTP/HTTPS、FTP、SMTP、DNS、SSH)、网络层(如IP、ICMP、ARP)、数据链路层(如Ethernet、PPP、Wi-Fi)及安全协议(如SSL/TLS、IPSec)。这些协议各具特色,适用于不同场景,如TCP用于可靠传输,UDP适合实时应用,而HTTP/HTTPS则服务于网页浏览和数据交换。通过这些协议的协同工作,现代互联网和局域网得以实现多样化的应用和服务。
|
存储 IDE 开发工具
Python中变量命名规则
【8月更文挑战第5天】
588 4
|
XML 前端开发 Java
Spring Boot中怎么使用BPMN
在Spring Boot中集成BPMN工作流,如Camunda,能实现业务流程自动化。以请假流程为例,步骤包括:创建Spring Boot项目并添加Camunda依赖;使用Camunda Modeler设计请假流程,涵盖提交申请、经理审批、HR记录及流程完成阶段;保存BPMN文件至`src/main/resources`目录,以便Camunda自动部署;实现流程逻辑,如通过REST API启动流程实例,并传递请假请求数据。整个过程展示了BPMN流程从设计到部署的完整周期,使业务流程自动化变得高效且直接。 **注意:**摘要已压缩至240字符内,部分内容被省略。
1001 2
Spring Boot中怎么使用BPMN