有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT

简介: 有效捕捉目标级别语义信息,之江实验室&浙大提出再注意机制TRT

来自之江实验室和浙江大学的研究者提出了一种再注意机制,旨在更有效地捕捉目标级别的语义信息,抑制背景干扰,实现更准确的目标定位能力。


弱监督定位任务(Weakly supervised object localization, WSOL)仅利用图像级别的类别标签,就能实现目标级别的定位功能,因为其细粒度注释的最小化需求大大压缩了人工成本,于近年获得大量关注。


由于缺乏目标级别标签的约束,仅利用图像标签进行分类训练,弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域,难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关?Transformer 类网络结构的长程依赖特性对弱监督定位有何影响?作者通过可视化分析 CAM 方法、纯 transformer 网络的长程特征依赖关系,发现 transformer 网络中的长程依赖有利于克服局部聚焦缺陷,却容易受到背景干扰。
下图 1 展示了不同方法的可视化定位结果,可以看出 CAM 方法存在明显局部聚焦的问题;Transformer 的长程依赖容易产生背景误定位的现象;融合 Transformer 长程依赖和 CAM(参照 TS-CAM 论文方法)的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题,但是问题依旧存在。

图 1:不同方法的可视化结果比对

基于此,来自之江实验室和浙江大学的研究者提出一种再注意机制,即 TRT (token refinement transformer),旨在更有效地捕捉目标级别的语义信息,抑制背景干扰,实现更准确的目标定位能力。



方法介绍

图 2:核心方法框架图

上图 2 展示了 TRT 方法的整体框架图,TRT 由 TPSM(Token Priority Scoring Module)和 CAM ( Class Activation Map ) 两个分支构成。其中 TPSM 分支主要由 Token Preliminary Attention、Token Selection 和 Token Re-Attention 三部分组成。Token Preliminary Attention 表示利用 transformer 网络不同层的 class token 和 patch token 之间的长程依赖关系构建初步注意力图;Token Selection 指构建自适应阈值策略,筛选出初步注意力图中与 class token 关联性更高的 patch token;Token Re-Attention 指对筛选的 patch token 执行再注意操作。
训练阶段,针对 CAM 分支和 TPSM 分支输出的分类概率,与类别标签构建交叉熵损失函数,实现分类训练,如下公式(2)所示。


测试阶段,将 CAM 分支输出的特征与 TPSM 分支输出的特征点乘,生成最终的注意力图M。


token优先级评分模块
token初步注意力

第 l 个 transformer 层的自注意矩阵公式如下式(4)所示,其中的第一行为 class token 的注意力向量,展示了 class token 和所有 patch token 之间的关联关系。将所有层 transformer 层 class token 的注意力向量进行均值融合,得到初步注意力结果 m。



token挑选策略

利用累积分布采样方法构建自适应阈值,具体操作为:对初步注意力结果 m 进行排序并构建积分图,针对积分图结果确定固定阈值,则针对 m 生成了自适应阈值。


操作原理如下式(5)所示,其中 F 为 m 的累积分布函数,严格单调转换为其逆函数。



基于阈值生成二值图,b 中值为 1 的位置表示被筛选的 patch token 的位置。


token再注意
利用二值图 b 构建挑选矩阵 B,并基于矩阵 B 构建掩码自注意力操作。对图 2 中 visual transformer blocks 输出的特征中 patch token 部分执行掩码自注意力操作,对操作结果进行全连接和掩码 softmax 操作,生成重要性权重 λ。


在训练阶段,利用重要性权重λ对进行加权融合,将与融合结果送入最后一个 transformer 层。利用最后一个 transformer 层输出的 class token 生成分类概率


在测试阶段,从初步注意力结果 m 中获取未被筛选的 patch token 权重信息,从重要性权重 λ 中获取被筛选的 patch token 权重信息,由此生成,如式(10)所示,m' 为的向量形式。


结果

表 1:在 CUB-200-2011 数据集上的定位准确率比较

表 2:在 CUB-200-2011 数据集上的 MaxBoxAccV2 结果比较

表 3:在 ILSVRC 数据集上的定位准确率比较

图 3: ILSVRC 上目标显著性区域以及定位对比

图 4: 在 CUB-200-2011 数据集上的目标显著性区域以及定位结果

相关文章
|
Shell Linux 计算机视觉
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
664 0
vuecli3 启动服务的时候报错:TypeError: Cannot read property ‘upgrade‘ of undefined
vuecli3 启动服务的时候报错:TypeError: Cannot read property ‘upgrade‘ of undefined
401 0
vuecli3 启动服务的时候报错:TypeError: Cannot read property ‘upgrade‘ of undefined
|
10月前
|
安全 虚拟化 异构计算
GPU安全容器面临的问题和挑战
本次分享由阿里云智能集团弹性计算高级技术专家李亮主讲,聚焦GPU安全容器面临的问题与挑战。内容分为五个部分:首先介绍GPU安全容器的背景及其优势;其次从安全、成本和性能三个维度探讨实践中遇到的问题及应对方案;最后分享GPU安全容器带状态迁移的技术路径与应用场景。在安全方面,重点解决GPU MMIO攻击问题;在成本上,优化虚拟化引入的内存开销;在性能上,提升P2P通信和GPU Direct的效率。带状态迁移则探讨了CRIU、Hibernate及VM迁移等技术的应用前景。
|
小程序 API
uniapp、微信小程序返回上页面刷新数据
uniapp、微信小程序返回上页面刷新数据
650 0
|
存储 SQL 缓存
探秘MySQL底层架构:设计与实现流程一览
Mysql,作为一款优秀而广泛使用的数据库管理系统,对于众多Java工程师来说,几乎是日常开发中必不可少的一环。无论是存储海量数据,还是高效地检索和管理数据,Mysql都扮演着重要的角色。然而,除了使用Mysql进行日常开发之外,我们是否真正了解它的底层架构以及设计实现的流程呢?本篇博客将带您深入探索Mysql底层架构的设计与实现流程,帮助您更好地理解和应用这个强大的数据库系统。让我们一同揭开Mysql底层的神秘面纱,探寻其中的奥秘。
37127 14
探秘MySQL底层架构:设计与实现流程一览
|
Linux
Linux上传下载百度网盘文件
Linux上传下载百度网盘文件
1979 1
|
负载均衡 监控 开发者
构建高性能微服务架构:后端开发的终极指南
【4月更文挑战第24天】 在当今快速迭代和高并发的互联网环境中,构建一个高性能、可扩展且易于维护的后端系统显得至关重要。微服务架构作为解决复杂系统问题的有效方法,已经成为众多企业的首选架构模式。本文将深入探讨如何利用最新的后端技术和实践来构建高性能的微服务架构,包括服务拆分、容器化部署、服务发现与注册、负载均衡策略以及分布式事务管理等关键技术点,旨在为开发者提供一套全面的技术解决方案和实施建议。
|
Linux 应用服务中间件 nginx
Linux流量复制工具
  对于一些有并发要求的业务,特别是对接外部流量时,产品上线前一定要做的就是压力测试,但是常规的压力测试并不能覆盖所有情况。以gemeter、ab,、webbench、http_load为例,这些通过模拟请求的压测工具,只能发送特定的参数,对于一些参数异常导致的程序处理异常是无法考虑到的,所以就需要一款能复制真实流量,并且不影响线上业务的工具。
3574 0
|
消息中间件 Prometheus 监控
统一观测|Prometheus 监测 RocketMQ
RocketMQ 如何接入 PrometheusRocketMQ 诞生于阿里内部的核心电商系统,是业务消息的首选 MQ 平台。上图是 RocketMQ 5.0 的系统全貌,在接入层、核心组件和底层运维方面做了非常大的改进,具有功能多样、高性能、高可靠、可观测、易运维等众多优势。Metrics、Tra...
389 1
统一观测|Prometheus 监测 RocketMQ