有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT-阿里云开发者社区

有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT

2023-05-17 103

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT

来自之江实验室和浙江大学的研究者提出了一种再注意机制，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

弱监督定位任务（Weakly supervised object localization, WSOL）仅利用图像级别的类别标签，就能实现目标级别的定位功能，因为其细粒度注释的最小化需求大大压缩了人工成本，于近年获得大量关注。

由于缺乏目标级别标签的约束，仅利用图像标签进行分类训练，弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域，难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关？Transformer 类网络结构的长程依赖特性对弱监督定位有何影响？作者通过可视化分析 CAM 方法、纯 transformer 网络的长程特征依赖关系，发现 transformer 网络中的长程依赖有利于克服局部聚焦缺陷，却容易受到背景干扰。
下图 1 展示了不同方法的可视化定位结果，可以看出 CAM 方法存在明显局部聚焦的问题；Transformer 的长程依赖容易产生背景误定位的现象；融合 Transformer 长程依赖和 CAM（参照 TS-CAM 论文方法）的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题，但是问题依旧存在。

图 1：不同方法的可视化结果比对

基于此，来自之江实验室和浙江大学的研究者提出一种再注意机制，即 TRT (token refinement transformer)，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

论文链接：https://arxiv.org/pdf/2208.01838.pdf
Github链接：https://github.com/su-hui-zz/ReAttentionTransformer

方法介绍

图 2：核心方法框架图

上图 2 展示了 TRT 方法的整体框架图，TRT 由 TPSM（Token Priority Scoring Module）和 CAM ( Class Activation Map ) 两个分支构成。其中 TPSM 分支主要由 Token Preliminary Attention、Token Selection 和 Token Re-Attention 三部分组成。Token Preliminary Attention 表示利用 transformer 网络不同层的 class token 和 patch token 之间的长程依赖关系构建初步注意力图；Token Selection 指构建自适应阈值策略，筛选出初步注意力图中与 class token 关联性更高的 patch token；Token Re-Attention 指对筛选的 patch token 执行再注意操作。
训练阶段，针对 CAM 分支和 TPSM 分支输出的分类概率和，与类别标签构建交叉熵损失函数，实现分类训练，如下公式（2）所示。

测试阶段，将 CAM 分支输出的特征与 TPSM 分支输出的特征点乘，生成最终的注意力图M。

token优先级评分模块
token初步注意力

第 l 个 transformer 层的自注意矩阵公式如下式（4）所示，其中的第一行为 class token 的注意力向量，展示了 class token 和所有 patch token 之间的关联关系。将所有层 transformer 层 class token 的注意力向量进行均值融合，得到初步注意力结果 m。