浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余-阿里云开发者社区

浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

2024-09-14 74

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第14天】近年来，人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究，其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而，现有方法因密集感知图像而导致计算开销大。为此，浙江大学李玺团队提出了ScanFormer，一种迭代感知框架，通过自顶向下的方式逐步提取与语言相关的视觉块，并通过信息性预测丢弃不相关部分，有效减少冗余，提升模型效率。实验表明，ScanFormer在多个基准数据集上表现优异，实现了准确性和效率的良好平衡。不过，它目前仅支持单目标定位，且在某些场景下可能不如其他方法精确。

近年来，随着人工智能的飞速发展，计算机视觉与自然语言处理的交叉领域——指代表达理解（Referring Expression Comprehension，REC）受到了广泛关注。REC旨在根据自由形式的自然语言描述，在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能，但它们对图像进行密集感知，这会将与语言查询无关的冗余视觉区域包含进来，从而导致额外的计算开销。

为了解决这个问题，浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架，它能够通过自顶向下的方式，迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中，通过该团队设计的信息性预测来丢弃不相关的块。此外，他们还提出了一种针对丢弃块的块选择策略，以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域，从而提高模型的效率。通过在广泛的基准数据集上进行实验，包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame，该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡，并取得了最先进的性能。

然而，ScanFormer也存在一些局限性。首先，它目前只支持一次定位一个目标对象，这限制了它在需要同时定位多个对象的应用中的适用性。其次，尽管ScanFormer在准确性和效率之间取得了良好的平衡，但在某些情况下，它可能仍然不如其他方法准确或高效。

论文链接：https://arxiv.org/pdf/2406.18048

浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

浙大李玺团队：指代表达理解新方法，ScanFormer粗到细迭代消除视觉冗余

热门文章

最新文章

相关课程

相关电子书

相关实验场景