浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

简介: 【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。

近年来,随着人工智能的飞速发展,计算机视觉与自然语言处理的交叉领域——指代表达理解(Referring Expression Comprehension,REC)受到了广泛关注。REC旨在根据自由形式的自然语言描述,在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能,但它们对图像进行密集感知,这会将与语言查询无关的冗余视觉区域包含进来,从而导致额外的计算开销。

为了解决这个问题,浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架,它能够通过自顶向下的方式,迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中,通过该团队设计的信息性预测来丢弃不相关的块。此外,他们还提出了一种针对丢弃块的块选择策略,以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域,从而提高模型的效率。通过在广泛的基准数据集上进行实验,包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame,该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡,并取得了最先进的性能。

然而,ScanFormer也存在一些局限性。首先,它目前只支持一次定位一个目标对象,这限制了它在需要同时定位多个对象的应用中的适用性。其次,尽管ScanFormer在准确性和效率之间取得了良好的平衡,但在某些情况下,它可能仍然不如其他方法准确或高效。

论文链接:https://arxiv.org/pdf/2406.18048

目录
相关文章
|
C++ Python
VS Code按住ctrl不能跳转到定义/函数(Python)
VS Code按住ctrl不能跳转到定义/函数(Python)
4516 0
VS Code按住ctrl不能跳转到定义/函数(Python)
|
8月前
|
机器学习/深度学习 人工智能 边缘计算
基于YOLOv8的包装箱纸板破损缺陷识别项目
本项目集成了 YOLOv8纸板破损缺陷检测模型 与 PyQt5图形界面工具,支持对工厂包装纸箱表面出现的多种破损瑕疵(如撕裂、压痕、孔洞等)进行快速准确识别。检测逻辑精准,界面操作便捷,适用于工厂自动质检、流水线布控系统等实际场景。提供完整训练流程与数据,开箱即用、部署无门槛,适合AI新手和工业视觉开发者学习与二次开发。
基于YOLOv8的包装箱纸板破损缺陷识别项目
|
11月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
2151 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
7月前
|
算法 Java 开发者
Java 项目实战数字华容道与石头迷阵游戏开发详解及实战方法
本文介绍了使用Java实现数字华容道和石头迷阵游戏的技术方案与应用实例,涵盖GUI界面设计、二维数组操作、游戏逻辑控制及自动解法算法(如A*),适合Java开发者学习游戏开发技巧。
433 46
|
机器学习/深度学习 算法 计算机视觉
超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
中科大研究团队提出了一种新型目标检测器D-FINE,通过重新定义边界框回归任务,实现超越YOLOv10/11和RT-DETRv2/3的性能。D-FINE采用细粒度分布细化(FDR)和全局最优定位自蒸馏(GO-LSD)技术,显著提高了定位精度和检测速度。在COCO数据集上,D-FINE-L/X分别达到54.0%/55.8%的AP,并在NVIDIA T4 GPU上以124/78 FPS运行。
611 13
|
9月前
|
API 开发工具 开发者
HarmonyOS NEXT实战:拨打电话
本课程介绍如何在HarmonyOS SDK中使用Telephony Kit实现拨打电话功能。通过CallPhoneDemoPage示例,讲解如何输入电话号码并调用makeCall接口拨号,涉及call模块的使用及设备通话能力检测。
8018 0
|
12月前
|
安全 API 开发工具
什么是Token
Token是一种用于身份验证和授权的凭证,广泛应用于云计算、API调用、实时音视频通信等场景。它通过加密算法生成,确保请求合法性与服务安全性。Token的核心作用包括身份验证、权限控制、安全保障和无状态化设计。生成方式有控制台、SDK、OpenAPI、JWT和服务端生成等。Token通常包含AppID、UserID、时间戳等字段,并通过哈希算法计算。应用场景涵盖智能语音交互、实时音视频通信、API网关和STS临时访问凭证等。使用时需注意有效期、密钥管理、权限设置和传输安全。
5286 4
ModBus Pull的详细安装教程
ModBus Pull的详细安装教程
1221 1
|
数据采集
5分钟理透LangChain的Chain
LangChain几乎是LLM应用开发的第一选择,它的野心也比较大,它致力于将自己打造成LLM应用开发的最大社区。而LangChain最核心的部分非 Chain 莫属。

热门文章

最新文章