浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

简介: 【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。

近年来,随着人工智能的飞速发展,计算机视觉与自然语言处理的交叉领域——指代表达理解(Referring Expression Comprehension,REC)受到了广泛关注。REC旨在根据自由形式的自然语言描述,在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能,但它们对图像进行密集感知,这会将与语言查询无关的冗余视觉区域包含进来,从而导致额外的计算开销。

为了解决这个问题,浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架,它能够通过自顶向下的方式,迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中,通过该团队设计的信息性预测来丢弃不相关的块。此外,他们还提出了一种针对丢弃块的块选择策略,以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域,从而提高模型的效率。通过在广泛的基准数据集上进行实验,包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame,该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡,并取得了最先进的性能。

然而,ScanFormer也存在一些局限性。首先,它目前只支持一次定位一个目标对象,这限制了它在需要同时定位多个对象的应用中的适用性。其次,尽管ScanFormer在准确性和效率之间取得了良好的平衡,但在某些情况下,它可能仍然不如其他方法准确或高效。

论文链接:https://arxiv.org/pdf/2406.18048

目录
相关文章
|
4月前
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
GPT-4在逻辑推理和概念关联上的准确率提升至100%,超越ChatGPT,其智力可能超过95%的人。在逻辑和多模态理解上有显著进步,但数数和某些逻辑推理仍是挑战。擅长处理成本计算和复杂情境,能建立概念间的间接关联,如遗忘与老龄化的联系。在数学和物理领域表现出色,但处理复杂间接关系和抽象概念时仍有局限。总体而言,GPT-4展现出超越人类智能的潜力,但仍需面对认知任务的挑战。![GPT-4进步示意](https://developer.aliyun.com/profile/oesouji3mdrog/highScore_1?spm=a2c6h.132)查看GPT-5教程,可访问我的个人主页介绍。
145 0
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
|
23天前
|
机器学习/深度学习 人工智能
阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律
【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)
24 2
|
2月前
软件复用问题之如果无法进行定量分析,评估系统的复用性要如何解决
软件复用问题之如果无法进行定量分析,评估系统的复用性要如何解决
|
2月前
|
UED
通用研发提效问题之层级较深表达复杂的问题在配置模型中如何解决
通用研发提效问题之层级较深表达复杂的问题在配置模型中如何解决
|
4月前
|
机器学习/深度学习 数据可视化 算法
PACNet & CellNet(代码开源)|bulk数据作细胞分类,评估细胞命运性能的一大利器
PACNet和CellNet都是强大的工具,分别用于研究细胞命运工程和细胞类型保真度,它们在细胞类型分类和网络分析方面有所不同,可以根据研究需求选择合适的工具。
72 1
|
4月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24329 9
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
116 0
|
机器学习/深度学习
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
233 0
机器学习增强量子化学领域的新突破,用半经验量子力学方法的结构来构建动态响应的哈密顿量
|
机器学习/深度学习 存储 传感器
《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型
《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型
264 0