浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

简介: 【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。

近年来,随着人工智能的飞速发展,计算机视觉与自然语言处理的交叉领域——指代表达理解(Referring Expression Comprehension,REC)受到了广泛关注。REC旨在根据自由形式的自然语言描述,在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能,但它们对图像进行密集感知,这会将与语言查询无关的冗余视觉区域包含进来,从而导致额外的计算开销。

为了解决这个问题,浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架,它能够通过自顶向下的方式,迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中,通过该团队设计的信息性预测来丢弃不相关的块。此外,他们还提出了一种针对丢弃块的块选择策略,以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域,从而提高模型的效率。通过在广泛的基准数据集上进行实验,包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame,该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡,并取得了最先进的性能。

然而,ScanFormer也存在一些局限性。首先,它目前只支持一次定位一个目标对象,这限制了它在需要同时定位多个对象的应用中的适用性。其次,尽管ScanFormer在准确性和效率之间取得了良好的平衡,但在某些情况下,它可能仍然不如其他方法准确或高效。

论文链接:https://arxiv.org/pdf/2406.18048

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 测试技术
探索软件测试中的“禅”:寻找内在的平和与外在的效率####
在软件测试的世界里,我们常常被缺陷的数量、测试用例的覆盖度以及上线时间的紧迫性所困扰。但如果我们能像禅宗修行者一样,将注意力转向内心的平静与专注,或许能在纷繁复杂的测试工作中找到一种全新的效率和质量提升之道。本文将带您走进软件测试的“禅意世界”,探讨如何在看似枯燥无味的测试过程中,通过调整心态、优化方法,实现个人成长与项目成功的双赢。 ####
|
1月前
补齐Transformer规划短板又不放弃快速思考,田渊栋团队的Dualformer融合System 1和2双重优势
田渊栋团队提出的Dualformer是一种创新的Transformer模型,能同时进行快速和深度推理。通过随机化推理轨迹数据训练,Dualformer可在不同模式下高效解决问题,如迷宫导航,且在准确率和效率上超越现有模型。该模型有望提升大型语言模型在数学等复杂任务上的表现,但也面临训练资源需求高和自动模式需进一步优化的挑战。
30 3
|
1月前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
57 1
|
4月前
|
机器学习/深度学习 人工智能
阿里轨迹可控版Sora,告别抽卡,让视频生成更符合物理规律
【8月更文挑战第26天】阿里团队新推出的Tora视频生成模型是对先前Sora模型的重要升级。Tora通过引入轨迹控制机制,极大提升了视频中物体运动的真实性和准确性。其核心技术包括轨迹提取器、运动指导融合器及空间时间扩散变换器,共同确保视频既高质量又流畅。实验表明,Tora在清晰度、细节表现力及运动轨迹控制上均有显著进步。尽管如此,模型训练复杂度和轨迹理解能力仍有待优化。[论文](https://arxiv.org/pdf/2407.21705)
52 2
|
7月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
7月前
|
机器学习/深度学习 算法 人机交互
编码之禅:技术洞见与内在平衡
【2月更文挑战第15天】 在技术的世界中,我们常常追求更快、更高效、更智能。然而,在这无限追求的过程中,我们是否忽略了技术本身的精神层面?本文将探讨技术发展背后的哲学思考,以及如何在快节奏的编程生活中寻找内在的平衡点。通过分享个人的编程感悟和实践,旨在启发读者对技术的深入理解和生活的和谐统一。
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
118 0
|
设计模式
重构·改善既有代码的设计.03之重构手法(上)
之前的重构系列中,介绍了书中提到的重构基础,以及识别代码的坏味道。今天继续第三更,讲述那些重构手法(上)。看看哪些手法对你的项目能有所帮助......
19267 1
重构·改善既有代码的设计.03之重构手法(上)
|
算法
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
借助模糊逻辑将文化算法与和谐搜索相结合进行学习——文化和谐学习算法(Matlab代码实现)
137 0
|
调度
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究(Matlab代码实现)
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究(Matlab代码实现)
176 0