浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

简介: 【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。

近年来,随着人工智能的飞速发展,计算机视觉与自然语言处理的交叉领域——指代表达理解(Referring Expression Comprehension,REC)受到了广泛关注。REC旨在根据自由形式的自然语言描述,在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能,但它们对图像进行密集感知,这会将与语言查询无关的冗余视觉区域包含进来,从而导致额外的计算开销。

为了解决这个问题,浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架,它能够通过自顶向下的方式,迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中,通过该团队设计的信息性预测来丢弃不相关的块。此外,他们还提出了一种针对丢弃块的块选择策略,以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域,从而提高模型的效率。通过在广泛的基准数据集上进行实验,包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame,该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡,并取得了最先进的性能。

然而,ScanFormer也存在一些局限性。首先,它目前只支持一次定位一个目标对象,这限制了它在需要同时定位多个对象的应用中的适用性。其次,尽管ScanFormer在准确性和效率之间取得了良好的平衡,但在某些情况下,它可能仍然不如其他方法准确或高效。

论文链接:https://arxiv.org/pdf/2406.18048

目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 测试技术
探索软件测试中的“禅”:寻找内在的平和与外在的效率####
在软件测试的世界里,我们常常被缺陷的数量、测试用例的覆盖度以及上线时间的紧迫性所困扰。但如果我们能像禅宗修行者一样,将注意力转向内心的平静与专注,或许能在纷繁复杂的测试工作中找到一种全新的效率和质量提升之道。本文将带您走进软件测试的“禅意世界”,探讨如何在看似枯燥无味的测试过程中,通过调整心态、优化方法,实现个人成长与项目成功的双赢。 ####
|
3月前
补齐Transformer规划短板又不放弃快速思考,田渊栋团队的Dualformer融合System 1和2双重优势
田渊栋团队提出的Dualformer是一种创新的Transformer模型,能同时进行快速和深度推理。通过随机化推理轨迹数据训练,Dualformer可在不同模式下高效解决问题,如迷宫导航,且在准确率和效率上超越现有模型。该模型有望提升大型语言模型在数学等复杂任务上的表现,但也面临训练资源需求高和自动模式需进一步优化的挑战。
51 3
|
9月前
|
存储 安全 关系型数据库
技术人必修课:利用金字塔原理高效思考与表达
作者写这篇文章的目的就是希望能够帮助更多同学了解金字塔原理并合理应用,不只是写作,更是要着眼于思考和表达。本文将围绕认识金字塔结构、表达的逻辑、思考的逻辑、解决问题的框架、演示的逻辑这几个方面带领大家深入学习金字塔原理。
|
9月前
|
机器学习/深度学习 数据可视化 算法
PACNet & CellNet(代码开源)|bulk数据作细胞分类,评估细胞命运性能的一大利器
PACNet和CellNet都是强大的工具,分别用于研究细胞命运工程和细胞类型保真度,它们在细胞类型分类和网络分析方面有所不同,可以根据研究需求选择合适的工具。
162 1
|
9月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
9月前
|
机器学习/深度学习 算法 人机交互
编码之禅:技术洞见与内在平衡
【2月更文挑战第15天】 在技术的世界中,我们常常追求更快、更高效、更智能。然而,在这无限追求的过程中,我们是否忽略了技术本身的精神层面?本文将探讨技术发展背后的哲学思考,以及如何在快节奏的编程生活中寻找内在的平衡点。通过分享个人的编程感悟和实践,旨在启发读者对技术的深入理解和生活的和谐统一。
|
设计模式
重构·改善既有代码的设计.03之重构手法(上)
之前的重构系列中,介绍了书中提到的重构基础,以及识别代码的坏味道。今天继续第三更,讲述那些重构手法(上)。看看哪些手法对你的项目能有所帮助......
19281 1
重构·改善既有代码的设计.03之重构手法(上)
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
133 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 算法 知识图谱
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能
253 0
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
251 0