浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

简介: 【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。

近年来,随着人工智能的飞速发展,计算机视觉与自然语言处理的交叉领域——指代表达理解(Referring Expression Comprehension,REC)受到了广泛关注。REC旨在根据自由形式的自然语言描述,在图像中定位目标对象。尽管当前最先进的方法已经取得了令人印象深刻的性能,但它们对图像进行密集感知,这会将与语言查询无关的冗余视觉区域包含进来,从而导致额外的计算开销。

为了解决这个问题,浙江大学的李玺团队提出了一种名为ScanFormer的新颖方法。ScanFormer是一种粗到细的迭代感知框架,它能够通过自顶向下的方式,迭代地利用图像尺度金字塔来提取与语言相关的视觉块。在每次迭代中,通过该团队设计的信息性预测来丢弃不相关的块。此外,他们还提出了一种针对丢弃块的块选择策略,以加速推理。

ScanFormer的主要贡献在于它能够有效地消除与语言无关的冗余视觉区域,从而提高模型的效率。通过在广泛的基准数据集上进行实验,包括RefCOCO、RefCOCO+、RefCOCOg和ReferItGame,该团队证明了ScanFormer的有效性。ScanFormer在准确性和效率之间取得了良好的平衡,并取得了最先进的性能。

然而,ScanFormer也存在一些局限性。首先,它目前只支持一次定位一个目标对象,这限制了它在需要同时定位多个对象的应用中的适用性。其次,尽管ScanFormer在准确性和效率之间取得了良好的平衡,但在某些情况下,它可能仍然不如其他方法准确或高效。

论文链接:https://arxiv.org/pdf/2406.18048

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 测试技术
探索软件测试中的“禅”:寻找内在的平和与外在的效率####
在软件测试的世界里,我们常常被缺陷的数量、测试用例的覆盖度以及上线时间的紧迫性所困扰。但如果我们能像禅宗修行者一样,将注意力转向内心的平静与专注,或许能在纷繁复杂的测试工作中找到一种全新的效率和质量提升之道。本文将带您走进软件测试的“禅意世界”,探讨如何在看似枯燥无味的测试过程中,通过调整心态、优化方法,实现个人成长与项目成功的双赢。 ####
|
2天前
|
算法 测试技术
北大李戈团队提出新代码模型对齐方法 CodeDPO:显著提升代码准确性与执行效率
北京大学李戈团队提出CodeDPO,一种新型代码模型对齐方法,通过整合偏好学习提升代码生成的准确性和执行效率。该方法采用自我生成和验证机制,基于PageRank算法迭代优化代码片段排名,构建偏好优化数据集。CodeDPO在HumanEval基准测试中实现83.5%的通过率,显著优于现有方法,并能提高代码执行效率。其灵活性和可扩展性使其适用于多种编程任务,但训练资源需求较大,且依赖于生成测试用例的质量。论文链接:https://arxiv.org/pdf/2410.05605。
17 2
|
4月前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
110 1
|
8月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
128 5
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
151 0
|
10月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
145 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
调度
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究(Matlab代码实现)
【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究(Matlab代码实现)
207 0
|
机器学习/深度学习 人工智能 决策智能
顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制
顶会是否应该降低接收门槛?用博弈论探索最优审稿和决策机制
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
256 0