每日学术速递5.9

简介: 目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Tracking through Containers and Occluders in the Wild(CVPR 2023)

aecca3ead46acdb43a59de85a496ab75.png

标题:在野外通过容器和遮挡物进行追踪

作者:Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

文章链接:https://arxiv.org/abs/2305.03052v1

项目代码:https://tcow.cs.columbia.edu/

9c8e85311ff2ca8e7935f83a84e4641c.png

8e28d4017250d882ca158452f762862a.png

932bc91da5f5a2544149651a1693d19d.png

88ee8a8fa95ed520ab42fbb0afbecef0.png

cf009e84527d1f4c2773699fa6191f91.png

摘要:

       在杂乱和动态的环境中持续跟踪对象仍然是计算机视觉系统的一项艰巨挑战。在本文中,我们介绍了 TCOW ,这是一种通过严重遮挡和遏制进行视觉跟踪的新基准和模型。我们设置了一个任务,目标是在给定视频序列的情况下,分割目标对象的投影范围以及周围存在的容器或遮挡物。为了研究这项任务,我们创建了合成和带注释的真实数据集的混合物,以支持在各种形式的任务变化(例如移动或嵌套包含)下对模型性能进行监督学习和结构化评估。我们评估了两个最近的基于 transformer 的视频模型,发现虽然它们在某些任务变化设置下能够令人惊讶地跟踪目标,但在我们可以声称跟踪模型已经获得了对象永久性的真实概念之前,仍然存在相当大的性能差距.

2.LIMOT: A Tightly-Coupled System for LiDAR-Inertial Odometry and Multi-Object Tracking

e0ff7e2e0cf9ee3a3cb2728b9a2654cd.png


标题:LIMOT:用于 LiDAR 惯性里程计和多目标跟踪的紧耦合系统

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2305.00406v1

项目代码:https://github.com/microsoft/AdaM

e85e4b32ca800ac43475122b938b1f60.png

11b2b59ff41ba7bbb99ddcd8b95e9b07.png

e336ef04b7afb09f18c85407cb8684bf.png

e2f0f18a19d91e1d13dcb08ea4bbd9e0.png

11628c593bc7dce68c65db733167da89.png

摘要:

       同步定位与地图构建 (SLAM) 对于自动驾驶的实施至关重要。大多数 LiDAR 惯性 SLAM 算法都假设静态环境,导致动态环境中的定位不可靠。此外,准确跟踪运动物体对于自主车辆运行的控制和规划具有重要意义。本研究提出了 LIMOT,这是一种紧密耦合的多目标跟踪和 LiDAR 惯性 SLAM 系统,能够准确估计自我车辆和物体的姿态。首先,我们使用物体检测器生成的 3D 边界框来表示所有可移动物体,并使用惯性测量单元 (IMU) 预积分结果执行 LiDAR 里程计。基于滑动窗口中跟踪对象的历史轨迹,我们执行稳健的对象关联。我们提出了一种基于轨迹的动态特征过滤方法,该方法利用跟踪结果过滤掉属于运动物体的特征。然后进行基于因子图的优化,以优化 IMU 的偏差以及滑动窗口中本车和周围物体的姿态。在 KITTI 数据集上进行的实验表明,我们的方法比我们之前的工作 DL-SLOT 和其他 SLAM 和多目标跟踪基线方法实现了更好的姿势和跟踪精度。

3.Tracker Meets Night: A Transformer Enhancer for UAV Tracking


标题:Tracker Meets Night:无人机跟踪的变形增强器

作者:Junjie Ye, Changhong Fu, Ziang Cao, Shan An, Guangze Zheng, Bowen Li

文章链接:https://arxiv.org/abs/2303.10951v1

项目代码:https://github.com/vision4robotics/SCT

摘要:

       目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展。为了在夜间实现可靠的 UAV 跟踪,提出了一种基于空间通道 Transformer 的低光增强器(即 SCT),它以一种新颖的任务启发方式进行训练,并在跟踪方法之前插入。为了实现针对高级任务的语义级弱光增强,提出了一种新颖的空间通道注意模块,以在保留局部上下文的同时对全局信息进行建模。在增强过程中,SCT 通过稳健的非线性曲线投影同时对夜间图像进行去噪和照明。此外,为了提供全面的评估,我们构建了一个具有挑战性的夜间跟踪基准,即 DarkTrack2021,它包含 110 个具有挑战性的序列,总共超过 100 K 帧。对公共 UAVDark135 基准测试和新建的 DarkTrack2021 基准测试的评估表明,与其他排名靠前的低光增强器相比,受任务启发的设计使 SCT 在夜间无人机跟踪方面具有显着的性能提升。在典型无人机平台上的真实世界测试进一步验证了所提出方法的实用性。DarkTrack2021 基准测试和所提议方法的代码可在此 https URL 上公开获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.9
最近的视觉语言模型显示出令人印象深刻的多模态生成能力。但是,通常它们需要在海量数据集上训练大型模型。作为更具可扩展性的替代方案,我们引入了 Prismer,这是一种数据和参数高效的视觉语言模型,它利用了领域专家的集合。
146 0
每日学术速递3.9
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
152 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
97 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
110 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
121 0
|
机器学习/深度学习 自然语言处理 并行计算
每日学术速递4.13
最近基于扩散的生成器可以仅根据文本提示生成高质量的图像。但是,它们不能正确解释指定构图空间布局的指令。我们提出了一种简单的方法,无需训练或微调图像生成器即可实现稳健的布局控制。我们的技术,我们称之为布局指导,操纵模型用来连接文本和视觉信息的交叉注意层,并在给定的所需方向上引导重建
133 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
105 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
204 0
|
自然语言处理 计算机视觉
每日学术速递3.6
本文描述了一种使用与目标数据集不一定相关的多个源数据集进行语义分割的域自适应训练方法。我们通过整合来自多个源模型的预测对象概率,提出了一种软伪标签生成方法。每个源模型的预测基于源数据集和目标数据集之间的估计域相似性进行加权,以强调在与目标更相似的源上训练的模型的贡献,并生成合理的伪标签。
112 0
|
机器学习/深度学习 存储 人工智能
每日学术速递4.12
我们提出了 LLMA,这是一种 LLM 加速器,可以无损地加速带有引用的大型语言模型 (LLM) 推理。LLMA 的动机是观察到在 LLM 的解码结果和许多现实世界场景(例如,检索到的文档)中可用的参考之间存在大量相同的文本跨度。LLMA 首先从参考中选择一个文本跨度并将其标记复制到解码器
140 0