每日学术速递5.9

简介: 目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Tracking through Containers and Occluders in the Wild(CVPR 2023)

aecca3ead46acdb43a59de85a496ab75.png

标题:在野外通过容器和遮挡物进行追踪

作者:Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

文章链接:https://arxiv.org/abs/2305.03052v1

项目代码:https://tcow.cs.columbia.edu/

9c8e85311ff2ca8e7935f83a84e4641c.png

8e28d4017250d882ca158452f762862a.png

932bc91da5f5a2544149651a1693d19d.png

88ee8a8fa95ed520ab42fbb0afbecef0.png

cf009e84527d1f4c2773699fa6191f91.png

摘要:

       在杂乱和动态的环境中持续跟踪对象仍然是计算机视觉系统的一项艰巨挑战。在本文中,我们介绍了 TCOW ,这是一种通过严重遮挡和遏制进行视觉跟踪的新基准和模型。我们设置了一个任务,目标是在给定视频序列的情况下,分割目标对象的投影范围以及周围存在的容器或遮挡物。为了研究这项任务,我们创建了合成和带注释的真实数据集的混合物,以支持在各种形式的任务变化(例如移动或嵌套包含)下对模型性能进行监督学习和结构化评估。我们评估了两个最近的基于 transformer 的视频模型,发现虽然它们在某些任务变化设置下能够令人惊讶地跟踪目标,但在我们可以声称跟踪模型已经获得了对象永久性的真实概念之前,仍然存在相当大的性能差距.

2.LIMOT: A Tightly-Coupled System for LiDAR-Inertial Odometry and Multi-Object Tracking

e0ff7e2e0cf9ee3a3cb2728b9a2654cd.png


标题:LIMOT:用于 LiDAR 惯性里程计和多目标跟踪的紧耦合系统

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2305.00406v1

项目代码:https://github.com/microsoft/AdaM

e85e4b32ca800ac43475122b938b1f60.png

11b2b59ff41ba7bbb99ddcd8b95e9b07.png

e336ef04b7afb09f18c85407cb8684bf.png

e2f0f18a19d91e1d13dcb08ea4bbd9e0.png

11628c593bc7dce68c65db733167da89.png

摘要:

       同步定位与地图构建 (SLAM) 对于自动驾驶的实施至关重要。大多数 LiDAR 惯性 SLAM 算法都假设静态环境,导致动态环境中的定位不可靠。此外,准确跟踪运动物体对于自主车辆运行的控制和规划具有重要意义。本研究提出了 LIMOT,这是一种紧密耦合的多目标跟踪和 LiDAR 惯性 SLAM 系统,能够准确估计自我车辆和物体的姿态。首先,我们使用物体检测器生成的 3D 边界框来表示所有可移动物体,并使用惯性测量单元 (IMU) 预积分结果执行 LiDAR 里程计。基于滑动窗口中跟踪对象的历史轨迹,我们执行稳健的对象关联。我们提出了一种基于轨迹的动态特征过滤方法,该方法利用跟踪结果过滤掉属于运动物体的特征。然后进行基于因子图的优化,以优化 IMU 的偏差以及滑动窗口中本车和周围物体的姿态。在 KITTI 数据集上进行的实验表明,我们的方法比我们之前的工作 DL-SLOT 和其他 SLAM 和多目标跟踪基线方法实现了更好的姿势和跟踪精度。

3.Tracker Meets Night: A Transformer Enhancer for UAV Tracking


标题:Tracker Meets Night:无人机跟踪的变形增强器

作者:Junjie Ye, Changhong Fu, Ziang Cao, Shan An, Guangze Zheng, Bowen Li

文章链接:https://arxiv.org/abs/2303.10951v1

项目代码:https://github.com/vision4robotics/SCT

摘要:

       目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展。为了在夜间实现可靠的 UAV 跟踪,提出了一种基于空间通道 Transformer 的低光增强器(即 SCT),它以一种新颖的任务启发方式进行训练,并在跟踪方法之前插入。为了实现针对高级任务的语义级弱光增强,提出了一种新颖的空间通道注意模块,以在保留局部上下文的同时对全局信息进行建模。在增强过程中,SCT 通过稳健的非线性曲线投影同时对夜间图像进行去噪和照明。此外,为了提供全面的评估,我们构建了一个具有挑战性的夜间跟踪基准,即 DarkTrack2021,它包含 110 个具有挑战性的序列,总共超过 100 K 帧。对公共 UAVDark135 基准测试和新建的 DarkTrack2021 基准测试的评估表明,与其他排名靠前的低光增强器相比,受任务启发的设计使 SCT 在夜间无人机跟踪方面具有显着的性能提升。在典型无人机平台上的真实世界测试进一步验证了所提出方法的实用性。DarkTrack2021 基准测试和所提议方法的代码可在此 https URL 上公开获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
110 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
149 0
每日学术速递3.20
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.10
由于对各种可能的自然语言问题进行概括的挑战,基于知识库的问答被认为是一个难题。此外,不同知识库之间知识库模式项的异质性通常需要对不同知识库问答 (KBQA) 数据集进行专门培训。为了使用统一的免训练框架处理各种 KBQA 数据集的问题,我们提出了 KB-BINDER,它首次实现了对 KBQA 任务的少样本上下文学习
188 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.25
场景理解的一个长期目标是获得可解释和可编辑的表示,这些表示可以直接从原始单目 RGB-D 视频构建,而不需要专门的硬件设置或先验。在存在多个移动和/或变形物体的情况下,该问题更具挑战性。传统方法通过混合简化、场景先验、预训练模板或已知变形模型来处理设置。
166 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
164 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
97 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
87 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
125 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
94 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.7
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。
124 0