每日学术速递5.9

简介: 目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理


Subjects: cs.CV


1.Tracking through Containers and Occluders in the Wild(CVPR 2023)

aecca3ead46acdb43a59de85a496ab75.png

标题:在野外通过容器和遮挡物进行追踪

作者:Basile Van Hoorick, Pavel Tokmakov, Simon Stent, Jie Li, Carl Vondrick

文章链接:https://arxiv.org/abs/2305.03052v1

项目代码:https://tcow.cs.columbia.edu/

9c8e85311ff2ca8e7935f83a84e4641c.png

8e28d4017250d882ca158452f762862a.png

932bc91da5f5a2544149651a1693d19d.png

88ee8a8fa95ed520ab42fbb0afbecef0.png

cf009e84527d1f4c2773699fa6191f91.png

摘要:

       在杂乱和动态的环境中持续跟踪对象仍然是计算机视觉系统的一项艰巨挑战。在本文中,我们介绍了 TCOW ,这是一种通过严重遮挡和遏制进行视觉跟踪的新基准和模型。我们设置了一个任务,目标是在给定视频序列的情况下,分割目标对象的投影范围以及周围存在的容器或遮挡物。为了研究这项任务,我们创建了合成和带注释的真实数据集的混合物,以支持在各种形式的任务变化(例如移动或嵌套包含)下对模型性能进行监督学习和结构化评估。我们评估了两个最近的基于 transformer 的视频模型,发现虽然它们在某些任务变化设置下能够令人惊讶地跟踪目标,但在我们可以声称跟踪模型已经获得了对象永久性的真实概念之前,仍然存在相当大的性能差距.

2.LIMOT: A Tightly-Coupled System for LiDAR-Inertial Odometry and Multi-Object Tracking

e0ff7e2e0cf9ee3a3cb2728b9a2654cd.png


标题:LIMOT:用于 LiDAR 惯性里程计和多目标跟踪的紧耦合系统

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2305.00406v1

项目代码:https://github.com/microsoft/AdaM

e85e4b32ca800ac43475122b938b1f60.png

11b2b59ff41ba7bbb99ddcd8b95e9b07.png

e336ef04b7afb09f18c85407cb8684bf.png

e2f0f18a19d91e1d13dcb08ea4bbd9e0.png

11628c593bc7dce68c65db733167da89.png

摘要:

       同步定位与地图构建 (SLAM) 对于自动驾驶的实施至关重要。大多数 LiDAR 惯性 SLAM 算法都假设静态环境,导致动态环境中的定位不可靠。此外,准确跟踪运动物体对于自主车辆运行的控制和规划具有重要意义。本研究提出了 LIMOT,这是一种紧密耦合的多目标跟踪和 LiDAR 惯性 SLAM 系统,能够准确估计自我车辆和物体的姿态。首先,我们使用物体检测器生成的 3D 边界框来表示所有可移动物体,并使用惯性测量单元 (IMU) 预积分结果执行 LiDAR 里程计。基于滑动窗口中跟踪对象的历史轨迹,我们执行稳健的对象关联。我们提出了一种基于轨迹的动态特征过滤方法,该方法利用跟踪结果过滤掉属于运动物体的特征。然后进行基于因子图的优化,以优化 IMU 的偏差以及滑动窗口中本车和周围物体的姿态。在 KITTI 数据集上进行的实验表明,我们的方法比我们之前的工作 DL-SLOT 和其他 SLAM 和多目标跟踪基线方法实现了更好的姿势和跟踪精度。

3.Tracker Meets Night: A Transformer Enhancer for UAV Tracking


标题:Tracker Meets Night:无人机跟踪的变形增强器

作者:Junjie Ye, Changhong Fu, Ziang Cao, Shan An, Guangze Zheng, Bowen Li

文章链接:https://arxiv.org/abs/2303.10951v1

项目代码:https://github.com/vision4robotics/SCT

摘要:

       目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展。为了在夜间实现可靠的 UAV 跟踪,提出了一种基于空间通道 Transformer 的低光增强器(即 SCT),它以一种新颖的任务启发方式进行训练,并在跟踪方法之前插入。为了实现针对高级任务的语义级弱光增强,提出了一种新颖的空间通道注意模块,以在保留局部上下文的同时对全局信息进行建模。在增强过程中,SCT 通过稳健的非线性曲线投影同时对夜间图像进行去噪和照明。此外,为了提供全面的评估,我们构建了一个具有挑战性的夜间跟踪基准,即 DarkTrack2021,它包含 110 个具有挑战性的序列,总共超过 100 K 帧。对公共 UAVDark135 基准测试和新建的 DarkTrack2021 基准测试的评估表明,与其他排名靠前的低光增强器相比,受任务启发的设计使 SCT 在夜间无人机跟踪方面具有显着的性能提升。在典型无人机平台上的真实世界测试进一步验证了所提出方法的实用性。DarkTrack2021 基准测试和所提议方法的代码可在此 https URL 上公开获得。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
117 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
150 0
每日学术速递4.3
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
178 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.18
我们介绍了 Delta Denoising Score (DDS),这是一种用于基于文本的图像编辑的新颖评分函数,可引导对输入图像进行最小程度的修改以实现目标提示中描述的内容。DDS 利用文本到图像扩散模型的丰富生成先验,可用作优化问题中的损失项,以将图像引导至文本指示的所需方向。DDS 利用分数蒸馏采样 (SDS) 机制来进行图像编辑。我们表明,仅使用 SDS 通常会由于嘈杂的梯度而产生不详细和模糊的输出。
206 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
126 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
147 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
122 0
|
SQL 机器学习/深度学习 自然语言处理
每日学术速递3.22
我们介绍了一种新颖的方法,通过对一种或多种字母字体进行风格化来自动生成艺术排版,以直观地传达输入词的语义,同时确保输出保持可读性。为了解决我们手头任务的各种挑战,包括相互冲突的目标(艺术风格化与易读性)、缺乏基本事实和巨大的搜索空间,我们的方法利用大型语言模型来桥接文本和视觉图像以进行风格化,并建立一个无监督的具有扩散模型骨干的生成模型。
100 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
141 0

热门文章

最新文章