每日学术速递4.9

简介: 错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.HypLiLoc: Towards Effective LiDAR Pose Regression with Hyperbolic Fusion(CVPR 2023)

752a6f81553eab534c23da732f90501d.png

标题:HypLiLoc:通过双曲线融合实现有效的 LiDAR 姿态回归

作者:Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee Peng Tay

文章链接:https://arxiv.org/abs/2304.00932

项目代码:https://github.com/sijieaaa/HypLiLoc

901911bd0f9e558616add04dc3b3e8b6.png

66ed8c106c393e22d69d2a05d45265b1.png

16409e8b12a732eb9ba626b9376d2450.png

dff91c8a09f9731beedf3ae68b8f13e8.png

摘要:

       LiDAR 重定位在许多领域发挥着至关重要的作用,包括机器人技术、自动驾驶和计算机视觉。基于 LiDAR 的数据库检索通常会产生高计算存储成本,并且如果数据库过于稀疏,则可能导致全局不准确的姿态估计。另一方面,姿态回归方法以图像或点云作为输入,并以端到端的方式直接回归全局姿态。它们不执行数据库匹配,并且比检索技术计算效率更高。我们提出了 HypLiLoc,一种用于 LiDAR 位姿回归的新模型。我们使用两个分支主干分别提取 3D 特征和 2D 投影特征。我们考虑在欧几里德空间和双曲空间中进行多模态特征融合,以获得更有效的特征表示。实验结果表明,HypLiLoc 在室外和室内数据集中都实现了最先进的性能。我们还对框架设计进行了广泛的消融研究,证明了多模态特征提取和多空间嵌入的有效性。我们的代码发布于:这个 https URL

2.DiffMimic: Efficient Motion Mimicking with Differentiable Physics(ICLR 2023)

a0304c1980736b777b578049c01fdc19.png

标题:DiffMimic:利用可微物理进行高效运动模拟

作者:Jiawei Ren, Cunjun Yu, Siwei Chen, Xiao Ma, Liang Pan, Ziwei Liu

文章链接:https://openreview.net/forum?id=06mk-epSwZ

项目代码:https://diffmimic.github.io/

234668952a333dc8c74c7a042ce28234.png

69b7c38dbb9024cd08f61bb4e280b706.png

e4dd8ec28f11df012d1433f7e40fa9f4.png

57856f81edb16b49a8c6419499512a88.png

摘要:

       运动模仿是基于物理的角色动画中的一项基础任务。然而,大多数现有的运动模仿方法都是建立在强化学习 (RL) 的基础上的,并且存在大量奖励工程、高方差和缓慢收敛以及艰苦探索的问题。具体来说,他们通常需要数十小时甚至数天的训练来模仿一个简单的运动序列,导致可扩展性差。在这项工作中,我们利用可微分物理模拟器 (DPS) 并提出了一种称为 DiffMimic 的高效运动模仿方法。我们的关键见解是 DPS 将复杂的策略学习任务转换为更简单的状态匹配问题。特别是,DPS 通过具有真实物理先验的分析梯度来学习稳定的策略,从而导致比基于 RL 的方法更快更稳定的收敛。此外,为了避免局部最优,我们利用 Demonstration Replay 机制在长范围内实现稳定的梯度反向传播。对标准基准的大量实验表明,DiffMimic 比现有方法(例如 DeepMimic)具有更好的样本效率和时间效率。值得注意的是,DiffMimic 允许物理模拟角色在训练 10 分钟后学习 Backflip,并能够在训练 3 小时后循环它,而现有方法可能需要大约一天的训练才能循环 Backflip。更重要的是,我们希望 DiffMimic 在未来的研究中可以通过可微分服装模拟等技术使更多可微分动画系统受益。

3.Detecting and Grounding Multi-Modal Media Manipulation(CVPR 2023)

fe3a5cd3ab49e6dfe2d731c99cb61bde.png

标题:检测和接地多模态媒体操纵

作者:Rui Shao, Tianxing Wu, Ziwei Liu

文章链接:https://arxiv.org/abs/2304.02556

项目代码:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

65d05fadd1b37ffa9863566552f8df71.png

4e6221e99191f6f49443965e66a3d31d.png

3cd5cfbd6b08368737dc23e1def363b9.png

480cec2ed88f3a012b5f8dbd0c598e45.png

3ab4c27434fdc4e0088a9f614e54144d.png

摘要:

       错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。在本文中,我们强调了多模态虚假媒体的一个新研究问题,即检测和接地多模态媒体操纵 (DGM^4)。DGM^4 的目标不仅是检测多模态媒体的真实性,而且还将被操纵的内容(即图像边界框和文本标记)作为基础,这需要对多模态媒体操纵进行更深入的推理。为了支持大规模调查,我们构建了第一个 DGM^4 数据集,其中图像-文本对通过各种方法进行操作,并对各种操作进行了丰富的注释。此外,我们提出了一种新颖的分层多模态操作推理变换器 (HAMMER),以充分捕捉不同模态之间的细粒度交互。HAMMER 执行 1) 两个单模态编码器之间的操作感知对比学习作为浅层操作推理,以及 2) 多模态聚合器的模态感知交叉注意力作为深度操作推理。基于交互的多模态信息,从浅到深集成专用的操纵检测和接地头。最后,我们为这个新的研究问题建立了一个广泛的基准并建立了严格的评估指标。综合实验证明了我们模型的优越性;还揭示了一些有价值的观察结果,以促进未来对多模态媒体操纵的研究。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
116 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
135 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递4.20
建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互
103 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
151 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
147 0
|
机器学习/深度学习 存储 编解码
每日学术速递2.20
将强大的生成去噪扩散模型 (DDM) 应用于图像语义编辑等下游任务通常需要微调预训练 DDM 或学习辅助编辑网络。在这项工作中,我们通过仅通过冻结 DDM 优化去噪轨迹,在各种应用程序设置上实现了 SOTA 语义控制性能。
98 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
147 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.27
视觉知识感知问答 (Knowledge-aware question answering, KAQA) 要求模型通过知识库回答问题,这对于开放域 QA 和特定域 QA 都是必不可少的,尤其是当仅靠语言模型无法提供所需的所有知识时。尽管最近的 KAQA 系统倾向于整合来自预训练语言模型 (PLM) 的语言知识和来自知识图 (KG) 的事实知识来回答复杂问题,但在有效融合来自 PLM 和 KG 的表征方面存在瓶颈,因为(i) 它们之间的语义和分布差距,以及 (ii) 对两种模式提供的知识进行联合推理的困难。
105 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递3.21
随着神经辐射场 (NeRFs) 的引入,新颖的视图合成最近取得了巨大飞跃。NeRF 的核心是提出每个 3D 点都可以发出辐射,从而允许使用可区分的体积渲染进行视图合成。虽然神经辐射场可以准确地表示用于计算图像渲染的 3D 场景,但 3D 网格仍然是大多数计算机图形和模拟管道支持的主要场景表示,支持实时渲染和基于物理的模拟等任务。
128 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
166 0