每日学术速递4.9

简介: 错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.HypLiLoc: Towards Effective LiDAR Pose Regression with Hyperbolic Fusion(CVPR 2023)

752a6f81553eab534c23da732f90501d.png

标题:HypLiLoc:通过双曲线融合实现有效的 LiDAR 姿态回归

作者:Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee Peng Tay

文章链接:https://arxiv.org/abs/2304.00932

项目代码:https://github.com/sijieaaa/HypLiLoc

901911bd0f9e558616add04dc3b3e8b6.png

66ed8c106c393e22d69d2a05d45265b1.png

16409e8b12a732eb9ba626b9376d2450.png

dff91c8a09f9731beedf3ae68b8f13e8.png

摘要:

       LiDAR 重定位在许多领域发挥着至关重要的作用,包括机器人技术、自动驾驶和计算机视觉。基于 LiDAR 的数据库检索通常会产生高计算存储成本,并且如果数据库过于稀疏,则可能导致全局不准确的姿态估计。另一方面,姿态回归方法以图像或点云作为输入,并以端到端的方式直接回归全局姿态。它们不执行数据库匹配,并且比检索技术计算效率更高。我们提出了 HypLiLoc,一种用于 LiDAR 位姿回归的新模型。我们使用两个分支主干分别提取 3D 特征和 2D 投影特征。我们考虑在欧几里德空间和双曲空间中进行多模态特征融合,以获得更有效的特征表示。实验结果表明,HypLiLoc 在室外和室内数据集中都实现了最先进的性能。我们还对框架设计进行了广泛的消融研究,证明了多模态特征提取和多空间嵌入的有效性。我们的代码发布于:这个 https URL

2.DiffMimic: Efficient Motion Mimicking with Differentiable Physics(ICLR 2023)

a0304c1980736b777b578049c01fdc19.png

标题:DiffMimic:利用可微物理进行高效运动模拟

作者:Jiawei Ren, Cunjun Yu, Siwei Chen, Xiao Ma, Liang Pan, Ziwei Liu

文章链接:https://openreview.net/forum?id=06mk-epSwZ

项目代码:https://diffmimic.github.io/

234668952a333dc8c74c7a042ce28234.png

69b7c38dbb9024cd08f61bb4e280b706.png

e4dd8ec28f11df012d1433f7e40fa9f4.png

57856f81edb16b49a8c6419499512a88.png

摘要:

       运动模仿是基于物理的角色动画中的一项基础任务。然而,大多数现有的运动模仿方法都是建立在强化学习 (RL) 的基础上的,并且存在大量奖励工程、高方差和缓慢收敛以及艰苦探索的问题。具体来说,他们通常需要数十小时甚至数天的训练来模仿一个简单的运动序列,导致可扩展性差。在这项工作中,我们利用可微分物理模拟器 (DPS) 并提出了一种称为 DiffMimic 的高效运动模仿方法。我们的关键见解是 DPS 将复杂的策略学习任务转换为更简单的状态匹配问题。特别是,DPS 通过具有真实物理先验的分析梯度来学习稳定的策略,从而导致比基于 RL 的方法更快更稳定的收敛。此外,为了避免局部最优,我们利用 Demonstration Replay 机制在长范围内实现稳定的梯度反向传播。对标准基准的大量实验表明,DiffMimic 比现有方法(例如 DeepMimic)具有更好的样本效率和时间效率。值得注意的是,DiffMimic 允许物理模拟角色在训练 10 分钟后学习 Backflip,并能够在训练 3 小时后循环它,而现有方法可能需要大约一天的训练才能循环 Backflip。更重要的是,我们希望 DiffMimic 在未来的研究中可以通过可微分服装模拟等技术使更多可微分动画系统受益。

3.Detecting and Grounding Multi-Modal Media Manipulation(CVPR 2023)

fe3a5cd3ab49e6dfe2d731c99cb61bde.png

标题:检测和接地多模态媒体操纵

作者:Rui Shao, Tianxing Wu, Ziwei Liu

文章链接:https://arxiv.org/abs/2304.02556

项目代码:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

65d05fadd1b37ffa9863566552f8df71.png

4e6221e99191f6f49443965e66a3d31d.png

3cd5cfbd6b08368737dc23e1def363b9.png

480cec2ed88f3a012b5f8dbd0c598e45.png

3ab4c27434fdc4e0088a9f614e54144d.png

摘要:

       错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。在本文中,我们强调了多模态虚假媒体的一个新研究问题,即检测和接地多模态媒体操纵 (DGM^4)。DGM^4 的目标不仅是检测多模态媒体的真实性,而且还将被操纵的内容(即图像边界框和文本标记)作为基础,这需要对多模态媒体操纵进行更深入的推理。为了支持大规模调查,我们构建了第一个 DGM^4 数据集,其中图像-文本对通过各种方法进行操作,并对各种操作进行了丰富的注释。此外,我们提出了一种新颖的分层多模态操作推理变换器 (HAMMER),以充分捕捉不同模态之间的细粒度交互。HAMMER 执行 1) 两个单模态编码器之间的操作感知对比学习作为浅层操作推理,以及 2) 多模态聚合器的模态感知交叉注意力作为深度操作推理。基于交互的多模态信息,从浅到深集成专用的操纵检测和接地头。最后,我们为这个新的研究问题建立了一个广泛的基准并建立了严格的评估指标。综合实验证明了我们模型的优越性;还揭示了一些有价值的观察结果,以促进未来对多模态媒体操纵的研究。

目录
相关文章
|
机器学习/深度学习 自然语言处理 算法
每日学术速递2.21
大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示并不能充分利用模型学到的知识,尤其是在需要灵活准确的结构控制时。在本文中,我们的目标是“挖掘”出 T2I 模型隐式学习的能力,然后显式地使用它们来更细粒度地控制生成。
117 0
|
机器学习/深度学习 自然语言处理 自动驾驶
每日学术速递5.9
目标跟踪的大多数先前进展是在具有良好照明的白天场景中实现的。迄今为止,最先进的技术很难在夜间发挥其优势,从而大大阻碍了与视觉跟踪相关的无人机 (UAV) 应用的扩展
162 0
|
机器学习/深度学习 机器人
每日学术速递2.23
本文探讨了动态系统中的离散形态对称性,这是生物学和机器人系统的主要特征。当系统的形态具有一个或多个对称平面时,它表现出形态对称性,描述了身体部位的重复和平衡分布。这些形态对称性意味着系统的动力学是对称的(或近似对称的),这进而在最优控制策略和所有与系统动态演化相关的本体感知和外感知测量中印记了对称性。
76 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.6
大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务
111 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递4.14
我们提出了 ImageReward——第一个通用的文本到图像人类偏好奖励模型——来解决生成模型中的各种普遍问题,并使它们与人类价值观和偏好保持一致。它的训练基于我们的系统注释管道,涵盖评级和排名组件,收集了迄今为止 137k 专家比较的数据集。
150 0
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递4.26
我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。
113 0
|
机器学习/深度学习 自然语言处理 物联网
每日学术速递5.1
大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。
141 0
|
传感器 机器学习/深度学习 人工智能
每日学术速递5.12
用户可以付费查询的大型语言模型 (LLM) 数量迅速增加。我们审查了与查询流行的 LLM API 相关的成本,例如GPT-4、ChatGPT、J1-Jumbo,并发现这些模型具有异构的定价结构,费用可能相差两个数量级。特别是,在大量查询和文本上使用 LLM 可能会很昂贵。
122 0
|
机器学习/深度学习 运维 自然语言处理
每日学术速递3.3
评估面部图像的质量对于以足够的准确性操作面部识别系统至关重要。人脸质量标准化的最新进展 (ISO/IEC WD 29794-5) 建议使用组件质量测量方法将人脸质量分解为各个因素,从而为操作员重新捕获低质量图像提供有价值的反馈。
119 0
|
机器学习/深度学习 自然语言处理 计算机视觉
每日学术速递4.24
自然界充满了复杂的系统,其特征是其组成部分之间存在错综复杂的关系:从社交网络中个体之间的社交互动到蛋白质中原子之间的静电相互作用。拓扑深度学习 (TDL) 提供了一个综合框架来处理与这些系统相关的数据并从中提取知识,例如预测个人所属的社会社区或预测蛋白质是否可以成为药物开发的合理目标。
116 0

热门文章

最新文章