每日学术速递4.9

简介: 错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV


1.HypLiLoc: Towards Effective LiDAR Pose Regression with Hyperbolic Fusion(CVPR 2023)

752a6f81553eab534c23da732f90501d.png

标题:HypLiLoc:通过双曲线融合实现有效的 LiDAR 姿态回归

作者:Sijie Wang, Qiyu Kang, Rui She, Wei Wang, Kai Zhao, Yang Song, Wee Peng Tay

文章链接:https://arxiv.org/abs/2304.00932

项目代码:https://github.com/sijieaaa/HypLiLoc

901911bd0f9e558616add04dc3b3e8b6.png

66ed8c106c393e22d69d2a05d45265b1.png

16409e8b12a732eb9ba626b9376d2450.png

dff91c8a09f9731beedf3ae68b8f13e8.png

摘要:

       LiDAR 重定位在许多领域发挥着至关重要的作用,包括机器人技术、自动驾驶和计算机视觉。基于 LiDAR 的数据库检索通常会产生高计算存储成本,并且如果数据库过于稀疏,则可能导致全局不准确的姿态估计。另一方面,姿态回归方法以图像或点云作为输入,并以端到端的方式直接回归全局姿态。它们不执行数据库匹配,并且比检索技术计算效率更高。我们提出了 HypLiLoc,一种用于 LiDAR 位姿回归的新模型。我们使用两个分支主干分别提取 3D 特征和 2D 投影特征。我们考虑在欧几里德空间和双曲空间中进行多模态特征融合,以获得更有效的特征表示。实验结果表明,HypLiLoc 在室外和室内数据集中都实现了最先进的性能。我们还对框架设计进行了广泛的消融研究,证明了多模态特征提取和多空间嵌入的有效性。我们的代码发布于:这个 https URL

2.DiffMimic: Efficient Motion Mimicking with Differentiable Physics(ICLR 2023)

a0304c1980736b777b578049c01fdc19.png

标题:DiffMimic:利用可微物理进行高效运动模拟

作者:Jiawei Ren, Cunjun Yu, Siwei Chen, Xiao Ma, Liang Pan, Ziwei Liu

文章链接:https://openreview.net/forum?id=06mk-epSwZ

项目代码:https://diffmimic.github.io/

234668952a333dc8c74c7a042ce28234.png

69b7c38dbb9024cd08f61bb4e280b706.png

e4dd8ec28f11df012d1433f7e40fa9f4.png

57856f81edb16b49a8c6419499512a88.png

摘要:

       运动模仿是基于物理的角色动画中的一项基础任务。然而,大多数现有的运动模仿方法都是建立在强化学习 (RL) 的基础上的,并且存在大量奖励工程、高方差和缓慢收敛以及艰苦探索的问题。具体来说,他们通常需要数十小时甚至数天的训练来模仿一个简单的运动序列,导致可扩展性差。在这项工作中,我们利用可微分物理模拟器 (DPS) 并提出了一种称为 DiffMimic 的高效运动模仿方法。我们的关键见解是 DPS 将复杂的策略学习任务转换为更简单的状态匹配问题。特别是,DPS 通过具有真实物理先验的分析梯度来学习稳定的策略,从而导致比基于 RL 的方法更快更稳定的收敛。此外,为了避免局部最优,我们利用 Demonstration Replay 机制在长范围内实现稳定的梯度反向传播。对标准基准的大量实验表明,DiffMimic 比现有方法(例如 DeepMimic)具有更好的样本效率和时间效率。值得注意的是,DiffMimic 允许物理模拟角色在训练 10 分钟后学习 Backflip,并能够在训练 3 小时后循环它,而现有方法可能需要大约一天的训练才能循环 Backflip。更重要的是,我们希望 DiffMimic 在未来的研究中可以通过可微分服装模拟等技术使更多可微分动画系统受益。

3.Detecting and Grounding Multi-Modal Media Manipulation(CVPR 2023)

fe3a5cd3ab49e6dfe2d731c99cb61bde.png

标题:检测和接地多模态媒体操纵

作者:Rui Shao, Tianxing Wu, Ziwei Liu

文章链接:https://arxiv.org/abs/2304.02556

项目代码:https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

65d05fadd1b37ffa9863566552f8df71.png

4e6221e99191f6f49443965e66a3d31d.png

3cd5cfbd6b08368737dc23e1def363b9.png

480cec2ed88f3a012b5f8dbd0c598e45.png

3ab4c27434fdc4e0088a9f614e54144d.png

摘要:

       错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。在本文中,我们强调了多模态虚假媒体的一个新研究问题,即检测和接地多模态媒体操纵 (DGM^4)。DGM^4 的目标不仅是检测多模态媒体的真实性,而且还将被操纵的内容(即图像边界框和文本标记)作为基础,这需要对多模态媒体操纵进行更深入的推理。为了支持大规模调查,我们构建了第一个 DGM^4 数据集,其中图像-文本对通过各种方法进行操作,并对各种操作进行了丰富的注释。此外,我们提出了一种新颖的分层多模态操作推理变换器 (HAMMER),以充分捕捉不同模态之间的细粒度交互。HAMMER 执行 1) 两个单模态编码器之间的操作感知对比学习作为浅层操作推理,以及 2) 多模态聚合器的模态感知交叉注意力作为深度操作推理。基于交互的多模态信息,从浅到深集成专用的操纵检测和接地头。最后,我们为这个新的研究问题建立了一个广泛的基准并建立了严格的评估指标。综合实验证明了我们模型的优越性;还揭示了一些有价值的观察结果,以促进未来对多模态媒体操纵的研究。

目录
相关文章
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
142 0
每日学术速递3.20
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.3
最近在语言引导图像生成领域取得的突破取得了令人瞩目的成就,能够根据用户指令创建高质量和多样化的图像。尽管合成性能令人着迷,但当前图像生成模型的一个重大限制是它们在图像中生成连贯文本的能力不足,特别是对于像汉字这样的复杂字形结构。为了解决这个问题,我们引入了 GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型生成嵌入连贯文本的图像的能力。据我们所知,这是图像合成领域第一个解决汉字生成问题的工作。
132 0
每日学术速递4.3
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
179 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
136 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.8
最近的 AI 助理代理,例如 ChatGPT,主要依靠带有人工注释的监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 来使大型语言模型 (LLM) 的输出与人类意图保持一致,确保它们是乐于助人、合乎道德且可靠。然而,由于获得人工监督的高成本以及质量、可靠性、多样性、自我一致性和不良偏见等相关问题
154 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.29
我们提出了一种将点云渲染为表面的新方法。所提出的方法是可区分的,不需要特定场景的优化。这种独特的功能支持开箱即用的表面法线估计、渲染房间尺度点云、逆向渲染和全局照明光线追踪。与专注于将点云转换为其他表示(例如曲面或隐式函数)的现有工作不同,我们的关键思想是直接推断光线与给定点云表示的底层表面的交点。
106 0
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递4.22
在本文中,我们关注在未观察到的光照条件下从神经辐射场 (NeRF) 渲染新视图的问题。为此,我们引入了一个新的数据集,称为 ReNe (Relighting NeRF),在一次一光 (OLAT) 条件下构建真实世界的对象,并用准确的地面实况相机和光姿态进行注释。
103 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.11
网页一直是视觉语言和纯语言任务的丰富、可扩展的资源。然而,只有网页的一部分被保留:图像标题对、长文本文章或原始 HTML,永远不会全部放在一个地方。
122 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递3.16
本文提出了一个统一的扩散框架(称为 UniDiffuser),以在一个模型中拟合与一组多模态数据相关的所有分布。我们的关键见解是——学习边缘分布、条件分布和联合分布的扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模式可能不同。
140 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
114 0