每日学术速递4.7

简介: 我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints

33bf7f3f13e619e75fc4bfc6d28f0e6d.png

标题:通过联合学习检测和描述关键点来增强可变形局部特征

作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento

文章链接:https://arxiv.org/abs/2304.00583

项目代码:https://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23

bdbff501b5cecdebe205e8c54675edf5.png

b13bf1551376942555b9e714ca57db63.png

0eb5ad0d0f244e36b44fe12dc974e3fd.png

7bc4a89f2ef8b2c458cec6fd604ea82e.png


摘要:

       局部特征提取是计算机视觉中处理图像匹配和检索等重要任务的标准方法。大多数方法的核心假设是图像经历仿射变换,忽略更复杂的效果,例如非刚性变形。此外,为非刚性对应量身定制的初期工作仍然依赖于为刚性变换设计的关键点检测器,由于检测器的局限性而阻碍了性能。我们提出了 DALF(变形感知局部特征),一种用于联合检测和描述关键点的新型变形感知网络,以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作,该方法强制描述符的独特性和不变性。使用真实变形对象的实验展示了我们方法的优越性,与之前的最佳结果相比,它在匹配分数方面提高了 8%。我们的方法还增强了两个实际应用程序的性能:可变形对象检索和非刚性 3D 表面配准。训练、推理和应用程序的代码可在此 https URL 上公开获得。

2.Single Image Depth Prediction Made Better: A Multivariate Gaussian Take


a836950f24ced0eb925659b39daed350.png

标题:单幅图像深度预测变得更好:多变量高斯取值

作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool

文章链接:https://arxiv.org/abs/2303.18164

9eba58277cbe459fea56066b45621b3e.png

9307cd5e2f97f40f27876e0ff2d81fac.png

09ad85614f6aca5de0047cc38ed8d7db.png

b398d555810770ab8031fd23f4dca1c3.png

63fef3798e6ca6089e4c225185f11a72.png

摘要:

       基于神经网络的单图像深度预测 (SIDP) 是一项具有挑战性的任务,其目标是在测试时预测场景的每像素深度。由于根据定义,问题是不适定的,因此基本目标是提出一种方法,该方法可以从一组训练示例中可靠地对场景深度进行建模。为了追求完美的深度估计,大多数现有的最先进的学习技术预测每个像素的单个标量深度值。然而,众所周知,经过训练的模型具有精度限制并且可以预测不精确的深度。因此,SIDP 方法必须注意模型预测在测试时的预期深度变化。因此,我们引入了一种对每像素深度进行连续建模的方法,我们可以在其中预测和推理每像素深度及其分布。为此,我们使用多元高斯分布对每像素场景深度进行建模。此外,与现有的不确定性建模方法相反——本着同样的精神,假设每像素深度是独立的,我们引入了每像素协方差建模,该模型对其深度依赖性 w.r.t 所有场景点进行编码。不幸的是,每像素深度协方差建模导致计算量大的连续损失函数,我们使用学习到的整体协方差矩阵的低秩近似有效地解决了这个问题。值得注意的是,当在 KITTI、NYU 和 SUN-RGB-D 等基准数据集上进行测试时,通过优化我们的损失函数获得的 SIDP 模型显示了最先进的结果。我们的方法(名为 MG)的准确性在 KITTI 深度预测基准排行榜上名列前茅。

3.NeRF-Supervised Deep Stereo

99216dced9323a0f2284c6c9bec8403b.png


标题:NeRF 监督的深度立体声

作者:Fabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi

文章链接:https://arxiv.org/abs/2303.17603

项目代码:https://github.com/fabiotosi92/NeRF-Supervised-Deep-Stereo

ebc92e140cf10caf77a254c33dd18fd8.png

b8685aa95073b148e6a3bb7328f9f6e2.png

07c81ef4bfad1b7b4931910f250bb52b.png

eea9f63123dcc760b81cdd7e56bddc3a.png

摘要:

       我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。在它们之上,执行了 NeRF 监督的训练程序,我们从中利用渲染的立体三元组来补偿遮挡和深度图作为代理标签。这导致立体网络能够预测清晰和详细的视差图。实验结果表明,在这种机制下训练的模型在具有挑战性的 Middlebury 数据集上比现有的自监督方法提高了 30-40%,填补了与监督模型的差距,并且在大多数情况下,在零样本泛化方面优于它们。

目录
相关文章
|
机器学习/深度学习 自然语言处理 机器人
每日学术速递3.27
向多指机器人教授灵巧性一直是机器人学领域的一项长期挑战。该领域最突出的工作集中在学习控制器或策略,这些控制器或策略对视觉观察或从视觉得出的状态估计进行操作。然而,这种方法在需要对接触力或手本身遮挡的物体进行推理的细粒度操作任务上表现不佳。
116 0
每日学术速递3.27
|
机器学习/深度学习 自然语言处理 测试技术
每日学术速递3.20
大型语言模型 (LLM) 可以通过生成中间思维链 (CoT) 推理步骤在少镜头和零镜头设置中执行复杂推理。此外,每个推理步骤都可以依赖外部工具来支持超出核心 LLM 功能(例如搜索/运行代码)的计算。之前关于 CoT 提示和工具使用的工作通常需要手工制作特定于任务的演示,并仔细编写模型生成与工具使用的交错脚本。
151 0
每日学术速递3.20
|
机器学习/深度学习 传感器 自然语言处理
每日学术速递4.23
神经辐射场 (NeRF) 能够以前所未有的视觉质量实现新颖的视图合成。然而,为了渲染逼真的图像,NeRF 需要对每个像素进行数百次深度多层感知器 (MLP) 评估。这是非常昂贵的,并且使实时渲染变得不可行,即使在强大的现代 GPU 上也是如此。
123 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.15
大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。
111 0
|
机器学习/深度学习 自然语言处理 PyTorch
每日学术速递2.17
近年来,大型深度学习 (DL) 模型的开发有所增加,这使得训练效率变得至关重要。通常的做法是在可用性和性能之间进行权衡。一方面,诸如 PyTorch 之类的 DL 框架使用动态图来以次优模型训练性能为代价为模型开发人员提供便利。
89 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递4.19
最近,基于端到端变压器的检测器 (DETR) 取得了显着的性能。然而,DETRs 的高计算成本问题尚未得到有效解决,限制了它们的实际应用并阻止它们充分利用无后处理的好处,例如非最大抑制 (NMS)。在本文中,我们首先分析了现代实时目标检测器中 NMS 对推理速度的影响,并建立了端到端速度基准
161 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递3.8
扩散模型(DM)已成为生成模型的新趋势,并展示了强大的条件合成能力。其中,在大规模图像文本对上预训练的文本到图像扩散模型可通过可定制的提示高度控制。与专注于低级属性和细节的无条件生成模型不同,由于视觉语言预训练,文本到图像扩散模型包含更多高级知识。在本文中,我们提出了 VPD(具有预训练扩散模型的视觉感知),这是一种在视觉感知任务中利用预训练文本到图像扩散模型的语义信息的新框架。我们没有在基于扩散的管道中使用预训练的去噪自动编码器,而是简单地将其用作主干,旨在研究如何充分利用所学知识。
112 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.1
本文介绍了一种名为 F²-NeRF (Fast-Free-NeRF) 的新型基于网格的 NeRF,用于新型视图合成,它支持任意输入摄像机轨迹,并且只需几分钟的训练时间。现有的基于网格的快速 NeRF 训练框架,如 Instant-NGP、Plenoxels、DVGO 或 TensoRF,主要针对有界场景设计,并依靠空间扭曲来处理无界场景。现有的两种广泛使用的空间扭曲方法仅针对前向轨迹或 360 度以对象为中心的轨迹而设计,无法处理任意轨迹。
141 0
|
机器学习/深度学习 自然语言处理 数据可视化
每日学术速递3.31
我们提出了 LLaMA-Adapter,这是一种轻量级自适应方法,可以有效地将 LLaMA 微调为指令跟随模型。使用 52K 自我指导演示,LLaMA-Adapter 仅在冻结的 LLaMA 7B 模型上引入 1.2M 可学习参数,并且在 8 个 A100 GPU 上进行微调的成本不到一小时。
164 0
|
机器学习/深度学习 自然语言处理 算法
每日学术速递5.7
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。
102 0