每日学术速递4.7

简介: 我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints

33bf7f3f13e619e75fc4bfc6d28f0e6d.png

标题:通过联合学习检测和描述关键点来增强可变形局部特征

作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento

文章链接:https://arxiv.org/abs/2304.00583

项目代码:https://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23

bdbff501b5cecdebe205e8c54675edf5.png

b13bf1551376942555b9e714ca57db63.png

0eb5ad0d0f244e36b44fe12dc974e3fd.png

7bc4a89f2ef8b2c458cec6fd604ea82e.png


摘要:

       局部特征提取是计算机视觉中处理图像匹配和检索等重要任务的标准方法。大多数方法的核心假设是图像经历仿射变换,忽略更复杂的效果,例如非刚性变形。此外,为非刚性对应量身定制的初期工作仍然依赖于为刚性变换设计的关键点检测器,由于检测器的局限性而阻碍了性能。我们提出了 DALF(变形感知局部特征),一种用于联合检测和描述关键点的新型变形感知网络,以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作,该方法强制描述符的独特性和不变性。使用真实变形对象的实验展示了我们方法的优越性,与之前的最佳结果相比,它在匹配分数方面提高了 8%。我们的方法还增强了两个实际应用程序的性能:可变形对象检索和非刚性 3D 表面配准。训练、推理和应用程序的代码可在此 https URL 上公开获得。

2.Single Image Depth Prediction Made Better: A Multivariate Gaussian Take


a836950f24ced0eb925659b39daed350.png

标题:单幅图像深度预测变得更好:多变量高斯取值

作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool

文章链接:https://arxiv.org/abs/2303.18164

9eba58277cbe459fea56066b45621b3e.png

9307cd5e2f97f40f27876e0ff2d81fac.png

09ad85614f6aca5de0047cc38ed8d7db.png

b398d555810770ab8031fd23f4dca1c3.png

63fef3798e6ca6089e4c225185f11a72.png

摘要:

       基于神经网络的单图像深度预测 (SIDP) 是一项具有挑战性的任务,其目标是在测试时预测场景的每像素深度。由于根据定义,问题是不适定的,因此基本目标是提出一种方法,该方法可以从一组训练示例中可靠地对场景深度进行建模。为了追求完美的深度估计,大多数现有的最先进的学习技术预测每个像素的单个标量深度值。然而,众所周知,经过训练的模型具有精度限制并且可以预测不精确的深度。因此,SIDP 方法必须注意模型预测在测试时的预期深度变化。因此,我们引入了一种对每像素深度进行连续建模的方法,我们可以在其中预测和推理每像素深度及其分布。为此,我们使用多元高斯分布对每像素场景深度进行建模。此外,与现有的不确定性建模方法相反——本着同样的精神,假设每像素深度是独立的,我们引入了每像素协方差建模,该模型对其深度依赖性 w.r.t 所有场景点进行编码。不幸的是,每像素深度协方差建模导致计算量大的连续损失函数,我们使用学习到的整体协方差矩阵的低秩近似有效地解决了这个问题。值得注意的是,当在 KITTI、NYU 和 SUN-RGB-D 等基准数据集上进行测试时,通过优化我们的损失函数获得的 SIDP 模型显示了最先进的结果。我们的方法(名为 MG)的准确性在 KITTI 深度预测基准排行榜上名列前茅。

3.NeRF-Supervised Deep Stereo

99216dced9323a0f2284c6c9bec8403b.png


标题:NeRF 监督的深度立体声

作者:Fabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi

文章链接:https://arxiv.org/abs/2303.17603

项目代码:https://github.com/fabiotosi92/NeRF-Supervised-Deep-Stereo

ebc92e140cf10caf77a254c33dd18fd8.png

b8685aa95073b148e6a3bb7328f9f6e2.png

07c81ef4bfad1b7b4931910f250bb52b.png

eea9f63123dcc760b81cdd7e56bddc3a.png

摘要:

       我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。在它们之上,执行了 NeRF 监督的训练程序,我们从中利用渲染的立体三元组来补偿遮挡和深度图作为代理标签。这导致立体网络能够预测清晰和详细的视差图。实验结果表明,在这种机制下训练的模型在具有挑战性的 Middlebury 数据集上比现有的自监督方法提高了 30-40%,填补了与监督模型的差距,并且在大多数情况下,在零样本泛化方面优于它们。

目录
相关文章
|
PyTorch 算法框架/工具
MMsegmentation教程 4: 自定义模型
MMsegmentation教程 4: 自定义模型
886 0
|
算法 程序员 编译器
【C++】—— 模板介绍
【C++】—— 模板介绍
127 0
|
Android开发
Android 插件化
Android 插件化
199 0
|
Web App开发 编解码 网络协议
Android平台一对一音视频通话方案对比:WebRTC VS RTMP VS RTSP
Android平台一对一音视频通话方案对比:WebRTC VS RTMP VS RTSP
584 0
|
监控
办公网络布线(三)
办公网络布线(三)
259 0
|
定位技术
GIS开发:osm数据在线下载
GIS开发:osm数据在线下载
629 0
|
SQL 关系型数据库 MySQL
id,table列(1)—mysql执行计划(四十七)
id,table列(1)—mysql执行计划(四十七)
|
机器学习/深度学习 人工智能 安全
|
网络协议 数据库 网络架构