CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints
标题:通过联合学习检测和描述关键点来增强可变形局部特征
作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento
文章链接:https://arxiv.org/abs/2304.00583
项目代码:https://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23
摘要:
局部特征提取是计算机视觉中处理图像匹配和检索等重要任务的标准方法。大多数方法的核心假设是图像经历仿射变换,忽略更复杂的效果,例如非刚性变形。此外,为非刚性对应量身定制的初期工作仍然依赖于为刚性变换设计的关键点检测器,由于检测器的局限性而阻碍了性能。我们提出了 DALF(变形感知局部特征),一种用于联合检测和描述关键点的新型变形感知网络,以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作,该方法强制描述符的独特性和不变性。使用真实变形对象的实验展示了我们方法的优越性,与之前的最佳结果相比,它在匹配分数方面提高了 8%。我们的方法还增强了两个实际应用程序的性能:可变形对象检索和非刚性 3D 表面配准。训练、推理和应用程序的代码可在此 https URL 上公开获得。
2.Single Image Depth Prediction Made Better: A Multivariate Gaussian Take
标题:单幅图像深度预测变得更好:多变量高斯取值
作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool
文章链接:https://arxiv.org/abs/2303.18164
摘要:
基于神经网络的单图像深度预测 (SIDP) 是一项具有挑战性的任务,其目标是在测试时预测场景的每像素深度。由于根据定义,问题是不适定的,因此基本目标是提出一种方法,该方法可以从一组训练示例中可靠地对场景深度进行建模。为了追求完美的深度估计,大多数现有的最先进的学习技术预测每个像素的单个标量深度值。然而,众所周知,经过训练的模型具有精度限制并且可以预测不精确的深度。因此,SIDP 方法必须注意模型预测在测试时的预期深度变化。因此,我们引入了一种对每像素深度进行连续建模的方法,我们可以在其中预测和推理每像素深度及其分布。为此,我们使用多元高斯分布对每像素场景深度进行建模。此外,与现有的不确定性建模方法相反——本着同样的精神,假设每像素深度是独立的,我们引入了每像素协方差建模,该模型对其深度依赖性 w.r.t 所有场景点进行编码。不幸的是,每像素深度协方差建模导致计算量大的连续损失函数,我们使用学习到的整体协方差矩阵的低秩近似有效地解决了这个问题。值得注意的是,当在 KITTI、NYU 和 SUN-RGB-D 等基准数据集上进行测试时,通过优化我们的损失函数获得的 SIDP 模型显示了最先进的结果。我们的方法(名为 MG)的准确性在 KITTI 深度预测基准排行榜上名列前茅。
3.NeRF-Supervised Deep Stereo
标题:NeRF 监督的深度立体声
作者:Fabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi
文章链接:https://arxiv.org/abs/2303.17603
项目代码:https://github.com/fabiotosi92/NeRF-Supervised-Deep-Stereo
摘要:
我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。在它们之上,执行了 NeRF 监督的训练程序,我们从中利用渲染的立体三元组来补偿遮挡和深度图作为代理标签。这导致立体网络能够预测清晰和详细的视差图。实验结果表明,在这种机制下训练的模型在具有挑战性的 Middlebury 数据集上比现有的自监督方法提高了 30-40%,填补了与监督模型的差距,并且在大多数情况下,在零样本泛化方面优于它们。