每日学术速递4.7

简介: 我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  


Subjects: cs.CV


1.Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints

33bf7f3f13e619e75fc4bfc6d28f0e6d.png

标题:通过联合学习检测和描述关键点来增强可变形局部特征

作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento

文章链接:https://arxiv.org/abs/2304.00583

项目代码:https://verlab.dcc.ufmg.br/descriptors/dalf_cvpr23

bdbff501b5cecdebe205e8c54675edf5.png

b13bf1551376942555b9e714ca57db63.png

0eb5ad0d0f244e36b44fe12dc974e3fd.png

7bc4a89f2ef8b2c458cec6fd604ea82e.png


摘要:

       局部特征提取是计算机视觉中处理图像匹配和检索等重要任务的标准方法。大多数方法的核心假设是图像经历仿射变换,忽略更复杂的效果,例如非刚性变形。此外,为非刚性对应量身定制的初期工作仍然依赖于为刚性变换设计的关键点检测器,由于检测器的局限性而阻碍了性能。我们提出了 DALF(变形感知局部特征),一种用于联合检测和描述关键点的新型变形感知网络,以处理匹配可变形表面的挑战性问题。所有网络组件通过特征融合方法协同工作,该方法强制描述符的独特性和不变性。使用真实变形对象的实验展示了我们方法的优越性,与之前的最佳结果相比,它在匹配分数方面提高了 8%。我们的方法还增强了两个实际应用程序的性能:可变形对象检索和非刚性 3D 表面配准。训练、推理和应用程序的代码可在此 https URL 上公开获得。

2.Single Image Depth Prediction Made Better: A Multivariate Gaussian Take


a836950f24ced0eb925659b39daed350.png

标题:单幅图像深度预测变得更好:多变量高斯取值

作者:Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc Van Gool

文章链接:https://arxiv.org/abs/2303.18164

9eba58277cbe459fea56066b45621b3e.png

9307cd5e2f97f40f27876e0ff2d81fac.png

09ad85614f6aca5de0047cc38ed8d7db.png

b398d555810770ab8031fd23f4dca1c3.png

63fef3798e6ca6089e4c225185f11a72.png

摘要:

       基于神经网络的单图像深度预测 (SIDP) 是一项具有挑战性的任务,其目标是在测试时预测场景的每像素深度。由于根据定义,问题是不适定的,因此基本目标是提出一种方法,该方法可以从一组训练示例中可靠地对场景深度进行建模。为了追求完美的深度估计,大多数现有的最先进的学习技术预测每个像素的单个标量深度值。然而,众所周知,经过训练的模型具有精度限制并且可以预测不精确的深度。因此,SIDP 方法必须注意模型预测在测试时的预期深度变化。因此,我们引入了一种对每像素深度进行连续建模的方法,我们可以在其中预测和推理每像素深度及其分布。为此,我们使用多元高斯分布对每像素场景深度进行建模。此外,与现有的不确定性建模方法相反——本着同样的精神,假设每像素深度是独立的,我们引入了每像素协方差建模,该模型对其深度依赖性 w.r.t 所有场景点进行编码。不幸的是,每像素深度协方差建模导致计算量大的连续损失函数,我们使用学习到的整体协方差矩阵的低秩近似有效地解决了这个问题。值得注意的是,当在 KITTI、NYU 和 SUN-RGB-D 等基准数据集上进行测试时,通过优化我们的损失函数获得的 SIDP 模型显示了最先进的结果。我们的方法(名为 MG)的准确性在 KITTI 深度预测基准排行榜上名列前茅。

3.NeRF-Supervised Deep Stereo

99216dced9323a0f2284c6c9bec8403b.png


标题:NeRF 监督的深度立体声

作者:Fabio Tosi, Alessio Tonioni, Daniele De Gregorio, Matteo Poggi

文章链接:https://arxiv.org/abs/2303.17603

项目代码:https://github.com/fabiotosi92/NeRF-Supervised-Deep-Stereo

ebc92e140cf10caf77a254c33dd18fd8.png

b8685aa95073b148e6a3bb7328f9f6e2.png

07c81ef4bfad1b7b4931910f250bb52b.png

eea9f63123dcc760b81cdd7e56bddc3a.png

摘要:

       我们引入了一种新颖的框架,可以毫不费力地训练深度立体网络,无需任何基本事实。通过利用最先进的神经渲染解决方案,我们从使用单个手持相机收集的图像序列生成立体训练数据。在它们之上,执行了 NeRF 监督的训练程序,我们从中利用渲染的立体三元组来补偿遮挡和深度图作为代理标签。这导致立体网络能够预测清晰和详细的视差图。实验结果表明,在这种机制下训练的模型在具有挑战性的 Middlebury 数据集上比现有的自监督方法提高了 30-40%,填补了与监督模型的差距,并且在大多数情况下,在零样本泛化方面优于它们。

目录
相关文章
|
机器学习/深度学习 自然语言处理 vr&ar
每日学术速递3.14
Vision Transformers 通过将图像切片成补丁来将图像转换为序列。这些补丁的大小控制着速度/准确性的权衡,较小的补丁会以更高的计算成本导致更高的准确性,但更改补丁大小通常需要重新训练模型。在本文中,我们证明了在训练时简单地随机化补丁大小会导致一组权重在广泛的补丁大小范围内表现良好,从而可以在部署时根据不同的计算预算定制模型。
138 0
|
机器学习/深度学习 自然语言处理 安全
每日学术速递2.24
在本技术报告中,我们介绍了百度 KDD 杯 2022 空间动态风电功率预测挑战赛的解决方案。风能是一种快速增长的清洁能源。准确的风电功率预测对于电网稳定和供应安全至关重要。为此,主办方提供了包含134台风电机组历史数据的风电数据集,并发起百度KDD Cup 2022,以检验当前风电预测方法的局限性。
177 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.4
我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先,我们策划了 CortexBench,它由 17 项不同的任务组成,涵盖运动、导航、灵巧和移动操作。接下来,我们系统地评估现有的 PVR,发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响
115 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.30
具有指令微调的大型语言模型 (LLM) 展示了卓越的生成能力。然而,这些模型是资源密集型的。为了缓解这个问题,我们探索从指令调整的 LLM 中提炼知识到更小的 LLM。为此,我们基于现有指令和新生成的指令精心开发了大量 2.58M 指令集。
124 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递4.9
错误信息已成为一个紧迫的问题。网络上广泛存在视觉和文本形式的虚假媒体。虽然已经提出了各种 deepfake 检测和文本假新闻检测方法,但它们仅设计用于基于二进制分类的单模态伪造,更不用说分析和推理跨不同模态的细微伪造痕迹。
126 0
|
机器学习/深度学习 存储 自然语言处理
每日学术速递5.3
用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。
206 0
|
机器学习/深度学习 自然语言处理 定位技术
每日学术速递4.2
传统上,视频理解任务由两个独立的架构建模,专门为两个不同的任务量身定制。基于序列的视频任务,如动作识别,使用视频主干直接提取时空特征,而基于帧的视频任务,如多目标跟踪 (MOT),依赖单个固定图像主干提取空间特征。相比之下,我们建议将视频理解任务统一到一种新颖的流式视频架构中,称为流式视觉转换器 (S-ViT)。 S-ViT 首先使用支持内存的时间感知空间编码器生成帧级特征,以服务于基于帧的视频任务。
147 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递5.4
尽管越来越多地采用混合现实和交互式 AI 代理,但这些系统在看不见的环境中生成高质量的 2D/3D 场景仍然具有挑战性。通常的做法需要部署一个 AI 代理来收集大量数据,以便为每个新任务进行模型训练。对于许多领域来说,这个过程是昂贵的,甚至是不可能的。
136 0
|
机器学习/深度学习 编解码 自然语言处理
每日学术速递3.29
由于模型容量有限,纯基于 MLP 的神经辐射场(基于 NeRF 的方法)在大型场景上经常会出现渲染模糊的欠拟合问题。最近的方法提出在地理上划分场景并采用多个子 NeRF 分别对每个区域进行建模,从而导致训练成本和子 NeRF 的数量随着场景的扩展而线性增加。
150 0
|
机器学习/深度学习 人工智能 自然语言处理
每日学术速递4.21
大型语言模型(LLM)在各种具有涌现能力的自然语言处理任务中取得了显着进步。然而,他们面临着固有的局限性,例如无法访问最新信息、无法使用外部工具或进行精确的数学推理。在本文中,我们介绍了 Chameleon,这是一种即插即用的组合推理框架,可增强 LLM 以帮助应对这些挑战。
157 0

热门文章

最新文章