UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

简介: UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

从二维图像中理解场景的三维结构和运动信息是计算机视觉领域的一项核心研究目标,也是许多实际应用的基石。近年来,许多不同的网络结构被提出来解决几何和运动相关的任务,如深度估计、立体匹配和光流等。然而,现有的工作大多致力于设计特定的网络结构来独立解决每一个特定的任务,忽视了许多几何和运动估计任务是本质上相关的对应关系估计问题。这种针对特定任务的研究理念不可避免地导致需要处理大量的网络结构。此外,独立地研究每一项特定的任务使得无法很好地复用预训练的模型,因为各任务之间的网络结构和模型参数往往有所差异。

机器之心最新一期线上分享邀请到了苏黎世联邦理工学院与图宾根大学联合培养博士生徐豪飞,为大家解读他们CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch。

这项工作提出了一个统一模型 UniMatch 来解决三个稠密感知任务:光流、立体匹配和深度估计。作者的主要观察在于这三个任务可以通过一种显式地稠密特征匹配框架来进行统一,进而这一问题被转化为提取任务无关的、判别能力强的特征来进行匹配。为此,文章提出采用 Transformer,尤其是 cross-attention 来实现。其中 cross-attention 可以建模两张图片之间的相互依赖关系,从而极大地提升特征的质量。由于网络结构和参数在不同任务之间是共享的,因此可以很自然地支持跨任务之间的迁移。文章提出的最终模型在10个流行的数据集上取得了最好或具有竞争力的结果,同时网络结构更加简单和高效。


分享主题:UniMatch: 统一光流、立体匹配和深度估计三个任务

分享嘉宾:徐豪飞,苏黎世联邦理工学院与图宾根大学联合培养博士生。硕士毕业于中国科学技术大学。研究方向包括光流、立体匹配和三维场景表征学习。

分享摘要:本次分享将首先介绍相关领域的发展历程,进而介绍我们 CVPR 2022Oral论文 GMFlow 及其后续工作UniMatch:统一光流、立体匹配和深度估计三个任务,并展示该统一模型的独特性与优势,最后会讨论该工作的局限性及可能的未来研究方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/unimatch

2)项目主页:

https://haofeixu.github.io/unimatch/

3)论文链接:

https://arxiv.org/abs/2211.05783v1

4)代码仓库:

https://github.com/autonomousvision/unimatch

相关文章
|
6月前
|
数据采集 算法 安全
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
189 5
|
5月前
|
存储 安全 程序员
【C++11】C++11深度解剖(上)
【C++11】C++11深度解剖(上)
40 0
|
5月前
|
存储 算法 编译器
【C++11】C++11深度解剖(下)
【C++11】C++11深度解剖(下)
42 0
|
7月前
|
机器学习/深度学习 固态存储 算法
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
目标检测的福音 | 如果特征融合还用FPN/PAFPN?YOLOX+GFPN融合直接起飞,再涨2个点
322 0
|
机器学习/深度学习 传感器 编解码
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
|
机器学习/深度学习 传感器 算法
垂直腔表面发射激光器极化噪声的建模与分析论文复现
垂直腔表面发射激光器极化噪声的建模与分析论文复现
|
数据挖掘
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
|
机器学习/深度学习 固态存储
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(二)
89 0
|
机器学习/深度学习 编解码 监控
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
姿态估计 | 基于CenterNet究竟还可以做多少事情?AdaptivePose便是经典!(一)
133 0
|
机器学习/深度学习 人工智能 监控
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
南洋理工提出全场景图生成PSG任务,像素级定位物体,还得预测56种关系
134 0
下一篇
DataWorks