光流法相关论文-LK光流法,HS光流法,Farneback光流法,FlowNet: 端到端的深度光流估计, RAFT: 结构化的光流估计

简介: 光流法相关论文-LK光流法,HS光流法,Farneback光流法,FlowNet: 端到端的深度光流估计, RAFT: 结构化的光流估计

光流法      

        光流法(Optical Flow)是计算机视觉领域中的一种技术,用于描述图像序列中物体点在不同帧之间的运动模式。光流法的基本思想是通过分析图像中像素的亮度变化,推测出相邻图像帧之间物体点的位移或速度。光流法在很多应用中都具有重要意义,如运动分析、目标跟踪、三维重建、虚拟现实等。

光流法的原理建立在一些假设基础上:

  1. 连续性假设: 在短时间内,物体点的运动是连续的,即相邻帧之间的运动不会发生突变。
  2. 亮度一致性假设: 在相邻图像帧中,物体点的亮度保持不变,即一个点在不同帧中的像素值应该是一致的。

       基于这些假设,光流法尝试通过计算每个像素的位移向量(光流向量),来表示物体点在相邻帧中的运动情况。光流向量的大小代表物体点的运动速度,方向表示运动的方向。

在计算光流时,有几种不同的方法:

  1. 基于亮度变化的方法: 这些方法利用相邻帧之间的亮度变化来推断光流。基本思想是最小化两帧之间像素的灰度差异。
  2. 基于相关性的方法: 这类方法通过计算相邻图像中像素的互相关性来确定光流。它们在寻找亮度模式的匹配方面更为强大。
  3. 基于能量优化的方法: 这些方法将光流估计问题转化为能量最小化问题,使用各种优化技术求解,以找到最佳的光流场。
  4. 基于机器学习的方法: 近年来,深度学习技术在光流估计中也取得了重大进展。使用卷积神经网络等技术,可以从图像中学习复杂的光流模式。

       虽然光流法在理论上简单,但在实际应用中面临许多挑战,如遮挡、纹理不连续、光照变化等。因此,根据应用场景的不同,选择合适的光流估计方法非常重要。

以下是光流法的几篇代表性论文:

1. Lucas-Kanade光流法(稀疏光流法):

Lucas, B. D., & Kanade, T. (1981). An iterative image registration technique with an application to stereo vision. In IJCAI (Vol. 81, No. 1, pp. 674-679).

       这篇论文的主要内容涉及图像处理领域中的图像配准技术,特别是在立体视觉应用中的应用。图像配准是指将两幅或多幅图像对齐,以便进行比较、分析或合并。在立体视觉中,将两幅或多幅图像进行配准可以用来生成深度图、三维模型以及其他立体视觉相关的信息。

       论文的主要贡献是介绍了一种迭代式的图像配准技术。这种技术的目标是在一个图像中找到与另一个图像中的相应点相匹配的点,从而实现两幅图像之间的配准。为了实现这一目标,作者提出了一种基于局部图像亮度一致性的迭代优化方法,该方法可以在图像中搜索相应点的位置,并通过不断迭代优化来逐步提高匹配的准确性。

       该论文在计算机视觉领域引起了广泛的兴趣,因为图像配准是许多计算机视觉任务的关键步骤,包括立体视觉、目标跟踪、图像拼接等。论文提出的迭代式配准技术为后来的研究和应用提供了一个基础框架,许多后续的图像配准方法都受到了这篇论文的启发。

       总的来说,在这篇论文中介绍了一种重要的图像配准技术,该技术在计算机视觉领域产生了深远的影响,并为立体视觉等应用提供了关键的方法。

2. Horn-Schunck光流法(稠密光流法):

       Horn, B. K., & Schunck, B. G. (1981). Determining optical flow. Artificial intelligence, 17(1-3), 185-203.

       这篇论文主要关注光流(optical flow)的确定问题,光流是指图像中物体表面上点在连续图像帧之间的运动模式。确定光流对于理解图像序列中的物体运动以及其他计算机视觉任务至关重要。论文的目标是提出一种方法,可以从连续图像序列中计算出物体点的光流向量。

       Horn 和 Schunck 在这篇论文中介绍了一种基于亮度恒定性假设的光流计算方法。这个假设基于这样一个观察:相邻图像帧之间,物体表面上的点在灰度上应该保持不变。作者将这个问题转化为一个能量最小化问题,通过优化来找到使得能量最小的光流场。

       这种方法是基于一种变分优化技术,作者将亮度恒定性假设形式化为一个能量函数,然后使用变分法来求解这个能量函数的最小值,从而得到光流场的估计。该方法是一个迭代过程,通过不断调整光流场来逐步减小能量。

       这篇论文的贡献在于引入了一种方法来解决光流估计问题,并且将问题形式化为一个优化问题,从而为后来的研究提供了基础。这种方法虽然基于简化的假设,但为计算机视觉领域中的光流估计问题提供了一个启发性的框架。

       总体而言,Horn 和 Schunck 在这篇论文中提出了一种经典的光流估计方法,为后来的计算机视觉研究奠定了基础,并且对于理解图像序列中的物体运动模式具有重要意义。

3. Farneback光流法:

Farnebäck, G. (2003). Two-frame motion estimation based on polynomial expansion. In Scandinavian conference on Image analysis (pp. 363-370). Springer.

论文介绍了一种基于基于频域和多项式展开的双帧运动估计方法。

       这篇论文主要关注双帧图像之间的运动估计问题,即从两幅连续图像中推断出物体表面上点的运动。这对于很多计算机视觉应用,如光流估计、目标跟踪等都具有重要意义。论文的目标是提出一种方法,能够从两帧图像中估计出像素级别的运动场。

       作者 Farnebäck 在这篇论文中介绍了一种基于多项式展开的运动估计方法。这个方法基于一个关键的观察:在两帧图像之间,物体的运动模式可以近似为一个多项式。作者利用这个思想,通过多项式展开来建模两帧图像之间的像素值变化,并通过优化来确定多项式的系数,从而得到像素级别的运动估计。

       这种方法相对于传统的基于亮度变化或相关性的方法具有一些优势,特别是在存在纹理较弱或遮挡的情况下。它能够较好地处理图像中的非均匀运动和复杂的场景。

       这篇论文的贡献在于引入了一种基于多项式展开的新颖的双帧运动估计方法,为计算机视觉领域提供了一种新的思路。这种方法在一些情况下表现出色,为处理复杂场景和运动模式的图像提供了一种有效的工具。

       总体而言,Farnebäck 在这篇论文中提出了一种创新的双帧运动估计方法,为计算机视觉领域的运动估计问题带来了新的视角,并且在特定情况下具有实际应用价值。

4  FlowNet: 端到端的深度光流估计:

       Dosovitskiy, A., Fischer, P., Ilg, E., Hausser, P., Hazirbas, C., Golkov, V., ... & Brox, T. (2015). FlowNet: Learning optical flow with convolutional networks. In Proceedings of the IEEE international conference on computer vision (ICCV) (pp. 2758-2766).

     这篇论文介绍了使用卷积神经网络(Convolutional Neural Networks,CNN)来学习光流(optical flow)的方法。

       光流是指图像中物体点在不同图像帧之间的运动模式,对于计算机视觉中的许多任务,如目标跟踪、3D重建和图像合成等,都非常重要。传统的光流估计方法通常基于复杂的数学模型和计算,而近年来,深度学习技术,特别是卷积神经网络,已经在图像处理领域取得了显著的进展。

       这篇论文的主要目标是使用卷积神经网络来学习光流的估计。作者提出了一种称为 FlowNet 的网络结构,它是一个端到端的卷积神经网络,可以从两幅图像中直接学习光流。FlowNet 的设计充分利用了卷积神经网络在图像特征提取和学习表示方面的优势。

       FlowNet 包含两个主要分支,分别用于处理两幅输入图像。每个分支都包含多个卷积和池化层,以及特定的连接层,用于生成光流场。整个网络通过监督学习的方式,在训练数据中优化光流估计。

       该论文的贡献在于引入了一种使用卷积神经网络进行光流估计的方法,避免了传统方法中复杂的手工特征工程和数学建模。FlowNet 在当时取得了非常出色的光流估计结果,证明了深度学习在光流估计领域的潜力。

       总的来说,"FlowNet: Learning Optical Flow with Convolutional Networks" 这篇论文为光流估计领域引入了深度学习方法,为计算机视觉研究提供了新的思路,也为后来的研究奠定了基础。

5. RAFT: 结构化的光流估计:

Teed, Z., & Deng, J. (2020). Raft: Recurrent all-pairs field transforms for optical flow. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 336-352).

代码:

image.png

       "Raft: Recurrent All-Pairs Field Transforms for Optical Flow" 是由 Zachary Teed 和 Jia Deng 于 2020 年在欧洲计算机视觉大会(European Conference on Computer Vision,ECCV)上发表的论文。这篇论文介绍了一种用于光流估计的方法,称为 Raft,该方法利用循环的全对场变换来实现光流估计。

       这篇论文的主要目标是提出一种新颖的方法来解决光流估计问题,即 Raft 方法。Raft 方法采用了一种循环的全对场变换,通过对所有点对进行操作来估计光流。这种方法与传统的局部方法不同,它能够在全局范围内捕捉更大范围的运动信息。

       Raft 方法的核心思想是通过逐步迭代,将每对点的光流变换应用于整个图像,从而逐渐优化光流估计。这种全对场变换的方式可以捕捉到不同点之间的相互作用,从而提高了光流估计的准确性。

        论文的贡献在于引入了一种基于循环全对场变换的光流估计方法,这种方法在全局范围内捕捉运动信息,具有较好的性能。Raft 方法在多个光流估计数据集上取得了优秀的结果,证明了其有效性。

       总的来说,"Raft: Recurrent All-Pairs Field Transforms for Optical Flow" 这篇论文为光流估计领域引入了一种创新的方法,为解决运动估计问题提供了新的视角,为计算机视觉研究和应用带来了新的启示。


目录
相关文章
|
7月前
|
机器学习/深度学习 编解码 人工智能
论文介绍:HigherHRNet——用于自下而上人体姿态估计的尺度感知表示学习
【5月更文挑战第22天】HigherHRNet是针对自下而上人体姿态估计的尺度感知方法,通过构建高分辨率特征金字塔,改善多尺度人体姿态估计的准确性。该论文提出的新架构在COCO测试集上提高了2.5%的中号人物平均精度,达到70.5%的AP,且在CrowdPose上超越所有自上而下方法,实现67.6%的AP。作者通过消融实验验证了各个组件的重要性,并指出未来可优化模型以适应更复杂场景。论文链接:[https://arxiv.org/abs/1908.10357](https://arxiv.org/abs/1908.10357)
54 1
|
6月前
|
算法 API 计算机视觉
【原理解密】多角度、多尺度、多目标的边缘模板匹配
【原理解密】多角度、多尺度、多目标的边缘模板匹配
160 0
|
算法
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
【分布鲁棒和多目标非负矩阵分解】基于DR-NMF的对NMF问题噪声模型的识别鲁棒性研究(Matlab代码实现)
|
7月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
483 0
|
机器学习/深度学习 算法 计算机视觉
基于多注意力融合的抗遮挡目标跟踪算法综述
基于多注意力融合的抗遮挡目标跟踪算法综述
652 0
基于多注意力融合的抗遮挡目标跟踪算法综述
|
机器学习/深度学习 传感器 算法
垂直腔表面发射激光器极化噪声的建模与分析论文复现
垂直腔表面发射激光器极化噪声的建模与分析论文复现
|
机器学习/深度学习 传感器 编解码
【图像重建】基于小波变换图像分解重建(PSNR对比)附matlab代码
【图像重建】基于小波变换图像分解重建(PSNR对比)附matlab代码
|
数据挖掘
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
【鲁棒】使用概率轨迹的鲁棒集成聚类研究(Matlab代码实现)
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
|
机器学习/深度学习
ECCV 2022|DynamicDepth:动态场景下的多帧自监督深度估计
在DOMD进行crop-粘贴的操作之后,图片中已不存在动态物体,但是新的问题又出现了,那就是遮挡区域,如下图的输入部分,我们可以看到crop后的部分区域是黑色的,因为该部分实际被遮挡了,因此本文在构建cost volume的时候需要考虑到被遮挡的情况。如上图所示,被遮挡部分的特征被临近部分的数据所填充,这样可以促进训练的梯度流向附近的non-occluded区域。
273 0