基于深度学习算法和传统立体匹配算法的双目立体视觉(一)

简介: 基于深度学习算法和传统立体匹配算法的双目立体视觉(一)


01PART立体视觉是什么?


在开始之前,我相信很多站友都会有这个疑问,所以我想先在这里做一下简要的介绍,以方便大家快速地了解这个项目。我们知道,人类通过眼睛感知世界、获取信息。人类获取信息的方式有很多 种,可通过眼睛、耳朵、触觉、嗅觉、味觉等,但我们接受到的绝大部分信息都是通过视觉的方式获取到的。由此可见,视觉系统在人类的生存、生产、发展中起到了极其重要的作用。随着计算机技术、智能机器人等的广泛研究与应用,不少科学家尝试将人类视觉系统功能赋予机器。让机器获取与人类一般的视觉能力,是许多科研工作者长期以来的追求。目前,虽然还不能够使机器获得与人类一模一样的视觉感知能力与认知能力,但自上世纪中叶以来,各种视觉技术理论与图像处理技术得到了飞速的发展,我们正朝着这一目标不断前进。

立体视觉是计算机视觉的重要组成部分,而双目立体视觉又是立体视觉的一个重要分支。它是基于两幅图像的,通过模拟人眼视觉的方式,由两个视点对同一个物体进行观察,具体是由不同位置的两台相机(或一台相机经过旋转和移动)对同一场景进行拍摄,然后通过三角测量的原理来计算空间点在两幅图像中像素间的视差,根据视差来恢复目标物体的深度信息,最后可以根据深度信息来恢复物体的三维形状。

作为一个完整的计算机视觉三维重建系统必须包含以下几个部分:图像采集、图像预处理、相机标定、特征点提取和立体匹配、深度信息计算、三维坐标计算以及后处理等。比较关键的技术有相机标定技术、图像立体匹配以及空间点的三维坐标计算三项。

网络异常,图片无法展示
|


02PART立体视觉原理


立体视觉原理示意图如下图所示,右眼能看到被视物体的右侧,左眼能看到被视物体的左侧,左右眼视网膜上形成2副存在视差的图像,经大脑融合处理后,大脑根据视差判断物体的空间位置关系,使人产生立体视觉。

在机器视觉中,以仿生学原理获取视差图像,人类立体视觉获取的视差以角度表示,计算机获取的视差大小则以2 副图像之间的像素坐标差值表示。机器视觉中,需通过3D显示设备呈现立体景象,根据物体远近表现的视差,分为正视差、负视差和零视差,并以此形成立体感。



03PART左右视图


左右视图即来自于左右眼睛或摄像头的图像,我们网路的训练用到的左右视图是来自Middlebury数据库中供立体匹配算法研究的一组参考图像。



04PART深度学习算法


我们采用了基于全卷积神经网络的立体匹配,利用大量的图像对与真实视差图像进行训练,学习图像对到视差图的直接映射。视差平滑假设,然后解决一个优化问题。卷积神经网络可以进行端到端的学习,立体匹配则要求进行像素级别的视差计算,一般的卷积神经网络的无结构输出结果无法满足要求。我们通过全卷积神经网络可以对任意尺寸的图像进行输入,进行端到端的学习,进行像素级别的预测,全卷积网络结构采用双塔式网络结构,去掉全连接层,输入为同一场景对应的两张的图像,输出为视差图。



05PART网络结构图


image.png

我们使用全卷积神经网络进行光流预测,基于全卷积神经网络的立体匹配网络结构采用如图所示,整个网络采用双塔式网络结构。因为双目立体匹配输入为两张图像,此网络输入具有两个分支,输入分别为参考图像r与匹配图像m,r与m是同一场景不同视角的两幅图像,再分别经过三层卷积(具体层数可以进一步调节)与池化层变换进行特征提取,再把两个分支的特征图首尾相接进行聚合,形成双塔式结构。把聚合的特征图继续执行卷积与池化操作,进行更高层次的抽象语义特征提取,最后结合高层的语义信息与低层的位置信息进行提炼(refinement ),既可以获取语义信息,又可以保持更好的空间结构,获取更加精准的预测,符合人脑生物特性,通过这个双塔式全卷机神经网络,进行像素级别的预测,可以直接进行图像对到视差图的映射。



06PART传统立体匹配算法


Census 变换在实际场景中,造成亮度差异的原因有很多,如由于左右摄像机不同的视角接受到的光强不一致,摄像机增益、电平可能存在差异,以及图像采集不同通道的噪声不同等,cencus方法保留了窗口中像素的位置特征,并且对亮度偏差较为鲁棒,简单讲就是能够减少光照差异引起的误匹配。

实现原理

在视图中选取任一点,以该点为中心划出一个例如3 × 3 的矩形,矩形中除中心点之外的每一点都与中心点进行比较,灰度值小于中心点即记为1,灰度大于中心点的则记为0,以所得长度为 8 的只有 0 和 1 的序列作为该中心点的 census 序列,即中心像素的灰度值被census 序列替换。经过census变换后的图像使用汉明距离计算相似度,所谓图像匹配就是在视差图中找出与参考像素点相似度最高的点,而汉明距正是视差图像素与参考像素相似度的度量。

具体操作

对于欲求取视差的左右视图,要比较两个视图中两点的相似度,可将此两点census值逐位进行异或运算,然后计算结果为1 的个数,记为此两点之间的汉明值,汉明值是两点间相似度的一种体现,汉明值愈小,两点相似度愈大实现算法时先异或再统计1的个数即可,汉明距越小即相似度越高。

相关文章
|
2小时前
|
机器学习/深度学习 算法 调度
深度学习|改进两阶段鲁棒优化算法i-ccg
深度学习|改进两阶段鲁棒优化算法i-ccg
|
2小时前
|
机器学习/深度学习 TensorFlow 算法框架/工具
Python深度学习基于Tensorflow(7)视觉处理基础
Python深度学习基于Tensorflow(7)视觉处理基础
19 2
Python深度学习基于Tensorflow(7)视觉处理基础
|
2小时前
|
机器学习/深度学习 自然语言处理 算法
深度学习算法简介(二)
深度学习算法简介(二)
|
2小时前
|
机器学习/深度学习 自然语言处理 算法
深度学习算法简介(一)
深度学习算法简介(一)
|
2小时前
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
2小时前
|
机器学习/深度学习 存储 编解码
利用深度学习优化视频压缩算法
【4月更文挑战第28天】随着数字媒体时代的到来,视频数据量急剧增加,有效的视频压缩技术变得尤为重要。本文探讨了一种基于深度学习的视频压缩框架,旨在提高压缩效率同时保持较高的视频质量。通过使用卷积神经网络(CNN)对视频帧进行特征提取,并结合先进的编码技术,本研究提出了一种新的率失真优化算法。实验结果表明,该算法在多个标准测试序列上相比传统方法能显著降低比特率,同时维持了良好的视觉质量。
|
2小时前
|
机器学习/深度学习 自然语言处理 算法
深度解析深度学习中的优化算法:从梯度下降到自适应方法
【4月更文挑战第28天】 在深度学习模型训练的复杂数学迷宫中,优化算法是寻找最优权重配置的关键导航者。本文将深入探讨几种主流的优化策略,揭示它们如何引导模型收敛至损失函数的最小值。我们将比较经典的批量梯度下降(BGD)、随机梯度下降(SGD)以及动量概念的引入,进一步探索AdaGrad、RMSProp和Adam等自适应学习率方法的原理与实际应用。通过剖析这些算法的理论基础和性能表现,我们旨在为读者提供一个关于选择合适优化器的参考视角。
|
2小时前
|
机器学习/深度学习 人工智能 自然语言处理
|
2小时前
|
机器学习/深度学习 人工智能 算法
揭秘深度学习中的优化算法
【4月更文挑战第24天】 在深度学习的广阔天地中,优化算法扮演着至关重要的角色。本文将深入探讨几种主流的优化算法,包括梯度下降法、随机梯度下降法、Adam等,并分析它们的特点和适用场景。我们将通过理论分析和实例演示,揭示这些优化算法如何帮助模型更高效地学习参数,从而提高模型的性能。
|
2小时前
|
机器学习/深度学习 算法
m基于深度学习的QPSK调制解调系统频偏估计和补偿算法matlab仿真
MATLAB 2022a中展示了基于深度学习的QPSK调制解调系统频偏估计和补偿算法仿真结果。该算法运用神经网络模型实时估计并补偿无线通信中的频率偏移。QPSK调制将二进制信息映射到四个相位状态,解调通常采用相干解调。深度学习算法通过预处理、网络结构设计、损失函数选择和优化算法实现频偏估计。核心程序生成不同SNR下的信号,比较了有无频偏补偿的误码率,显示了补偿效果。
12 1