一文尽览 | 计算机视觉中的鱼眼相机模型及环视感知任务汇总!(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等

论文链接:https://arxiv.org/pdf/2205.13281.pdf

论文名称:Surround-view Fisheye Camera Perception for Automated Driving: Overview, Survey & Challenges


论文的一些侧重点



环视鱼眼摄像机通常用于自动驾驶中的近距离感知,车辆四面的四个鱼眼摄像头足以覆盖车辆周围的360°范围,捕捉整个近距离区域。一些应用场景包括自动泊车、交通拥堵辅助等。


由于汽车感知的主要关注点是远距离感知,因此近距离数据集有限,相关感知任务的研究很少。与远距离感知相比,10厘米的高精度目标检测要求和目标的局部可见性,给环视感知带来了额外的挑战。而且由于鱼眼像机的大径向畸变,标准算法无法轻松扩展到环绕视图用例。


本论文致力于为研究人员和工程算法人员提供汽车鱼眼相机感知的一些参考,包括鱼眼相机模型,以及各种感知任务,最后,讨论了常见的一些挑战和未来研究方向。


领域应用背景



环视系统使用四个传感器形成具有重叠区域的网络,足以覆盖车辆周围的近距离区域。下图显示了典型环视系统的四个视图,以及典型停车用例的表示:


640.png


超过180度的广角相机用于近距离感知,任何感知算法都必须考虑此类摄像机系统固有的显著鱼眼失真。这是一个重大挑战,因为计算机视觉领域的大多数工作都集中在具有轻微径向畸变的窄视场摄像机上。本文主要概述全景摄像头(例如,图像形成、配置和标定),调查现有技术,并深入了解该领域当前面临的挑战。


鱼眼相机有几个比较大的挑战:


  1. 表现出强烈的径向失真,视野减小和周围特征失真;
  2. 目标形变更大,特别是对于近处对象;
  3. 使用bounding box进行目标检测的算法变得更加复杂,因为box很难为鱼眼扭曲目标提供最佳拟合,如下图所示(虽然[14]中探讨了更复杂的表示方法,不依赖矩形框,例如利用鱼眼相机已知径向畸变的曲线边界框):


640.png


对于没有明显畸变的相机,一般通过针孔模型进行建模,然而鱼眼相机由于缺乏统一的几何结构而变得复杂,许多模型使用不同的特性来建模鱼眼相机(论文将会展开详细介绍)。


鱼眼相机模型



本节将介绍几种比较流行的鱼眼相机模型,尽可能cover住领域常用方案,对于开发人员来说,可以指导特定型号的模型选择。


640.png


1.针孔相机模型


针孔相机模型是计算机视觉和机器人技术领域中使用的标准投影函数,此时研究仅限于考虑标准视场摄像机,针孔模型建模为:

640.png


2.经典几何模型


本节中讨论的模型称为经典模型,它们已经被研究了至少六十年[4]。还包括equisolid-angle模型,可以参考[27]、[28],这里不做过多阐述。


等距投影

在等距鱼眼模型中,投影半径Q_e(θ)通过等距参数f的简单缩放与视场角θ相关:


640.png


反投影函数:


640.png


Stereographic Projection


与等距模型一样,在Stereographic 投影中,X到投影球的投影中心是C(下图5b)。考虑图像平面具有沿Z轴(光轴)的切点,在Stereographic 中,存在到像平面的第二个中心投影,切点的对极点形成投影中心,这基本上是焦距为2F的针孔投影。


640.png

反投影函数:


640.png


正交投影


与前面的投影模型类似,正交投影从投影到球体开始(下图5c),然后是到平面的正交投影。因此,正交投影由下式描述:

640.png


反投影函数:


640.png

640.png


扩展正交模型


如上图5d所示,扩展正交模型[29]扩展了经典正交模型,将投影平面从与投影球体相切的位置释放出来,允许偏移λ。在图像从鱼眼图像转换为平面图像的情况下,这个扩展用于控制失真图像和未失真图像之间的尺寸比。畸变投影保持与正交投影式子相同,然而,畸变和未畸变径向距离及其逆之间的关系由下式给出:

640.png



这是对[29]中给出的表示的略微简化,并假设f和(λ+f)为正。


扩展等距模型


扩展正交模型只是从投影到图像地map的转换,许多模型可以与扩展正交模型相同的方式转换为图像上的mapping,这里只给出一个等距模型的例子:

640.png


3.Algebraic models



简要讨论了鱼眼相机的代数模型,特别是多项式模型和Division模型。关于多项式模型的讨论,论文提供了完整性介绍,尽管在本文的其它部分大多集中于几何模型。


多项式模型


非鱼眼相机的经典Brown-Conrady失真模型[31]、[32]使用一个奇数多项式来描述图像上的径向失真,其中Pn表示一些任意的N阶多项式。为了考虑鱼眼失真,[18]中提出了一种称为多项式鱼眼变换(PFET)的图像多项式模型。PFET和Brown-Conrady模型之间的差异在于,PFET允许奇数和偶数指数来解释鱼眼相机中遇到的附加失真。


MATLAB计算机视觉工具箱[36]和NVidias DriveWorks SDK[37]包括了[38]中提供的基于多项式的鱼眼模型的实现。在这种情况下,多项式用于对投影和非投影进行建模,无需使用数值方法反转投影(这是基于多项式的模型的主要计算问题)。


Division模型


径向畸变的Division模型[17]获得了一定的普及,因为它具有良好的特性,至少对于单参数变量,直线投影到图像中的圆[39]–[41],对于许多透镜,单参数变量表现非常好[42],模型及其逆解由下式给出:


640.png


[30]对此进行了扩展,增加了一个额外的缩放参数,提高了某些类型鱼眼镜头的建模性能。虽然Division模型最初是作为图像映射表示的,但它可以表示为投影函数:


640.png640.png


4.球形模型(Spherical models)


基于点到单位球体的投影(或其仿射推广),还考虑了一组较新的(过去几十年)鱼眼模型。


视场模型

视场模型[19]及其逆定义如下:

640.png


参数ω近似于摄像机视场,但并不精确[19]。这是一个像division模型一样的图像模型,投影函数可以定义为:

640.png


反投影函数:


640.png


Unified Camera Mod


UCM最初用于模拟折反射相机[21],后来被证明在模拟鱼眼相机[43]、[44]时非常有用。它已被证明在一系列透镜中表现良好[42],首先,将点X投影到单位球体,然后投影到建模针孔相机(下图6a):


640.png


反投影:


640.png640.png


Enhanced Unified Camera Mod


在UCM的基础上,主要将球面投影推广到椭球体(或者,实际上,一般的二次曲面),并能够证明某些精度增益,给出了E-UCM的模型:

640.png


有效点和角度的集合:


640.png


双球模型


UCM又被双球体(DS)模型[23]扩展,该模型添加了第二个单位球体投影,以实现更复杂的建模:


640.png

反投影:

640.png


投影和非投影的有效范围为:

640.png


5.一些结论



鱼眼相机有大量潜在的应用模型,本文提到了20个模型,尽管没有概括所有,然而已经证明,许多几何模型之间存在着很强的关系。至少有七个模型与一般透视投影相关或直接等效。此外,最近开发的一些鱼眼模型在数学上等同于经典的鱼眼投影函数。


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
4月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
534 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
2天前
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
2天前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
2月前
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
55 11
|
3月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
105 8
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
41 1
|
4月前
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
461 7
|
4月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
504 1
|
3月前
|
机器学习/深度学习 算法框架/工具 计算机视觉
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
ViT模型的出现标志着Transformer架构在计算机视觉中的成功应用
55 2
|
4月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
88 3
下一篇
DDNS