原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)
导读
在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅降低成本,所以潜力巨大。本文综述了基于视觉的车辆速度、距离估计。并建立了一个完整的分类法,对大量工作进行分类,对涉及的所有阶段进行分类。除此之外,还提供了详细的性能评估指标和可用数据集概述。最后,论文讨论了当前的局限性和未来的方向。
应用背景
车辆速度的准确估计是智能交通系统(ITS)的关键组成,这需要解决诸如同步数据记录、表示、检测和跟踪、距离和速度估计等问题。常见的速度估计应用场景包括自动驾驶、智能交通监控,分为固定传感器测试和移动相机/车辆下的测试。论文主要介绍了在固定位置下基于camera的速度与距离估计!下图为速度估计的整体流程:主要包括检测跟踪、距离估计、速度估计等;
主要技术
上图汇总了基于视觉的车速测量系统的主要部分,Input data 、Detection and tracking、Distance and speed estimation、Application domains;
1.输入数据
基于视觉的测速测距方案输入为图像数据,对于每辆车,将有一系列图像,从第一次出现到最后一次出现。可用图像的数量将取决于摄像机相对于道路的姿态、焦距、帧速率和车辆速度。现有camera主要包括:交通camera和speed camera;
其他形式的输入数据包括车辆属性,如车辆类型、关键点、车牌大小等。camera标定在提供内外参数方面起着关键作用。路段尺寸的先验知识提供了计算道路与camera之间的外部关系甚至车辆速度的一些重要信息。
2.检测和跟踪
必须在所有可用图像中检测车辆或其某些代表性特征。随着时间的推移跟踪车辆或显著特征对获得速度测量至关重要,可以应用不同的方法来处理这两个任务。
3.距离和速度估计
速度估计本质上涉及具有相关时间戳的距离估计。存在不同的方法来计算车辆与某些全局参考的相对距离,以及不同的方法计算车辆的速度。
4.应用领域
主要应用在交通监控、预测、控制、自动驾驶和移动机器人领域!
下图是机动车速度估计的全系列技术栈!
分类
论文对135篇车速检测相关论文展开了调研,从输入开始,紧接着是检测、跟踪、距离和速度估计,最后是速度测量精度方法!论文对每个模块的工作进行了分类。
1.Camera设置
主要涉及摄像机固有参数(传感器尺寸和分辨率、焦距)和外部参数(相对于道路平面的位置,包括基于无人机的摄像机)以及摄像机数量(单摄像机、立体摄像机或多摄像机)。
根据这些参数,投影在图像平面上的真实场景可以表示沿短或大路段的一条或多条车道。根据这种配置以及车辆相对于camera的相对位置,能够得到其中一个最重要的变量:meter与像素的比率,即每个像素代表的路段部分。
该比率越低,估计距离和速度的精度越高,由于透视投影模型,该比率与距camera的distance平方成正比,这意味着在长距离进行的测量具有非常差的精度。
2.相机标定
为了在真实世界坐标中提供测量,需要精确估计摄像机的内部和外部参数。最常见的方法是执行软标定,即在实验室标定或使用传感器和透镜特性近似固有参数,使用手动[17、28、31、35、37、47、54、59、66、67、70、74、76、80、83、86、91、92、94、100、109、110、117、119、121、125、128、129]或自动程序[77、90]获得外部参数(道路平面和摄像机之间的刚性变换)。硬标定涉及在已安装摄像机的情况下联合估计内参和外参。也可以手动执行[20、38、58]或自动执行[12、14、18、19、23、33、78、85、88、101、108]。
在某些有限的情况下,摄像机标定被忽略[13、15、16、21、22、24-26、30、32、34、39-41、43、44、46、48-53、55、56、60-65、69、71、73、81、84、95、103-107、111、113、118、120、124]。
3.车辆检测
由于摄像机大多是静态的,在大多数情况下,车辆检测通过建模和减去背景来解决[12-15、18、20-28、30、32、34-37、40、42-44、47、48、50、51、53-55、61-63、65、71-75、81、83、84、86、92、93、95、102、103、108、110-113、117、118、121]。其他方法是基于特征的,例如,检测车牌[31、41、49、60、66、68、70、76、77、80、82、94、122、125]或车辆的其他特征[38、39、45、49、57-59、69、71、79、87、91、95、96、98、99、110-112、116、117、123]。最近,使用基于学习的方法识别图像中的车辆越来越多[19、85、88-91、98、100、101、104-106、115、120、126-129]。
4.车辆跟踪
车辆具有平滑和稳定轨迹的能力是处理车辆速度检测的关键问题,可以将车辆跟踪分为三类。
首先,基于特征的[17、19、20、22、31、33、37、38、45、51、53、55、58、59、61、62、69、71、74、79、85、88、91、92、93、97、112],它跟踪来自车辆的一组特征(例如,光流)。
第二,这些方法侧重于跟踪blob的质心或车辆的边界框[25、34、35、40、48、50、52、56、65、72、73、75、83、86、95,103, 106, 111, 118, 121, 122]。
第三,这些方法侧重于跟踪整个车辆[15、16、18、26-30、32、36、42-44、47、54、57、63、78、81、84、89、91、98、102、104、105、108、109、111、113、114、120、125、128、129]或其特定部分(如车牌[41、49、60、66、68、70、76、77、80、82、94、100、125])。
5.距离估计
对于单目系统,车辆距离的估计通常使用一组约束条件进行计算,例如平坦道路假设,包括基于单应性[15、16、18、20、22、34、37、52、53、61、66、94、98、99、110]和使用增强指示线、模式或region[19、20、23、24、26、32、38、47、79、86、87、107、124]的方法,或者通过使用关于一些物体的实际尺寸的先验知识(例如,车牌[41、49、60、66、68、80、125]或车辆的尺寸[42、62、78、103])。当使用立体视觉时,这些限制得到缓解[42、60、61、74、80、92、100、112]。
6.速度估计
在少数情况下,检测车辆速度的问题被提出为检测路段上的交通速度的问题,即直接获得平均道路速度值[12、17、20、23、32、34、38、40、42、51、53、54、58、61、69、77、79、80、81、84、85、94、102、105、110、113、121]。然而,在大多数情况下,检测是在单个车辆上进行的。需要关于camera帧速率的先验知识或每个图像的准确时间戳来计算测量之间的时间。使用连续的[14、18、19、22、25、33、35-37、41、46、48、50、55、65、67、68、71-76、78、82、83、85、88、89、92、96、100、103、120、129]或非连续的[15、24、26、28、30、31、43、44、47、49、52、59、66、70、71、86、87、93、95、99、106-108、111、118、124、125、128]图像来估计速度是一个基本变量,对精度有很大影响。如何整合所有可用测量(瞬时、平均、最佳等)也是影响测量最终精度的关键因素。
7.生成真值
目前的工作主要包括:汽车速度计、基于距离的技术(如雷达或激光)、基于GPS的技术(包括标准GPS、GPS里程表和DGPS)、光屏障和路面传感器(如压电或电感)。
相机设置与标定
1.相机的设置
camera设置直接影响速度估计方法的精度。考虑的第一类是摄像机位置,包括无人机摄像机[25、30、57、62、64、69、96、104-106、126]和交通摄像机,这些摄像机可以根据其高度大致分类为距离(≥ 5m)或close(<5m)交通摄像头。
在某些情况下,摄像机位于道路一侧,提供车辆的侧视图[13、21、26、33、39、73、112、118]。大多数作品都基于单目系统,但还可以找到一些基于stereo的方法[42、60、74、100、112]和非stereo多摄像机[61,80]设置。
尽管大多数方法都基于CCD或CMOS传感器,但也可以找到一些使用基于事件的摄像机[16,17]和基于生物传感器[147]的作品。考虑到相机分辨率,可以预期随着时间的推移像素分辨率会逐渐增加,这主要是由于硬件的进步。然而,情况并非如此,大量作品(自2010年以来,我们有[32-35、42-45、52、54、67、71-73、79、83、87、97、103、117])的分辨率低于或等于640×480像素(VGA)。分辨率不仅影响图像处理检测技术的精度,还影响距离估计的精度。分辨率越高,meter像素比越低。
焦距也是一个基本参数,通常与摄像机高度、路段长度和视野覆盖的车道数有关。对于特定的摄像机高度,焦距越大,距离和速度测量的精度越高。大多数作品使用中低焦距(≤ 25mm),因为它们被设计为覆盖多车道和大的道路延伸。只有少数作品含蓄或明确地强调需要长焦距来提高速度估计的准确性,即使系统仅覆盖一条车道[23、31、53、61、68、70、76、77、80、82、107、124]。因此,根据摄像机的内外(位置w.r.t.道路)参数,我们最终将不同的场景投影到图像平面中。如下图所示,可以大致定义三种类型的场景:
High meter-to-pixel ratio、Medium meter-to-pixel ratio、Low meter-to-pixel ratio。
2.系统的标定
精确的摄像机标定对于基于视觉的目标距离和速度估计至关重要。无论是假设车辆在平坦道路上行驶,用于单目系统还是使用stereo配置,从像素坐标获得精确真实世界测量的能力在很大程度上取决于精确的系统标定。对于单目系统,针孔相机模型提供了一个通用表达式,用于描述图像平面(u,v)中的2D像素与3D真实世界坐标系(Xw,Yw,Zw)之间的几何关系,在这种情况下,该坐标系放置在道路平面上并假设为平坦道路形状:
单目摄像机标定问题是估计内参、RT的问题。如下图所示,在处理用于车速估计的摄像机标定时,采用了两种主要方法。首先,软标定使用标定模板(例如棋盘)在实验室中估计K,或假设数据表中提供的参数(传感器分辨率、像素大小和焦距),然后在现场计算[R,T]。第二,硬标定,在现场同时计算K和[R,T]。
计算相机外部参数的最常见方法之一是使用消失点[12、14、15、19、22、23、27、33、42、85、88、89、91、108]。当投影到图像平面时,3D真实世界坐标系中的一组平行线在唯一的2D点处相交。该点通常称为消失点。在这种情况下,明显的一组线是道路标记(包括实线和虚线车道线)和通常具有高对比度的道路边缘。消失点的位置允许计算旋转矩阵R,然后使用图像中某个对象或区域的真实世界维度的知识来获得平移矩阵T。执行外部参数标定的另一种常见方法是使用道路平面上存在的已知几何静态特征,然后计算单应变换。
可以通过使用放置在道路平面上的标准(例如棋盘)或特殊标定模板[17、18、37、58、59、68、76、80、100]来解决获取相机的内外参数的硬标定问题。这种技术的主要缺点是需要暂时停止道路上或车道上的交通。只有少数方法以自动方式处理内部和外部参数的校准。最常见的方法是从两组或三组相互垂直的平行线计算两个或三个正交消失点[133]。如[134]所述,这些消失点可以从场景[23、33、85]中存在的静态和移动(本例中为车辆)元素中提取。在[77]中,随时间跟踪的车牌被用作校准模式,以硬校准系统。最复杂的方法将细粒度分类与车辆关键点/姿态检测[136]相结合,以确定特定车辆品牌和型号[135](因此,确定其真实尺寸),从而执行软[90]或硬[101]系统标定。
无论标定中使用何种方法,无论是计算平移向量还是完全单应性,都必须事先知道真实世界中某些特征/对象的尺寸。事实上,计算所谓的比例因子(m/px)以从像素到真实世界坐标的转换是使用单目系统处理距离和速度估计时要解决的关键问题之一。最常见的特征是人工测量的路段/区域的道路/车道宽度或长度[19、24、38、47、54、64、66、67、72-75、79、82、84、87、88、89、98、90、90、80、80、90、70、80、70、90、60、80、60、90、50、80、50、70、70、50、50、60、70、60、60、50、90、40,101、107、113、128、129]之前已知物体的尺寸,如车辆[27、62、78、85、90、103、105、106、110、117]或车牌[60、66、68、70、80、94、133],以及车道标记的长度和频率[14、20、22、23、26、61、65、78、108、119、121]。
最后,必须考虑基于stereo的方法,这些方法在实验室或现场使用标准stereo标定技术和模式进行硬校准[60、74、92、100、112]。除了每个摄像机的固有矩阵K之外,stereo系统还需要计算基本矩阵,其中包括从一个摄像机到另一个摄像机的非本征变换。由于立体系统能够从两幅图像中的2D像素获得3D真实世界测量值(在解决对应问题后),因此无需计算道路平面和摄像机之间的外部变换,但在任何情况下,都可以手动计算[137]或自动计算[138]。