领域最全！多传感器融合方法综述！(Camera/Lidar/Radar等多源异构数据)（上）-阿里云开发者社区

原文首发微信公众号【自动驾驶之心】：一个专注自动驾驶与AI的社区（https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA）

自动驾驶中的多传感器融合

原文：Multi-Sensor Fusion in Automated Driving: A Survey

自动驾驶正成为影响未来行业的关键技术，传感器是自动驾驶系统中感知外部世界的关键，其协作性能直接决定自动驾驶车辆的安全性。本文主要讨论了近年来自动驾驶中多传感器融合的不同策略。分析了常规传感器的性能和多传感器融合的必要性，包括radar、激光雷达、摄像机、超声波、GPS、IMU和V2X。根据最近研究中的差异，将融合策略分为四类，并指出了一些不足之处。传感器融合主要应用于多目标跟踪和环境重建，论文讨论了多目标跟踪中建立运动模型和数据关联的方法。最后，作者分析了当前研究中的不足，并提出了未来进一步改进的建议。通过本survey，希望能够分析自动驾驶过程中多传感器融合的现状，并提供更有效和可靠的融合策略。

多源异构信息融合（MSHIF）综合利用了不同传感器获得的信息，避免了单个传感器的感知局限性和不确定性，形成了对环境或目标的更全面的感知和识别，提高了系统的外部感知能力[1]。目前，MSHIF技术已广泛应用于故障检测、遥感、人体健康监测、机器人系统、人机交互、目标识别和跟踪、SLAM和高级驾驶辅助系统（ADAS）等领域。

传感器是AD系统中感知外部世界的关键，其协作性能直接决定AD车辆的安全性。AD车辆主要使用七种传感器，包括摄像机、毫米波雷达（MMW雷达）、全球定位系统（GPS）、惯性测量单元（IMU）、激光雷达、超声波和通信模块。各种传感器各有优缺点，因此在AD系统中通常有不同的任务划分。本文主要研究如何通过融合多传感器数据来实现融合感知。摄像机可以获取光学图像，并从一定角度准确记录物体的颜色、纹理、颜色分布等信息。因此，一些研究使用摄像机完成目标识别和目标跟踪任务，包括道路检测、行人和车辆识别以及局部路径规划。为了克服摄像机可测量角度范围窄的问题，在实际应用中，AD通常采用多台摄像机对周围环境进行全方位监控。毫米波雷达通过脉冲压缩测量物体的距离，并通过多普勒频移测量物体的速度，这在障碍物检测、行人识别和车辆识别中有广泛的应用。GPS和IMU为AD车辆提供惯性信息和全球位置信息，以确定其位置，从而使车辆能够在高精度地图（HPM）中实时定位。激光雷达的主要应用包括定位、障碍物检测和环境重建。由于三维（3D）数据与二维数据相比具有一定的信息表示优势，它可以最大限度地恢复真实环境中的交通条件。结合毫米波雷达目标的动态特性、激光雷达的变化优势以及光学图像中目标的细节，利用综合信息有助于车辆执行各种任务，如意图分析、运动规划和自动驾驶。

一些研究利用开源数据集[35]、[36]或从仿真软件[37]生成数据集，以避免传感器数据的费力收集。多传感器融合的研究需要大量数据，尤其是在大量深度学习应用的背景下。

因此，数据收集的工作量是巨大的。在参考文献[38]中，近年来对AD的虚拟测试环境和开源数据集进行了分析和总结。通过选择与研究相匹配的数据集，可以在多传感器融合研究过程中快速获得有效数据，而无需花费大量资源和时间重新获取。此外，多个传感器对应的目标在不同的坐标系中，不同传感器的数据速率是相反的。需要将异构信息中的同时目标信息映射到一个统一的坐标系，即时空对齐[39]，[40]。

此外，目标信息的呈现形式与传感器不同，需要校准多传感器的位置以获取最终位置。在多传感器融合部分，目前的研究有不同的方法，多传感器采用的信息融合、融合水平和融合算法也不同。从融合方法来看，传感器的组合主要包括radar-camera（RC）[19]、[41]、camera-lidar（CL）[42]和radar-camera-lidar[16]。一些研究将车辆位置和地图集成到AD系统中，这使得车道水平定位成为可能[97]。此外，V2X传感器将附近的物体添加到地图实时中，这降低了车辆的动态信息的比例[43]。

根据MSHIF处理中融合信息的不同形式，该方法分为四种类型的信息融合，包括基于可分辨单元（FBDU）[44]、[45]、基于互补特征（FBCF）[46]、[47]、基于属性的融合（ABF）[48]、[49]和基于多源决策的融合（FBMDM）[16]、[50]。一般而言，不同的融合策略基于数据融合过程中传感器数据的不同抽象级别。在数据融合之前，FBDU的抽象度最低。它通常直接集成预处理数据，而FBMDM对不同传感器的最终处理结果具有最高的综合判断。此外，为了完成车辆的运动规划，需要检测障碍物并跟踪运动目标。由于移动目标运动的复杂性，有必要根据移动目标的相关性做出相应的决策。然而，实现运动目标运动识别的前提是跟踪目标。

本文首先讨论了AD中使用的传感器和技术，以及为什么和如何使用它们来完成AD任务。然后，根据不同研究中的特定融合方法，分析和讨论了当前的不足和可以改进的地方。

本文组织如下：第二节分别介绍了传感器的特点、优点和缺点。第三节总结了四种融合策略和特定感知识别方法，并讨论了多传感器融合的特定方法。此外，通过比较各种传感器的性能，说明了多传感器融合的必要性。需要建立运动模型来识别目标的运动意图。在第四节中，我们描述了将多传感器数据与目标跟踪关联的必要性。第五节分析了当前融合策略中存在的问题，并提出了进一步改进的具体建议。

1）融合感知系统中的传感器

传感器的类型和性能直接决定了AD系统获取的信息的数量和质量。除了车辆对车辆（V2V）、车辆对基础设施（V2I）和其他车辆通信外，还通过分析和合成各种传感器数据来感知外部环境。一般来说，研究中的传感器主要包括radar/超声波和camera（包括RGB-D、红外摄像机）、激光雷达和GPS/IMU。不同传感器在不同环境下的检测能力和可靠性受到限制，多传感器融合可以提高目标检测和识别的准确性。下表总结了上述传感器和检测范围的优缺点，表明不同传感器的工作特性有明显差异。同时，通过融合多传感器数据，从各个方面提高了车辆的感知能力，有效地保障了驾驶员的安全。在融合传感过程中，主要采用的传感器是毫米波雷达、激光雷达、摄像机、超声波、GPS/IMU和V2X传感器。因此，本节其余部分将讨论这些传感器的特点、优点和缺点。

1.毫米波雷达

目前，毫米波雷达的主流频段包括24GHZ、60GHZ和77GHZ，最流行的是77GHZ；而60GHZ是仅在日本采用的频段，24GHZ频段将在未来逐步废除。79GHZ波段雷达具有更高的距离、速度和角度分辨率，已得到广泛认可，并将成为未来车载雷达的主流频带。与相机和激光雷达相比，毫米波雷达具有更长的波长，具有一定的抗阻塞和抗污染能力，可以应对雨、雪、雾和黑暗环境。雷达不仅可以获得多个目标的精确距离，还可以利用多普勒频移效应测量相对速度。不同类型的车载雷达波形通常分为调频连续波（FMCW）雷达和脉冲雷达。由于脉冲雷达在接收回波信号时需要严格隔离发射信号，而高功率信号将在一个短暂的连续周期中发射，这导致了对硬件的高要求和复杂的结构。因此，大多数车载毫米波雷达采用FMCW作为发射波形。FMCW雷达确保目标的距离和相对速度同时可用，并且速度分辨率和距离分辨率是可控的。

大多数研究从雷达数据中提取行人或车辆的距离、角度和速度信息。然而，微多普勒效应为识别刚性和非刚性目标提供了另一种方法。在参考文献[20]中，FMCW雷达系统旨在为100至150米范围内的成人和儿童提供所需的识别。在参考文献[21]中，从接收到的雷达信号中提取代表性目标特征，作为SVM的分类标准，用于行人、车辆和自行车的分类，准确率为90%以上。同时，最新的IWR6843ODS雷达模块可以实现实时目标点云映射，进一步丰富了采集数据的信息内容。

毫米波雷达的一个缺点是对于相对静止的目标难以区分。除受到噪声干扰外，AD车辆还经常受到由金属物体（如路标或护栏）产生的错误警报的影响。一般的处理方法是采用恒虚警率（CFAR）检测，用噪声的方差不断更新判决阈值，从而获得恒定的虚警概率[51]。此外，预处理的雷达数据可以通过应用生成对抗网络（GAN）[52]-[55]生成图像，但图像仍然面临分辨率不足的问题。此外，随着配备FMCW雷达的车辆数量的增加，共享频率干扰现象将成为一个问题，参考文献[56]提出了一种新的雷达布置系统，该系统具有不受带宽限制的适当的布置解决方案。与同类雷达相比，其分辨率提高了一个数量级以上，这将有助于雷达构建高分辨率地图。

2.Camera

camera是最早用于AD系统的传感器之一，主要用于完成目标识别、环境地图构建、车道检测和目标跟踪等任务。近年来，深度学习（DL）在目标识别和跟踪任务中取得了优异的性能，它可以从海量数据中获得强大的表达能力，并用机器学习方法取代传统的人工特征设计。在系统精确完成目标识别和目标跟踪后，将进行下一步的决策任务。目前，有两种类型的相机，CCD和CMOS。CCD具有复杂的制造工艺、更高的量化效率、更低的噪声、高动态范围和低光条件下的高图像质量。与CCD传感器相比，CMOS牺牲了一些性能以降低成本。它们之间的差异将更大，预计CMOS将取代CCD[57]。

为了从图像中获得目标的位置，需要建立像素与物理世界之间的关系，这称为相机标定。参考文献[58]回顾了相机标定的方法，并将其分为优化方法、变换矩阵方法、分布标定方法、张正友标定方法和传统标定方法。在实际标定过程中，参考文献[59]提出了灵活的摄像机标定方法，该方法只需要从不同角度拍摄棋盘，然后建立径向透镜畸变模型。该方法包括一个封闭形式的解，然后根据最大似然准则进行非线性求解。针对多传感器融合，参考文献[60]-[64]提出了一些基于深度信息的摄像机标定方法。随着计算机视觉应用的不断扩展，有必要提出具有更低复杂度和更灵活的新颖创新算法。一些研究使用双目相机或深度相机来获得具有深度信息的图像数据。然而，在距离分辨率方面，与radar或激光雷达[16]，[65]仍有很大差距。参考文献[66]中，基于Pascal、Coco和CityScape的现有数据集生成的污损图像（模糊、雪天、雾天、过亮过曝）用于评估最先进的目标检测算法。如下图所示，检测精度至少降低了31.1%，在某些情况下，最大值降低了60.4%。因此，可以得出结论，无论在何种条件下，单摄像机传感器都是非常不可靠的。

车辆的camera在光线突然变化的情况下（例如离开隧道）具有较差的可靠性，通过将camera与GPS、HPM甚至V2X组合，引入一些先验信息来动态调整相机曝光。与radar相比，camera的优势在于它能够准确捕获轮廓、纹理和颜色分布信息，这有助于在非极端环境条件下对不同目标进行分类识别。然而，ADAS车辆具有应对全天候环境和极端情况的能力要求。只有应用MSHIF的系统才能实现100%的识别准确率，多传感器的数据融合是为了避免某些传感器的错误检测，从而产生错误的运动规划。目前，通过camera对环境的感知可以获得最丰富的信息，但是，必须考虑到在某些情况下，图像可能会变得不可靠，例如进出隧道时光线突然变化，或在夜间几乎无法感知周围环境，以及极易受天气影响。

3.激光雷达

激光雷达主要包括基于扫描结构的二维激光雷达和三维激光雷达，二维激光雷达是单层结构，而三维激光雷达是多层结构。3D激光雷达更普遍地应用于自动驾驶车辆，但更昂贵。随着激光雷达的日益成熟，制造成本将逐渐下降，可预见地达到大多数汽车制造商可以接受的情况。激光雷达在白天和晚上提供实用和精确的3D感知能力。根据是否存在运动单元[68]，激光雷达可分为三种类型：飞行时间（TOF）、三角测量激光雷达和相位测距激光雷达，主流是TOF激光雷达系统。在最近的研究中，激光雷达完全能够识别和感知行人的多种运动模式和空间状态[69]。多线激光雷达通过发射器连续发射激光束，接收器将目标散射光收集为点云图像，这有助于感知和识别行人和车辆。尽管激光雷达在测量精度和三维感知能力方面优于毫米波雷达，但在雾、雪和雨等恶劣天气条件下，其性能仍不理想。摄像机、毫米波雷达和激光雷达数据的融合将消除部分信息冗余，提供可靠和有效的感知能力，但系统成本太高。

4.GPS和IMU

车载定位设备可以通过多个传感器的协作来解决和处理一些专有场景，高精度算法设计还为自动驾驶车辆提供了高精度定位。参考文献[77]认为，双天线和IMU的组合可以克服传感器偏差并获得ood精度，但系统成本太高。因此，本研究提出了一种基于GPS和IMU的低成本横向滑移角估计方法。然而，他们认为，尽管摄像机可以提供有用的角度信息，但由于其不可靠的操作，摄像机不能很好地应用于横向滑移角的测量过程。同时，当角速度变化太快时，该方案不能很好地工作。车载GPS和IMU的结合可以实现其车辆的定位。仅依靠GPS和IMU无法实现FAD车辆的车道水平定位要求。参考文献[78]，GPS和IMU用于实时跟踪移动目标。跟踪结果表明，跟踪目标和实际路线之间仍然存在无法忍受的偏差。对于L4和L5水平的AD，显然有更多的传感器需要数据融合。SLAM使用摄像机或激光雷达数据通过闭环检测校准位置，以实现车辆在定位环境中的精确定位。参考文献[79]提出为B-SLAM、GPS和IMU设置信息，并提高自主车辆定位的鲁棒性和准确性。该方法可以通过IMU信息的EMI监督聚类获得密集的FGPSS信号，这增强了鲁棒性，即使GPS信号丢失，也能实现更好的定位。此外，在参考文献[80]中，将激光雷达点云与GPS-IMU融合，并通过全卷积神经网络研究处理后的数据，以生成车辆的安全驾驶路线。同时，讨论了雷达和摄像机数据融合的可能性，以进一步提高系统的传感精度和传感范围。一般而言，将更多传感器数据融合到广告感知过程中将显著提高车辆感知能力和感知范围。多个传感器产生的计算压力也会增加。V2V、V2I和云计算的结合将降低车辆处理大量数据的计算压力。与DSRC相比，C-V2X技术具有更全面的覆盖范围、更大的带宽，并与智能手机兼容，实现了车辆与人之间的通信。

5.车辆通信

仅依靠车辆智能来处理复杂和多个自主驾驶任务是一个挑战。智能城市的建设过程产生了V2X、I2X和P2X技术。近年来，在通过通信技术连接不同道路用户方面，V2X的研究占92.14%[30]。V2X技术包括DSRC和蜂窝式V2X（C-V2X，包括LTE-V2X和5G-V2X）。其中，DSR是一种有效和成熟的通信技术，能够满足自主车辆网络通信系统的稳定性和实时性能要求。然而，与C-V2X相比，它具有更低的数据传输速率、更小的覆盖区域，并且不易干扰。此外，在高速情况下，DSRC的信道负载进一步降低[28]。参考文献[29]考虑了车辆之间的数据共享，并分析了两种情况，即数据可以完全共享，由于隐私保护，数据不能完全共享。他们认为，数据的功利使用与隐私之间的紧张关系在未来会加剧。在参考文献[81]中，DSRC用于与周围车辆通信，车辆的实时状态由车辆动力学模型和制动系统动力学确定，这防止了与其他车辆的追尾碰撞，并说明了DSRC通信的可靠性。然而，在通信干扰的情况下，AD需要安全冗余，与其他传感器的集成至关重要。在参考文献[82]中，通过在路边使用激光雷达传感器完成车辆和行人目标识别和轨迹生成。在本文中，激光雷达被放置在高地上，以获得更大的全局交通信息，DSRC利用目标定位和实时接收信息。该方法降低了广告车辆的成本，实现了数据的一次性处理和多点共享。参考文献[83]提出，LTE网络可用于与车辆的实时通信。每个车辆将其位置信息发送到相邻的基站，并接收其他附近车辆的位置信息。通过结合交通预测算法和车辆运动模型，车辆可以预测周围车辆的位置，避免交通事故的发生。然而，基于LTE的车辆通信系统不能很好地适应高速和拥挤的场景。当车速高于60km/h时，通信延迟将进一步增加，甚至无法实现实时通信。5G将很好地适应这些场景，而高带宽功能允许AD车辆共享更多传感器数据或与高精度地图相结合，以实现安全动态规划[32]。

6.多传感器融合与分析

目前，三种主要传感器组合形式用于感知MSHIF系统中的环境，包括RC、CL和RCL。结果表明，最常用的传感器组合是RC，因为这种组合可以在获得周围物体的距离信息的同时获得优异的分辨率。同样，激光雷达和摄像机的组合可以获得具有深度的图像信息，一些研究将激光雷达和毫米波雷达与摄像机相结合，以提高安全冗余度。雷达和摄像机都是全方位的经济技术，激光雷达的性能正在逐步提高，高性能产品的价格仍然很高。虽然camera可以获得目标的轮廓、纹理和颜色分布，但缺点也是显而易见的。双目和深度相机的应用允许图像数据具有深度信息，但在高精度方面还有很长的路要走。与相机和激光雷达相比，毫米波雷达具有更长的波长，可以穿透雨、雪和雾。美中不足的是，雷达更容易受到杂波干扰。激光雷达可以昼夜连续工作，除恶劣天气条件外，还可以提供高分辨率和长距离的三维数据。因此，满足各种工作条件的唯一解决方案是采用MSHIF技术。

下图给出了每个传感器的特征、优点、缺点和适用场景的另一个统计数据，其中显示了MSHIF系统在环境感知和目标识别方面的优势。毫无疑问，MSHIF技术已经取得了相对全面的优势。然而，该系统也更加复杂，在有效集成多源异构数据和繁重计算方面面临挑战。MSHIF的问题之一是数据量增加，网络结构变得更加复杂，以提高识别精度。

领域最全！多传感器融合方法综述！(Camera/Lidar/Radar等多源异构数据)（上）

自动驾驶中的多传感器融合