纯视觉or多传感器融合?自动驾驶在感知技术方面的路线之争始终热烈,两方阵营各有知名企业坐镇。
不过近期,在已经落地应用的范畴内,风向似乎转向了多传感器融合的方向,不仅多位自动驾驶公司代表公开表示不看好纯视觉方案,而且一直坚持走纯视觉路线的特斯拉,也有了「重拾雷达」的迹象。
今年6月,特斯拉向美国联邦通信委员会注册了一款新型高分辨率雷达。紧接着,在特斯拉担任人工智能和Autopilot视觉总监的Andrej Karpathy于7月14日宣布离职。此人主导了FSD Beta的研发,曾多次公开diss激光雷达,并提出「雷达只是一根拐杖,视觉系统可以把其他传感器远远甩在后面」的观点。
虽然目前特斯拉还未明确指出新注册雷达的实际用途,但马斯克曾说过,「带有高分辨率雷达的视觉方案会比纯视觉更好。如果有一个非常高分辨率的雷达,特斯拉可能会再采用雷达」。
在前不久的第九届国际智能网联汽车技术年会上,来自学术界、企业界的多名嘉宾也围绕纯视觉和多传感器融合这两大技术路线发表了深度观点,并对当前自动驾驶感知技术的最新进展与趋势进行了剖析。AMD大中华区汽车系统架构师毛广辉和清华大学的助理教授赵行更是在演讲中明确表示,「多传感器融合是自动驾驶的必然趋势」。
不同的多传感器融合路线
「单一传感器的感知方案存在着不可避免的缺陷,会在某些场景中失效造成恶劣后果,即便增加单一传感器的数量也不能从根本上解决问题」,江苏大学汽车工程研究院院长蔡英凤及其博士生张程表示。
蔡英凤及其博士生张程指出,多传感器融合主要有三个优势:第一是提升系统感知准确度,多种传感器联合互补,可避免单一传感器的局限性,最大程度发挥各种传感器的优势。
第二则是提升系统感知可靠性,多传感器融合可带来一定的信息冗余度,即使某一传感器出现故障,系统仍可正常工作;第三是增强环境适应能力,多传感器融合技术采集的信息具有明显的特征互补性,弥补了单一传感器的语义不确定性。
他们表示,目前来说,多传感器融合在硬件方面的实现并不困难,主要的困难存在于足够优化的融合算法。根据数据融合的不同阶段,多传感器融合现有后融合、前融合和深度融合三种技术路径。
在后融合架构中,每个传感器独立地输出探测数据信息,在所有的数据信息被处理后,再汇总最后的感知结果。需求算力方面,由于后融合技术仅在最后阶段对不同感知算法的结果进行最优匹配和更新,一般认为只需要100TOPS算力即可支持算法实时运行。基于后融合技术的算法特点,很多大厂都采用后融合技术来完成开源和路侧方案。
百度Apollo的环境感知系统就是典型的后融合方案,其中可见光相机、激光雷达和毫米波雷达采用各自的目标检测和跟踪算法,输出独立的目标跟踪列表,再通过GRE算法进行二分层的自由匹配,后使用卡尔曼和匈牙利算法进行相应的状态预测和更新,来得到最后的融合感知结果。
虽然后融合技术比较直观也最能快速工程化实现,但这种方案难以克服不同传感器的固有缺陷,如毫米波雷达的虚警问题、激光点云在异常天气的失真情况以及可见光相机缺乏深度信息等。
前融合算法的特点是在原始数据层面把所有的传感器信息进行直接融合,根据融合后的信息实现感知功能,虽然信息的损失最少,但是数据维度高,特征复杂,网络理解比较困难。
此外,前融合技术需要直接处理原始数据,深度网络需要联合处理异构高维数据,且数据对齐过程处理量过大,因此需要消耗大量算力,一般认为需要500-1000TOPS算力才可支持算法实时运行。安波福在CVPR2020论文提出的PointPainting方案,就是一个前融合算法的应用案例。
深度融合算法的特点是首先对传感器信息进行了压缩,之后实现信息融合,其最大优势是在融合过程中会不断的进行特征交互,能够最大限度利用多模态互补信息,对复杂交通环境和恶劣天气下的适应性较强。
需求算力方面,一般认为需要300-400TOPS算力即可支持深度融合算法实时运行。德国乌尔姆大学曾针对雨雾天气提出一种基于深度融合的目标检测网络,清华大学此前也提出一个采用深度融合方案3D检测框架FUTR3D。
蔡英凤及其博士生张程表示,深度融合技术特点介于前融合与后融合之间,一方面保留了前融合的互补信息优势,另一方面也保留了后融合算力消耗较低的优势。因此,他们基于深度融合算法,提出TransFusion融合架构和记忆K-mean++聚类的特征匹配方法,并实现97%的多目标平均检测率。
需要注意的是,实现深度融合算法有一个前提条件,即传感器的数据一定要可靠,信息才能融合。那么,当可见光相机、毫米波雷达和激光雷达的数据出现矛盾时,信息要怎么融合,以谁为主、以谁为辅?
对此,张程称,他们做深度融合时,利用特征的互补性克服了这个弊端,即在前端过程中对特征级做拼接,通过互补特征信息来检测原先使用后融合方法检测不到的目标,因此最终输出的检测结果是统一的。
「仍要以视觉传感器为主」
在清华大学交叉信息研究院的助理教授赵行看来,多传感器融合是必然的自动驾驶技术方案,它能够真正的保证自动驾驶的安全性,而践行该方案时却应当以视觉传感器为主。
首先,相机传感器能够提供丰富的语义信息,这是激光雷达或者毫米波雷达所不能做到的;其次,相机的可拓展性更强,容易被适配到各种车型上;最后,从时间线上来说,相机比其他传感器多几个数量级的训练数据,且具有价格上的优势。
说到以视觉为主的自动驾驶,深度信息、目标三维尺寸等在2D空间中是无法获得的,因此3D感知是自动驾驶系统对周围环境作出正确判断的关键视觉算法,而且,3D空间里也更容易实现多传感器融合。
典型的3D物体检测方案是在3D点云上用物体检测方法实现的,但该方案存在两个问题,一方面它是两阶段的,深度估计过程需要额外激光点云进行监督,另一方面这种两阶段的方案容易累计误差。赵行称,其最新开发的DETR3D算法能够避免以上的问题。
据介绍,DETR3D的物体检测是发生在3D空间里的,但观测是从2D图像出发的。由于过程中没有重建3D空间,DETR3D算法非常省内存,相较Transformer可以省下一个数量级以上的内存需求。此外,DETR3D避免了后处理,是高效且高准确率的物体检测模型。
赵行还谈到,目前不同传感器组合采用的融合模型并没有统一,所以他希望设计出一种可以应用于各类传感器组合的通用框架。依托于DETR3D算法,赵行开发出了以视觉为主的FUTR3D模型,有助于实现低成本的自动驾驶方案。随后,其根据该框架进一步完成Tracking,实现每一帧图像的3D物体检测,又通过3DTranstormer框架最终完成持续且完整的物体检测。
基于上述的研究,赵行强调,视觉最大的问题还是对几何以及深度估计不准,而激光雷达可以很好地解决这方面的问题,未来激光雷达会成为基础能力,自动驾驶场景中的语义则需要通过视觉来完成,因此自动驾驶最终应是以视觉为主的多传感器融合方案。
现阶段的三大挑战
AMD大中华区汽车系统架构师毛广辉虽然看好多传感器融合技术,但他同时也指出,目前传感器融合仍面临一些挑战,包括安全性、多样性和效率三方面。
安全性体现在两个点,第一是低延迟,当前的系统需要更快的处理及更准确的反应,在高速道路上,一秒或大于五十毫秒的延迟就可能产生十几米的制动距离,这对驾驶员来说是致命的;第二是冗余性,L3以上的自动驾驶系统需要DDT反馈,还要应对数据断路的失效。
从多样性角度来讲,多传感器需要解决IOs、传输协议、数据格式和时钟等带来的多样性问题,多处理器需要应对计算能力、热量、任务调度和互连等问题,随之而来的就是效率问题。效率是因多路输入输出和大量数据的带宽而引起的瓶颈,需要高吞吐来解决。
面对上述这些挑战,企业端在试图给出解决方案。据悉,AMD开发了可用于L2-L4自动驾驶场景的自适应平台和前端解决方案,而博世正在研发L2++高阶智能驾驶系统,包括动态和静态3D环境下的融合感知。
据介绍,博世将在该系统中用7个针孔相机、4个鱼眼相机做近距离感知,用4个角雷达建立前向雷达,同时会根据客户需要选装一个或多个激光雷达,还会装配800万像素的DMS相机。
除此之外,博世还在开发下一代融合感知方法,且倾向于采用深度融合的路线。博世智能驾驶与控制事业部总监吴颖谦表示,「多传感器感知融合基本上是高阶自动驾驶的不二选择,尤其当模型算法的能力和数据积累、数据闭环能力不够好的时候,多传感器更是不可缺少的」。
车载雷达涌入新力量
多传感器融合的发展离不开车载雷达的进步,4D毫米波雷达和补盲激光雷达的出现为当前的自动驾驶系统提供了补充感知力。
在L3以上级别的高阶自动驾驶场景中,传统毫米波雷达存在对静态目标成像的天然短板。而4D毫米波雷达在延续传统毫米波雷达优势的同时,增强了俯仰分辨率,能够形成点云图像,可以适应摄像头和激光雷达以光学为基础的自动驾驶主传感器数据呈现,并增强系统点云前融合的鲁棒性,从而实现更高精度的目标检测。
不过,并不是所有感知功能都需要用到4D毫米波雷达。在目标级别下传统ADAS雷达的功能里,只有前碰撞预警系统和自动紧急制动系统需要用到4D点云数据来抑制高度信息的误报警或误制动。
此外,南京楚航科技有限公司的CEO兼创始人楚詠焱提到,4D毫米波雷达在实际工程以及落地时还面临点传输的实时性、安全性以及质量管控和散热等问题。
除点云成像外,侧向补盲同样是自动驾驶感知环节中的重要部分。据统计,90%以上的交通事故都是由于近距离感知盲区而造成的。而且,在停车NGP等长尾场景中,自动驾驶系统还存在许多实际的感知难点,如逆光和强光下瞬盲、无法识别车道线以及未进行训练的障碍物等。
补盲激光雷达能够支持结构化道路NGP、城市AGP、停车NPA、高速TJP/HWP以及记忆泊车等高阶辅助驾驶功能,可应用于L2到L4的自动驾驶场景中。
据北京亮道智能有限公司产品战略总监王石峰介绍,侧向补盲激光雷达产品上车的要求并不低,需满足专为近场探测设计、超大视场角、外观纤巧灵活以及高性能低成本这四点。
为此,他们采用了纯固态Flash的技术方案和软硬件一体的设计,并在激光雷达中做了两个横纵坐标,基于水平和垂直FOA两个维度来提升产品整体性能。王石峰表示,对比其他技术路径,Flash激光雷达可以通过光学模组设计提供超大视场角,且内部结构简洁,无任何运动部件,尺寸小巧,便于集成和全自动化产线生产,性价比高。
(亮道智能侧向激光雷达产品示意图)
可以看到,国内近年来的雷达技术正在迅速发展。但目前,世界主流应用的雷达产品还是来自于博世、海拉等,国内雷达产品与之相比尚有差距。对此,北京行易道科技的CEO赵捷表示,雷达技术的来源都是相近的,国内外雷达产品间的差距是在产品可靠性和一致性上,于国内的雷达厂商而言,最大的瓶颈是雷达如何嵌入到ADAS系统里,真正实现技能上的优势。
在纯视觉感知方案备受推崇的同时,多传感器融合感知方案还在不断更新,相应的痛点也似乎正在被逐步解决。两个派系的Battle还在继续,不过若从近期的实际落地情况来看,出于对安全冗余的考量,多传感器融合已成为高阶自动驾驶的必选项。而「纯视觉」一派,似乎望向的是自动驾驶时间轴上更远的彼端。