「纯视觉」与「多传感器」路线之争背后，久未解决的3大难题-阿里云开发者社区

从未间断的自动驾驶技术路线之争，近期似乎又上了新的高度。

丰田旗下的Woven Planet明确加入「纯视觉阵营」，瞬间成为了自动驾驶领域的爆炸性新闻。不仅因为丰田全球销量第一的身份，也因为其作为特斯拉的早期核心投资者，丰田此前表露出来的身份一直都是激光雷达拥趸。

2017年，丰田TRI部门基于雷克萨斯LS600h改造自动驾驶原型车，就已搭载了7颗激光雷达。2021年，丰田Mirai和雷克萨斯LS采用的Advanced Drive驾驶辅助系统，也配备了3颗激光雷达。

对此，丰田方面的解释指向了当前自动驾驶最大的两个难题——降低成本，扩大技术规模。据悉，Woven Planet使用的摄像头比以前使用的传感器便宜90%，而且可以很容易地安装在乘用车上。

不过，这也并不意味着纯视觉方案将成为高阶自动驾驶的主流方案。从目前市场上的智能车型规划来看，一颗激光雷达稀疏平常，2-4颗也已上车。业内对于两种路线的争论虽远不能分胜负，但也在持续揭露出这两种方案亟待解决的问题。

一、降本与量产难题

实际上，纯视觉和多传感器融合方案，已经成为当前自动驾驶发展道路上的一大分歧。Waymo、Cruise、百度、华为、滴滴、小马智行等公司都在采用以激光雷达+摄像头为主的多传感器融合方案，而坚定宣称走纯视觉路线的知名公司仅有特斯拉和丰田。

清华大学动力工程与工程热物理博士张抗抗表示，纯视觉方案的最主要优势是成本低，而多传感器融合方案可以更好地处理corner case，但对算力要求非常高，也有非常高的硬件成本。不过，即便是有一天视觉算法达到了人类驾驶员的水平，增加激光雷达仍可以进一步降低事故率，要考虑的仅仅只是成本收益问题。

但现实情况是，激光雷达想要大规模装车，成本问题首当其冲。以大疆Livox Horizon激光雷达为例，采用6个成本相对较低的905nm激光发射器，通过非往复式扫描方案，做到了等效100线左右的水平，大幅缩减激光发射器和接收器的数量，但上市时售价仍达到了海外800美元/国内6499元人民币（目前官网售价已调整至海外1299美元/国内7199元人民币，具体原因有待核实）。

逆向工程及成本分析公司Systemplus Consulting曾对这款激光雷达做过测算分拆，表示该雷达的光学模组成本占比达到54%，而发射模块、接收模块成本占比分别在7%和4%，其他成本占比较大是MCU模块。

可见，即使通过扫描技术降低激光发射器的线束需求，其对应的光学模块成本占比依然是最高。而激光雷达核心的MEMS微镜、激光发射器等上游元器件主要靠进口，这部分技术被国外企业垄断，短时间内难以实现降本。

长江证券研究所的报告指出，MEMS半固态激光雷达供应链最为成熟，产品售价在500-1000美元。Flash激光雷达在消费电子领域产品有较高成熟度，但在车载领域需要解决高能量发射的痛点，目前价格相对MEMS较高，远期有潜力下探到500美元以下。

至于未来，华为此前提出要将激光雷达成本降低至200美元，已经当前公开发言中相当低的数字。国内激光雷达供应商探维科技CEO王世玮，在近期采访时也给出了他的最新预测：激光雷达未来有机会做到2000-3000元人民币，这也是车企可以接受的一个范围。

另一方面，张抗抗在分析中，对华为的200美元说法，提出了5个方面的猜想：1、量产导致成本的降低；2、技术的进步促使了成本降低；3、针对应用场景开发特定性能的产品以降低成本；4、提供更好的系统开发环境以降低主机厂的研发成本，相当于变相降低了激光雷达成本；5、华为提供整套方案，激光雷达让出的利润可在整套方案中挣回来，也相当于降低了成本。

但从目前的情况来看，降本的预期可能还很遥远。

苏州岭纬智能科技有限公司的一位客户经理透露：如果有效探测距要达到200m以上，大概率要用到1550nm激光发射器，其价格在100美元左右。而1个Livox Horizon激光雷达，就用到了6个激光发射器，还是成本更低的905nm。

然而，1550nm激光发射器已成未来的应用方向。目前的车规级激光发射器一般有905nm和1550nm两类。但因为905nm激光可能伤害人眼，为满足Class-A安全要求只能降低功率，探测距离相对有限。而1550nm的激光在到达视网膜之前基本都会被晶状体和角膜吸收，可采用更大的发射功率，穿透能力、探测距离更加出色。

相比单车就要带有2-4颗激光雷达的多传感器融合方案，只依靠摄像头的纯视觉方案成本优势非常明显。根据半导体公司安森美公布的数据，L2级自动驾驶每辆车摄像头总成本为40美元，L3级自动驾驶每辆车摄像头成本也只是185美元。

这不仅对量产车制造成本影响较小，也在相应程度上解决了只能应用在中高端车型上的问题。Woven Planet也将他们已确定要走的纯视觉方案称为「突破」，希望能够有助于降低成本，更好地扩展丰田汽车自动驾驶技术。

二、算法迭代难题

除了成本以外，纯视觉方案和多传感器融合方案也有着逻辑上的不同，不能仅对比传感器性能和算力。

对于纯视觉方案来说，研发压力主要在于软件算法。摄像头可以比作人眼，可以采集带有最丰富和完整的画面信息，但能解析多少要靠经过学习、优化、筛选后的AI模型，进行高效可靠的推导。即使在硬件相同的情况下，也能依靠软件不断迭代来提升能力，最终达到人眼的水平，甚至超越人眼的水平。

激光雷达的能力与硬件性能高度相关，核心原理是运用回波时间测量法，由激光二极管发出红外脉冲光，脉冲光照射到物体表面后发射回一部分光束，光束被激光雷达上搭载的光子探测器接收并记录，通过计算发射和探测的时间差，得出目标物表面与激光雷达探测器之间的距离。

对于激光雷达来说，点云数量和最终能够得到多少细节有着直接关系，如大疆Livox Horizon点云数据率可以达到240000点/每秒。但也因为点云数量异常庞大，需要极高的算力支持。目前，蔚来、智己等带激光雷达的多传感器融合方案，算力已经高达1000+TOPS。

此外，激光雷达因为不具备色彩、文字等完整的环境感知能力，实际并不能作为单一的传感器来使用，不能当做摄像头的完全冗余。而且，其对于环境的适应能力，也不如宣传时来的夸张，玻璃、雨雾、扬尘、飘动的垃圾等都有可能影响激光传递，进而影响最终的感知结果。

当然，目前视觉方案的感知能力也有局限，但却是高度冗余的信号，最终的上限也可以接近甚至超越人眼。不过，纯视觉路线也更为漫长，需要积累足够多的数据和情景，不断进行算法迭代。

特斯拉的AI高级总监Andrej Karpathy早些时候也在公开演讲里表示：「纯视觉能够精准感知深度、速度、加速度信息，实现纯视觉是一件困难的事情，还需要大量的数据。」

Andrej Karpathy提及的数据，也是困扰纯视觉方案迭代，以及影响自动驾驶公司和车企路线选择的难题。纯视觉系统辨别物体高度依赖样本的训练，难以辨别样本未覆盖的物体，这也导致其在初期应对corner case的能力有限。而且，无论单目还是多目方案，都存在距离检测难度大的问题，静止物体的识别率相对较低。

早期以视觉为主的驾驶辅助方案，实际应用时都遇到过大量难以招架的场景，甚至还引发了数起轰动性事故，包括特斯拉将侧翻倒地的白色卡车当成天空、未识别出正在转弯的白色半挂卡车；蔚来ES8撞击施工作业车；小鹏P7未识别出侧翻轿车、未减速撞向60km/h正常行驶的空载挂车等。

为此，特斯拉提出的解决方案是「影子模式」：通过量产车辆持续收集外部环境与驾驶者的行为，与自身策略对比，如果驾驶者实际操作与其判断有出入，数据就会上传至特斯拉云端，并对算法进行修正训练。目前，特斯拉车端搭载的HW3.0芯片具备每秒处理2000多帧画面的能力。

Andrej Karpathy透露，完成7轮影子模式的循环验证之后，特斯拉一共处理了100万条10秒短视频，这些视频全部来自特斯拉车身拍摄的画面。同时，特斯拉为60亿个物体做了标签化处理，同时包含精准的深度和速度信息。这些数据一共有1.5PB。

然而，特斯拉的解决方案并不容易复制。其得以实施影子模式，一方面依托于出色的量产车销量，另一方面也是因为其每款车均预装了全部的驾驶辅助硬件。这对于市场规模不够的造车新势力、或解决方案供应商来说，都存在很大挑战。

地平线智能驾驶产品线产品规划与市场高级总监吕鹏还向Auto Byte指出了另一个关键问题：「目前大部分车企倾向于选择带激光雷达的方案，其原因在于纯视觉方案走到量产落地需要花更长的时间，而现在竞争主要是加速商业化落地，速度至关重要。」

Woven Planet的想法与特斯拉类似，其工程副总裁Michael Benisch表示：「我们可以释放丰田和大型汽车制造商所拥有的优势，即获取大量数据。」他们认为，使用大量汽车收集不同的驾驶数据，对于开发一个强大的自动驾驶汽车系统十分重要，但使用昂贵的传感器测试自动驾驶汽车成本太高，而且无法进行规模化测试。三、传感器冗余和融合难题在纯视觉方案和带激光雷达的传感器融合方案之间，冗余也是被谈及较多的问题。纯视觉方案的核心在于读懂拍到的东西到底是什么，基于摄像头收集到的仅是2D数据，需要进行图像分割、物体分类、目标跟踪、世界模型、多传感器融合、在线标定、视觉SLAM、ISP等一系列步骤进行匹配与深度学习，分析图像中的每个像素，将其还原成真实的3D场景。但是，纯视觉方案的能力与数据量高度相关，目前仍存在漏检无法完全应对corner case的情况。因此，有部分企业提出了加入激光雷达来解决测距问题，给摄像头做部分冗余。这种初衷是利用各传感器的优势，如视觉的图像信息+雷达的速度和位置信息。不过在实现这一目标的过程中，也出现了新的难题，不同传感器之间要如何融合？是否只保留优势信息，还是不同传感器之间也要相互交叉验证？相比之下，仅有单一类型传感器的纯视觉方案，这方面的压力要小得多。马斯克近期在微博讨论自动驾驶汽车不同的感知方案时也表示，汽车上的纯视觉方案，尤其是在使用显式光子计算时，比雷达+视觉的组合要好很多。后者有太多的不确定性——当雷达和视觉感知不一致时，不清楚该相信哪个。王世玮也对其选择纯视觉路线的动机做出了进一步分析：「多传感器融合确实是比较复杂、容易出问题的地方，摄像头和雷达独立去做采集和感知，决策过程中还要做取舍和判断，如果规则设定或者系统架构不合理，也有可能会出现1+1＜1的情况。」目前，多传感器主要有三种融合架构，但均存在优劣势：

集中式融合架构：将各传感器获得的原始数据直接送到中央处理器进行融合处理，数据处理精度高，算法相对灵活，但各传感器相互独立，数据直接流向融合中心，缺乏必要的联系，融合中心的计算和信息负载过重，容错性过差。

分布式融合架构：将各传感器获得的数据进行局部融合处理，然后将结果送入中央处理器，最终获得目标结果。每个传感器均具备估计全局信息的能力，可靠性、容错性高，对通讯带宽要求低。但中央处理器只能获得各个传感器处理后的对象数据，无法访问原始数据。因为传感器自身带有处理器，也导致体积大、功耗高。

混合式架构：集中式和分布式的混合应用，部分传感器带处理器，不带传感器的传输到中央处理器，兼顾集中式融合和分布式融合的优点，稳定性较强，但同时也面临缺乏部分原始信息，对通信带宽、计算能力要求高等问题。

除了融合架构之外，多传感器方案还要面临信息融合时的级别分类：前融合包括数据集融合与特征级融合，后融合是目标级或决策级融合。不过，由于原始数据噪声大、信息利用率低以及多模态传感器的无对准，达到相当好的性能并非易事。目前，该路线也还存在诸多挑战：未建立统一的融合理论和有效广义融合模型及算法；对数据融合的具体方法的研究也处于初步阶段；融合系统中的容错性或鲁棒性问题也待解决。但在当前阶段，增加激光雷达做部分信息的冗余，仍是解决视觉技术不够成熟的一种策略。吕鹏也向Auto Byte表示：「在视觉技术还不够成熟的时候，激光雷达是可以被用来『补短板』，多一个信息维度的输入保证安全。」黑芝麻智能应用工程总监王九旭也提到：「现阶段，激光雷达确实是一个能有效补齐摄像头、毫米波雷达不足的硬件。在一定算法基础上、足够算力支撑下，借助激光雷达可以加速自动驾驶推出时间。」从目前的商业化方案来看，有竞争自动驾驶量产节点意图的车企，普遍都采用了带有激光雷达的多传感器方案。但细分下来，这些在宣传时均少不了以激光雷达作为亮点的车企中，也不乏一些仅以激光雷达做信息冗余，实际在走纯视觉路线的车企。其中，比较有代表性的是集度和智己。前者的系统原型是百度纯视觉方案ANP，后者采用的Momenta技术也是纯视觉路线，而且无激光雷达的L7测试车已在去年进行过上海市区的公开路测。根据集度公布的信息来看，其是做出了纯视觉和雷达两套完全独立的系统，以实现互为备份、相互补充。与之类似的还有Mobileye，以纯视觉子系统为主，雷达子系统主要在紧急避险时用作安全冗余。而采用这种方案的目的，也是规避纯视觉方案依赖数据且需要大量时间走向成熟的问题。对于特斯拉和丰田来说，庞大的量产车规模是被他们押注纯视觉方案的关键。但是在目前的技术环境下，纯视觉和多传感器融合方案，并不一定是相互对立的关系。至于未来的结果如何，吕鹏与Auto Byte交流时提到了至关重要的一点：「不管是纯视觉、激光雷达，还是别的技术路线，最终在市场上胜出的自动驾驶解决方案，看的还是用户体验。如果纯视觉方案和带激光雷达方案的安全性与用户体验相当，那么市场自然会偏向纯视觉的方向，毕竟这其中直接涉及到整车的成本，但这也是一个循序渐进的过程。」参考链接：https://view.inews.qq.com/a/20210427A044EM00https://www.doc88.com/p-99639058019672.html?r=1https://zhuanlan.zhihu.com/p/470588787https://www.zhihu.com/question/433267289/answer/1857116584https://zhuanlan.zhihu.com/p/161561792?ivk_sa=1024320u

「纯视觉」与「多传感器」路线之争背后，久未解决的3大难题

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件