毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项

简介: 毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项


作者 / 曹锦今年3月,OpenAI发布了多模态预训练大模型GPT-4,其带来的飞跃式表现在AI行业内外掀起了轩然大波。在近一个月后,毫末智行(以下简称「毫末」)趁势推出了DriveGPT雪湖·海若,由于其概念定义、技术难度,应用挑战等问题,此次发布引发了许多讨论。

对此,毫末智行技术副总裁艾锐直言:「相不相信都没关系,关键要看持续的效果。」

针对大模型的热潮和DriveGPT的意义,「首席智行官」于近日对艾锐进行了一场对话,对其中问题进行释疑和解析。

DriveGPT并非临时起意

早在ChatGPT大火之前,毫末就一直在建设认知大模型。也就是说,毫末已经认识到当时技术路线的短板,并笃定自动驾驶需要一套全新的技术范式。

「面对一些认知层面的难题,我们先尝试运用了一些简单的Transformer模型来求解决策问题,但效果未达预期。」艾锐说道。

例如,毫末曾利用标准的监督学习方式,直接拟合人的驾驶轨迹进行训练。但后来发现,该方式虽然也产生了一些成果,但可行的场景受限,长久来看很难得到大范围扩展,天花板较低。

「而当ChatGPT出现后,我们从底层技术的角度仔细研究了它对自然语言问题的解法,然后发现其技术架构,实际上和自动驾驶认知要解决的问题非常像,于是便决定采用这条路径。」

作为一家每季度都要举办AI DAY的公司来说,毫末智行可以说是迭代速度内卷的代表之一。从「雪湖」到「五个大模型」再到DriveGPT,毫末的每次AI DAY几乎都不是「凑数」的,而且一直有较大的升级。艾锐称,这是因为,在自动驾驶进入洗牌期时,「不提前做起来,可能就会完蛋。

「你跟不上(新的思路),不代表别人跟不上,一旦有人能跟上,整个故事就不一样了。」艾锐认为,不能把宝押在「假设所有人都做不出来」。虽然他不敢说DriveGPT是最终解,但显然不能干等着别人验证成功。

「如果不提前做足准备,一心想等别人的成功案例,对不起,那你两年之后未必还能活着。」

自动驾驶与「生成式预训练」

虽然如今大模型来势汹涌,但究竟如何定义大模型,国际上仍无定论。而对于艾锐来说,大模型的核心能力,就是要拥有足够高的「数据规模-基础能力」转换效率,这也是其战略意义。「目前有些专家也认为,其实包括ChatGPT在内的大模型,距离通用人工智能还很远。但是从毫末的角度来说,我们追求的就是能实现质变的方法,并且要匹配战略优势,这是我们新路线最关键的一点。」

艾锐介绍称,DriveGPT是一种标准的生成式预训练操作方式,与此前毫末的五个大模型相比,是两种完全不同的路径。它不仅能将五个大模型的功能融合在一起,还使训练效率得到跃升。

据了解,DriveGPT采用decoder only的transformer结构、通过生成式(GPT)进行预训练,首先使用海量老司机的驾驶行为进行预训练,再引入司机接管数据和人工标注数据进行强化学习,筛选最佳驾驶决策。

从功能上看,这套方法能够根据10秒内获得的图片,预测生成未来2-3秒后的车辆感知结果,例如周边车辆的变道、行人的下一步动作等等。在生成这些结果的同时,也能够提供驾驶决策。

此前毫末数据智能科学家贺翔提过:「在开车时,周围的环境无时无刻不在变化。当人在开车时,不是基于过去的情况来做驾驶决策的,而是要基于以前的经验,来实时预测下一秒钟可能出现的情况,这种预判就叫做生成。」

同时,DriveGPT也需要以海量的数据进行预训练,这相当于有数万个司机,在用他们的驾驶行为来训练机器如何生成驾驶策略。

对于艾锐来说,数据最重要的标签是「分布」——「不是说总量多就行,最关键的是什么你都得有。」

在这一点上,他认为,AI在很多领域上的逻辑实际上是一致的。比如有人为了「净化」数据,曾将语料库中一些价值取向不好的文字和语料都删掉了,结果训练出来的语言模型整体效果反而下降了「这对自动驾驶也是一样,如果数据分布不全,那系统对世界的认识就是有缺陷的。

「大模型上车」

需要整个行业发展成熟

虽然毫末在新的技术范式上要争分夺秒地进行验证,但有些理想化的长远目标,却还需要观望——例如,大模型上车。

这既不是短期内可以规划的目标,也不是一家公司能够推进的事情。「现在,各种大模型,都不太可能直接上车。」艾锐直言,现在业界也有人在尝试大模型上车,但差得还比较远。

这其中最大的阻碍,就是算力需求——大模型往往需要上千块GPU进行训练,推理成本也非常高,数十亿甚至上千亿参数在车端是不可能实现的。

毫末曾经提出,从训练大模型的角度,传统的数据存在90%以上简易、重复的场景数据,从辅助驾驶的应用角度来看,后期或许可以减少这部分数据,而采集更多的高价值数据,以此降低训练成本

但即便如此,也仅仅是节省了云端成本,还是没办法上车。大模型上车首先需要在保持模型效果的前提下大幅度降低参数规模,同时也需要在芯片设计上做大胆创新,提升芯片运行大模型的计算效率、并降低芯片成本。

「现在车上的模型容量,与大模型容量相差至少四个数量级,所以必须要缩小一千倍,才有可能直接上车。」艾锐说道。

虽然毫末也被传出在与一些芯片公司在合作,但目的并非是大模型上车,而是提升自身自动驾驶产品的性价比。「现在大部分的芯片对Transformer的小模型支持得都不够好,就更别说支持大模型了。」艾锐认为现在谈大模型上车为时尚早。

目前,毫末的做法是,用一个大模型去训练真正上车的小模型。

「大模型相当于可以了解任何事情,如果再用小模型去拟合它,就像是老师带着一个学生,这会比直接从原始数据中去训练更简单,因为它模型的很多参数可以被直接借鉴。」艾锐介绍道。

同时他也认为,类似矿山,园区等低速领域的自动驾驶,对实时性要求较低,即便大模型不上车,也可以从云端直接控制这些车辆,这会产生巨大的变化。目前,毫末针对其物流配送小车,就在做类似的研究。

总体看来,大模型上车的解法和时间仍是未知,艾锐预测或许在3-5年后可以实现,但这需要整个行业的发展成熟,而不是由某一家企业单打独斗。

我认为现在最重要的,是把大模型搞好。因为它本身还未达到我们预期的状态,更没法想『上车』的问题。目前还有很多人在研究大模型的工程优化,大家可以分头行事。」艾锐认为,大模型上车虽然很难,但一旦做成了收益极高,而高收益的事情就总会有人尝试。  

城市NOH与重感知技术

关于已开始在北京、上海,保定三地运行的城市NOH,艾锐提供了两条思路,首先,毫末想给用户更大的可用范围,而非局部路线;其次,在重感知路线中,将会只使用SD地图——「预计我们内部在今年年底就会使用SD地图,但要推送得看测试情况。

而毫末的重感知技术,同样是利用大模型来推进。对此,艾锐还是做了个拟人的比喻:「如果你只有一个导航地图,那就意味着你需要理解眼前的世界。因此,模型也需要像人一样,它需要理解中国的复杂道路。」

他表示,既然之前通过地图已经得到了拓扑结构,现在就需要去总结知识。「反向来说,就像你自己修了那些路一样,你得知道路是怎么修的,为什么修成那样,才能仅凭传感器数据就能推测出来后面道路的走向,这仅仅依靠小模型是做不好的。」

如今,毫末在DriveGPT上付出了极大成本,但其产品面对的主要市场还是20万元左右的中低端车型。对此,艾锐解释称,在顾及商业化考虑时,既要盯着眼下,也要兼顾未来。确实在简单场景中,不使用DriveGPT也可以保证效果。但是竞争的路很远,毫末的打法是,宁可先付出一些技术成本,但要保证方法可以扩展,走到最后的。

「我们每次在AI Day上都会放出最新的进展效果,有没有用,大家届时就能看到。」他说道。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 算法
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型引领6G革命!最新综述探索未来通信方式:九大方向,覆盖多模态、RAG等
随着科技发展,大模型在6G网络中展现出革命性潜力。近日,arXiv发布综述论文《大模型在电信领域的全面调查》,探讨了大模型在通信领域的应用,涵盖生成、分类、优化、预测等方向,同时指出了数据隐私、计算资源及模型可解释性等挑战。论文链接:https://arxiv.org/abs/2405.10825
38 5
|
3月前
|
机器学习/深度学习 数据采集 算法
深度学习之思维控制的设备
基于深度学习的思维控制设备是一种创新技术,旨在通过解析脑电图(EEG)等脑信号,使用户能够通过思维直接控制设备。这一领域结合了脑-机接口(BCI)技术和深度学习,广泛应用于医疗、游戏和辅助设备等领域。
24 2
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习之可解释的决策系统
深度学习的可解释决策系统是一种集成深度学习模型和解释技术的系统,旨在提高决策过程的透明度和可理解性。这种系统能够在保持深度学习模型强大预测能力的同时,让用户和开发者了解其决策背后的逻辑和依据。
41 0
|
5月前
|
计算机视觉
CVPR 24:ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!
【7月更文挑战第1天】ETH Zurich团队提出了重新定义小样本3D点云分割任务,聚焦于前景泄漏和稀疏点分布问题。他们提出COSeg方法,利用类特定多原型相关性(CMC)和超相关性增强(HCA),以解决现有方法的局限。此外,通过基础原型校准(BPC)改善模型对基础类的敏感性。实验显示COSeg在性能上有显著提升,但其泛化能力和计算需求仍待优化,且遮挡和噪声等挑战仍有待解决。[论文链接](https://arxiv.org/abs/2403.00592)
80 13
|
7月前
|
人工智能 自然语言处理 自动驾驶
大模型领域急需建立可解释AI理论
【1月更文挑战第21天】大模型领域急需建立可解释AI理论
58 2
大模型领域急需建立可解释AI理论
|
机器学习/深度学习 传感器 编解码
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
|
机器学习/深度学习 传感器 自然语言处理
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
179 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
185 0
下一篇
DataWorks