毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项

简介: 毫末智行艾锐谈自动驾驶大模型:全新范式是「生存」必选项


作者 / 曹锦今年3月,OpenAI发布了多模态预训练大模型GPT-4,其带来的飞跃式表现在AI行业内外掀起了轩然大波。在近一个月后,毫末智行(以下简称「毫末」)趁势推出了DriveGPT雪湖·海若,由于其概念定义、技术难度,应用挑战等问题,此次发布引发了许多讨论。

对此,毫末智行技术副总裁艾锐直言:「相不相信都没关系,关键要看持续的效果。」

针对大模型的热潮和DriveGPT的意义,「首席智行官」于近日对艾锐进行了一场对话,对其中问题进行释疑和解析。

DriveGPT并非临时起意

早在ChatGPT大火之前,毫末就一直在建设认知大模型。也就是说,毫末已经认识到当时技术路线的短板,并笃定自动驾驶需要一套全新的技术范式。

「面对一些认知层面的难题,我们先尝试运用了一些简单的Transformer模型来求解决策问题,但效果未达预期。」艾锐说道。

例如,毫末曾利用标准的监督学习方式,直接拟合人的驾驶轨迹进行训练。但后来发现,该方式虽然也产生了一些成果,但可行的场景受限,长久来看很难得到大范围扩展,天花板较低。

「而当ChatGPT出现后,我们从底层技术的角度仔细研究了它对自然语言问题的解法,然后发现其技术架构,实际上和自动驾驶认知要解决的问题非常像,于是便决定采用这条路径。」

作为一家每季度都要举办AI DAY的公司来说,毫末智行可以说是迭代速度内卷的代表之一。从「雪湖」到「五个大模型」再到DriveGPT,毫末的每次AI DAY几乎都不是「凑数」的,而且一直有较大的升级。艾锐称,这是因为,在自动驾驶进入洗牌期时,「不提前做起来,可能就会完蛋。

「你跟不上(新的思路),不代表别人跟不上,一旦有人能跟上,整个故事就不一样了。」艾锐认为,不能把宝押在「假设所有人都做不出来」。虽然他不敢说DriveGPT是最终解,但显然不能干等着别人验证成功。

「如果不提前做足准备,一心想等别人的成功案例,对不起,那你两年之后未必还能活着。」

自动驾驶与「生成式预训练」

虽然如今大模型来势汹涌,但究竟如何定义大模型,国际上仍无定论。而对于艾锐来说,大模型的核心能力,就是要拥有足够高的「数据规模-基础能力」转换效率,这也是其战略意义。「目前有些专家也认为,其实包括ChatGPT在内的大模型,距离通用人工智能还很远。但是从毫末的角度来说,我们追求的就是能实现质变的方法,并且要匹配战略优势,这是我们新路线最关键的一点。」

艾锐介绍称,DriveGPT是一种标准的生成式预训练操作方式,与此前毫末的五个大模型相比,是两种完全不同的路径。它不仅能将五个大模型的功能融合在一起,还使训练效率得到跃升。

据了解,DriveGPT采用decoder only的transformer结构、通过生成式(GPT)进行预训练,首先使用海量老司机的驾驶行为进行预训练,再引入司机接管数据和人工标注数据进行强化学习,筛选最佳驾驶决策。

从功能上看,这套方法能够根据10秒内获得的图片,预测生成未来2-3秒后的车辆感知结果,例如周边车辆的变道、行人的下一步动作等等。在生成这些结果的同时,也能够提供驾驶决策。

此前毫末数据智能科学家贺翔提过:「在开车时,周围的环境无时无刻不在变化。当人在开车时,不是基于过去的情况来做驾驶决策的,而是要基于以前的经验,来实时预测下一秒钟可能出现的情况,这种预判就叫做生成。」

同时,DriveGPT也需要以海量的数据进行预训练,这相当于有数万个司机,在用他们的驾驶行为来训练机器如何生成驾驶策略。

对于艾锐来说,数据最重要的标签是「分布」——「不是说总量多就行,最关键的是什么你都得有。」

在这一点上,他认为,AI在很多领域上的逻辑实际上是一致的。比如有人为了「净化」数据,曾将语料库中一些价值取向不好的文字和语料都删掉了,结果训练出来的语言模型整体效果反而下降了「这对自动驾驶也是一样,如果数据分布不全,那系统对世界的认识就是有缺陷的。

「大模型上车」

需要整个行业发展成熟

虽然毫末在新的技术范式上要争分夺秒地进行验证,但有些理想化的长远目标,却还需要观望——例如,大模型上车。

这既不是短期内可以规划的目标,也不是一家公司能够推进的事情。「现在,各种大模型,都不太可能直接上车。」艾锐直言,现在业界也有人在尝试大模型上车,但差得还比较远。

这其中最大的阻碍,就是算力需求——大模型往往需要上千块GPU进行训练,推理成本也非常高,数十亿甚至上千亿参数在车端是不可能实现的。

毫末曾经提出,从训练大模型的角度,传统的数据存在90%以上简易、重复的场景数据,从辅助驾驶的应用角度来看,后期或许可以减少这部分数据,而采集更多的高价值数据,以此降低训练成本

但即便如此,也仅仅是节省了云端成本,还是没办法上车。大模型上车首先需要在保持模型效果的前提下大幅度降低参数规模,同时也需要在芯片设计上做大胆创新,提升芯片运行大模型的计算效率、并降低芯片成本。

「现在车上的模型容量,与大模型容量相差至少四个数量级,所以必须要缩小一千倍,才有可能直接上车。」艾锐说道。

虽然毫末也被传出在与一些芯片公司在合作,但目的并非是大模型上车,而是提升自身自动驾驶产品的性价比。「现在大部分的芯片对Transformer的小模型支持得都不够好,就更别说支持大模型了。」艾锐认为现在谈大模型上车为时尚早。

目前,毫末的做法是,用一个大模型去训练真正上车的小模型。

「大模型相当于可以了解任何事情,如果再用小模型去拟合它,就像是老师带着一个学生,这会比直接从原始数据中去训练更简单,因为它模型的很多参数可以被直接借鉴。」艾锐介绍道。

同时他也认为,类似矿山,园区等低速领域的自动驾驶,对实时性要求较低,即便大模型不上车,也可以从云端直接控制这些车辆,这会产生巨大的变化。目前,毫末针对其物流配送小车,就在做类似的研究。

总体看来,大模型上车的解法和时间仍是未知,艾锐预测或许在3-5年后可以实现,但这需要整个行业的发展成熟,而不是由某一家企业单打独斗。

我认为现在最重要的,是把大模型搞好。因为它本身还未达到我们预期的状态,更没法想『上车』的问题。目前还有很多人在研究大模型的工程优化,大家可以分头行事。」艾锐认为,大模型上车虽然很难,但一旦做成了收益极高,而高收益的事情就总会有人尝试。  

城市NOH与重感知技术

关于已开始在北京、上海,保定三地运行的城市NOH,艾锐提供了两条思路,首先,毫末想给用户更大的可用范围,而非局部路线;其次,在重感知路线中,将会只使用SD地图——「预计我们内部在今年年底就会使用SD地图,但要推送得看测试情况。

而毫末的重感知技术,同样是利用大模型来推进。对此,艾锐还是做了个拟人的比喻:「如果你只有一个导航地图,那就意味着你需要理解眼前的世界。因此,模型也需要像人一样,它需要理解中国的复杂道路。」

他表示,既然之前通过地图已经得到了拓扑结构,现在就需要去总结知识。「反向来说,就像你自己修了那些路一样,你得知道路是怎么修的,为什么修成那样,才能仅凭传感器数据就能推测出来后面道路的走向,这仅仅依靠小模型是做不好的。」

如今,毫末在DriveGPT上付出了极大成本,但其产品面对的主要市场还是20万元左右的中低端车型。对此,艾锐解释称,在顾及商业化考虑时,既要盯着眼下,也要兼顾未来。确实在简单场景中,不使用DriveGPT也可以保证效果。但是竞争的路很远,毫末的打法是,宁可先付出一些技术成本,但要保证方法可以扩展,走到最后的。

「我们每次在AI Day上都会放出最新的进展效果,有没有用,大家届时就能看到。」他说道。

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
基于机器视觉的害虫种类及计数检测研究-人工智能项目-附代码
|
机器学习/深度学习 传感器 自动驾驶
未来之路:大模型技术在自动驾驶的应用与影响
本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~ 文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。 接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制和预训练-微调范式。 文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。 在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。 最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能,突出了其在该领域的重要性和影响力。
1435 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(2)
与生成模型相比,为何机器人研究还在用几年前的老方法?
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(1)
与生成模型相比,为何机器人研究还在用几年前的老方法?
119 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?
与生成模型相比,为何机器人研究还在用几年前的老方法?
119 0
|
机器学习/深度学习 人工智能 机器人
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
|
机器学习/深度学习 人工智能 算法
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
大型语言模型教会智能体进化,OpenAI这项研究揭示了二者的互补关系
163 0
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT5是否会影响人类的发展和工作?
前言 ChatGPT的普及也带来了大量的讨论,关于它是否会影响人类的发展和工作。本文将讨论 ChatGPT5 如何可能改变人类的工作和发展,以及潜在的利弊和挑战。在话题开始之前,让我们先从设计思路、技术性能、应用场景等方面来进行分析,探索ChatGPT5聊天机器人的创新性和潜力
|
机器学习/深度学习 人工智能 算法
JMC | 人工智能在药物合成中的当前和未来作用(3)
JMC | 人工智能在药物合成中的当前和未来作用(3)
126 0
JMC | 人工智能在药物合成中的当前和未来作用(3)