创新场景丨小鹏汽车:端到端智驾真正竞赛在云端

简介: 算力上的提前布局,让小鹏汽车在国内率先实现端到端智能驾驶大模型量产上车。小鹏汽车认为,端到端只是开始,不是终局,真正的竞赛正在云端展开,云端大模型才是制胜关键。拥有强大算力的阿里云,支撑小鹏汽车端到端大模型的快速迭代。

image.png
文/杨丽

智能驾驶近两年的提速,端到端技术无疑是关键动因。

2024 年 10 月 24 日,小鹏汽车宣布 AI 天玑 5.4.0 正式开启公测,并首发搭载在小鹏 P7+ 上。新版本为小鹏汽车带来了最强 AI 智能驾驶功能,根据数据统计,已经享受到公测版的 P7+ 用户,在用户渗透率和里程渗透率上均取得了显著提升。早些时候,小鹏汽车已经完成了国内首个端到端智能驾驶大模型量产上车。

这一系列的成绩,源于小鹏汽车多年来全力投入 AI 的决心。早在 2022 年,小鹏汽车就率先完成城市导航辅助驾驶(NGP)的落地。当时,小鹏汽车自动驾驶团队就在思考,是否需要更进一步提升 AI 泛化能力。同年 4 月,小鹏汽车开始尝试对传统智能驾驶中的感知、融合、预测、规划、控制、定位等技术模块进行融合。这也成为小鹏汽车探索端到端大模型的雏形。

小鹏汽车董事长何小鹏在谈及端到端智能驾驶大模型时强调,“往后 10 年、20 年,我不知道今天的大模型逻辑是否会适用,但它一定会比之前的算法或规则模型都要强。”

智能驾驶新一轮竞争正围绕算法、算力、数据三要素展开,出现任何一块短板,都将引发木桶效应。这场竞赛中,小鹏汽车和阿里云一直在并肩前行。

AI 席卷智能驾驶,小鹏汽车笃定端到端技术路线

端到端(End-to-End),起初并非源于智能驾驶,而是多用于深度学习领域的一套方法,并且在语音识别、自然语言处理等领域已有比较多的学术研究。其设计原理是神经网络在学习中不进行分模块或分阶段训练,直接从输入数据到输出结果,减少人为干预和预处理的需求,类似于 encoder-decoder 架构。

端到端技术能够避免传统人工特征提取中的信息损失,提高模型的效率和准确性,简化训练流水线。

在智能驾驶领域,端到端智能驾驶方案利用统一的深度学习神经网络,将感知、规划与控制等多个功能模块整合为一体。将摄像头、传感器实时采集的原始数据作为输入,直接输出为转向、加速、制动等驾驶指令,这种一体化架构实现了信息无缝传输并降低延迟,让汽车反应更加顺滑。特斯拉在北美率先推出的 FSD V12 版本,就采用了端到端技术。同样,小鹏汽车在国内快速推进了端到端智能驾驶。

小鹏汽车选择的是“云端大模型”路线,通过构建云端大模型,然后将云端大模型蒸馏到车端,在车端进行模型部署。小鹏云端大模型的参数量是车端的 80 倍,云端强化训练后,车端大模型的上限大幅提高。

据小鹏汽车自动驾驶产品高级总监袁婷婷介绍,端到端往往包含非常复杂的深度学习网络。但大模型的黑盒问题导致难以解释其决策过程和推理逻辑,尤其是表现出不良效果后,不可解释性还增加了解决和验证的难度,更无法保证其安全可靠性。

基于此,根据端到端的思路,小鹏汽车随即推出了“三网合一”架构,其中 XNet 类似于人的眼睛,对现实世界中的可通行空间进行 3D 还原;XPlanner 类似于人的肌肉和小脑直觉,通过海量数据的不间断训练,优化驾驶策略;XBrain 类似于人的大脑,会进行更深入的理解和意图推理,包括时序、环境、路牌文字等。三网以全局性视角联合执行驾驶任务,可以对模型进行联合预训练和标注,同时三网又各有侧重,出现问题可快速诊断定位,了解模型和系统的缺陷问题。更重要的是,在驾驶安全性上,三网使得系统应对一些特殊、紧急场景的上限变得更高的同时,也需要一定的安全措施保证下限。

在端到端技术的加持下,小鹏汽车整体迈向了以轻地图、轻雷达、重算力为核心的智能驾驶方案。针对复杂路况,能够做到点到点的辅助驾驶能力,包括自动通过高速 ETC 闸机、红绿灯识别、拥堵路段跟车以及主动变道超车等等。尤其在体验和流畅性上,用户基本感觉不到任何断点。

小鹏汽车自动驾驶产品高级总监袁婷婷指出,行业内一般用记忆泊车 VPA(Valet Parking Assist)+NOA (Navigate on Autopilot)城市辅助驾驶的方式来实现车位到车位,这也是小鹏在 2021 年采用的方案。但使用拼接方案,就会存在卡顿,比如汽车行驶到停车场与公开道路的交汇点时,会因切换软件导致卡壳现象。

目前小鹏汽车已经通过端到端智能驾驶大模型对其能力进行了全面升级,在行业内首个用一套智能驾驶软件以及基于“端到端大模型”实现“车位到车位”。在最新的测试场景中,车位到车位的整条链路——从园区内、地库内,到过闸机,再到公开道路的衔接,都能以更加流畅的体验方式实现。此外,路线规划也能够无感生成,让驾驶变得更加便捷高效。

“丝滑、笃定、直觉性”这些用于形容老司机开车一样的驾驶体验,正在小鹏汽车端到端智能驾驶系统上呈现。

可以看到,端到端的出现,突破了原先依靠规则驱动的智能驾驶研发体系,至少在当前阶段,端到端已是自动驾驶竞争的关键技术路径之一。

真正适配智能驾驶的算力底座

多年来在端到端智能驾驶大模型上的投入,模型参数量的急剧扩张,使得小鹏汽车智能驾驶系统和功能迭代速度持续加快。

由于当前车端芯片算力的限制,即便采用两片 Orin 芯片,能支持的车端模型参数量依然有限。而云端大模型可以全面吸纳智能驾驶数据,不遗漏重点信息细节。通过大量数据训练,尽可能穷尽智能驾驶中的长尾问题,以覆盖更多驾驶场景,使 XNGP 实现 L3 级的智能驾驶体验。

训练一个云端大模型,对大规模高性能算力以及数据存储和处理提出了非常高的要求。其一,提高并行训练性能和利用率的要求,这对云基础设施包括网络互联、带宽,以及系统软件优化等带来了挑战;其二,对模型训练持久稳定性的要求,比如模型训练中断,训练出现问题后能否快速拉起任务,缩短故障时间;其三,大规模多模态数据的存储与处理能力,实现并行训练的高性能、高吞吐,满足模型训练不断提升的数据量增长需求;其四,海量数据的存储成本要求,在满足数据处理性能要求的前提下,通过支持数据分层存储,实现最优的成本。

实现这些要求并非易事。大模型的预训练需要集群化,构建万卡甚至更大规模的集群,且整个集群需要组成一个庞大的“整体”。形象来说,就像每一排都有两个人且两人之间把腿绑在一起,共同前进。只有每张 GPU 卡、每台机器都以相同的“步伐”前进,才能提升整体的模型训练效率。

早在 2022 年,小鹏汽车就与阿里云在乌兰察布建成了当时中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”依托于阿里云灵骏智算集群构建,该集群是阿里云面向 AI 时代打造的智能算力基础设施,支撑了小鹏汽车端到端智能驾驶大模型的快速迭代。

随着模型规模扩大到百亿甚至千亿量级,一次训练任务需要更多 GPU 协同,规模会放大很多问题。

首先碰到的问题就是扩展集群规模是否能带来训练任务相同倍数的线性加速。为了将“相同步伐”效率提升到极致,阿里云升级到 HPN 7.0 网络架构,把网络能力推向一个全新的高度。通过 3.2Tbps 高性能 RDMA 网络连接,让服务器之间的通讯更顺畅;自研的拥塞控制算法解决了路由的复杂度和数据交换的冲突;同时,训练过程实现自动网络拓扑感知调度,为大模型训练自动调度最佳网络拓扑的计算节点,从而减少通信开销,进一步提升训练效率。

此外,计算和存储流量分离大大减少存储 IO 和计算通信的互相干扰,进而提升了整体 GPU 集群的计算效率。小鹏汽车在阿里云上的千卡级训练任务线性加速比可以达到 90% 以上。

由于训练任务的特殊性,部件故障会导致整体训练停滞,如何尽可能早的预测故障,以及发生故障后系统能快速拉起恢复,是令小鹏汽车自动驾驶技术团队头疼的第二个问题。

小鹏汽车自动驾驶中心大数据管理部负责人 Jay 提到,“训练是一个持续几十天的过程,当我们的训练规模越大,就有可能遇到越多的意外情况,训练过程中,稳定性非常重要。”

针对这些问题,阿里云技术团队采取了一系列措施以提高系统的稳定性和训练效率。阿里云提供千卡集群健康检测能力,可实现对计算集群包括单节点算力检查,单节点内 GPU 互联检查,多节点互联检查等,实现在训练前、训练中和故障后及时发现问题节点,并通过 AI 助手设置运维策略,保障集群整体资源稳定可用。同时,配置节点分钟级自动自愈能力以及秒级的训练进度保存机制,实现故障后任务仍可以自动恢复,并以无损的训练进度实现续训,从而节约训练时间、降低训练成本。

2024 年,小鹏汽车也开始使用阿里云容器计算服务 ACS,该服务为小鹏提供基础设施全托管算力服务,无需管理和维护底层服务器,即使遇到服务器发生故障,应用也能迅速切换到其他服务器,确保模型训练的连续运行。

智能驾驶模型的演进迭代需要海量数据,过程中的数据采集、挖掘、处理,又同样对存储、数据处理能力提出了更高要求。

截至 2024 年 9 月小鹏汽车公开数据显示,小鹏汽车使用了折算里程超 10 亿 + 公里的视频训练,累计 646 万公里、1972 个城市和区县的实车测试,以及累计 2.16 亿公里、2.2 万核心模拟场景、5.8 万专业模拟场景的仿真测试。

阿里云把内存、本地磁盘、CPFS 高性能并行文件存储以及 OSS 对象存储等形成一个完整的阶梯型存储架构,进行统一的管理,把热数据放在延迟最低的存储上面,并实现冷热数据的自动流转,不断提升存储的使用效率,降低存储成本。

数据的积累属于基础,更重要的是让数据有效转起来。小鹏汽车通过自研工具链结合阿里云大数据平台、数据库服务等实现全栈数据闭环,对数据的清洗处理以及高效的挖掘,数据的高效流转,端到端大模型的大规模分布式训练,实现测试阶段实车测试与仿真测试并重,加快迭代节奏,推动智能驾驶技术的快速发展。

小鹏汽车自动驾驶中心大数据管理部负责人 Jay 表示: “明年小鹏整体的数据量将迎来大幅度提高,更需要云基础设施做很好的承载。”

当智能驾驶的热情被点燃

何小鹏曾说过:“小鹏从创始之初就一直致力于做中国的自动驾驶第一。”

通过“All in AI”,小鹏汽车不仅率先实现端到端智能驾驶大模型量产上车,根据“端到端四部曲”规划,在未来两年,小鹏还将基于 L2 的硬件和成本实现 L3+ 的用户体验,并最终通往 L4 无人驾驶。

小鹏汽车自动驾驶负责人李力耘曾在接受采访时表示,端到端时代,好似从冷兵器时代来到热兵器时代。过去的辅助驾驶时代是“冷兵器时代”,只要凑齐了武林高手就可以打。但热兵器时代需要更大的算力、更多的数据、让算力和数据流转起来的机制和工程能力。拥有强大算力的阿里云,也将持续支撑小鹏汽车端到端大模型的快速迭代。

相关文章
|
6月前
|
人工智能 供应链 算法
创新场景丨从数字化到智能化,中远海科“航运新基建”探路
随着数据治理和 AI 大模型应用深入,船视宝日趋完善,开始发挥航运业数智新底座的作用,距离中远海科的愿景也更近一步。
|
6月前
|
传感器 人工智能 算法
AI战略丨AI 改变物理世界,绘制智实融合产业发展图谱
通过打破传统界限,实现虚拟与现实之间的无缝对接,我们正步入一个前所未有的智能新时代。
|
6月前
|
存储 人工智能 Cloud Native
小鹏汽车选用阿里云PolarDB,开启AI大模型训练新时代
PolarDB-PG云原生分布式数据库不仅提供了无限的扩展能力,还借助丰富的PostgreSQL生态系统,统一了后台技术栈,极大地简化了运维工作。这种强大的组合不仅提高了系统的稳定性和性能,还为小鹏汽车大模型训练的数据管理带来了前所未有的灵活性和效率。
|
6月前
|
人工智能 自然语言处理 机器人
创新场景丨大模型时代,重塑智能终端新体验
大模型为智能终端带来的变革是全方位的,但挑战也同样显而易见。云侧部署的大模型加端侧应用的大模型是综合平衡性能、成本、功耗、隐私、速度之下的最佳选择。
|
6月前
|
传感器 数据采集 机器学习/深度学习
AI战略丨从探索到突破,全面解读智实融合关键技术
关键技术的发展水平直接决定了智实融合的深度与广度,是其应用进一步拓展的关键因素。
|
6月前
|
人工智能 安全 算法
AI战略丨协同共治,应对 AI 时代安全新挑战
人工智能行业的安全发展,需要整个行业“产学研用”等多方协同共治,才能实现人工智能的高质量发展目标。
|
6月前
|
人工智能 自然语言处理 语音技术
创新场景丨下一个iPhone 时刻,AI+AR 加速虚实融合世界的到来
仅仅以大模型通用能力帮助 AR 眼镜实现了多个场景下的交互还不够,关键在于大模型没有针对 AR 眼镜的需求做深度的定制和匹配。
|
6月前
|
人工智能 自然语言处理 程序员
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。
|
6月前
|
存储 人工智能 Cloud Native
【云故事探索】NO.13:全链路「长」在阿里云上!极氪汽车全速打造智能出行好体验
本文探讨了极氪汽车从创立到快速发展的背后,数字化体系对其成功的支撑作用。极氪通过与阿里云合作,利用云计算、PaaS服务及AI大模型等技术,实现了敏捷高效的用户体验和业务迭代。文章还分析了极氪在车联网安全、数据处理以及智能化座舱方面的技术突破,并指出全栈上云已成为智能电动车企业的必然选择,助力其在全球化与智能化趋势中脱颖而出。极氪的成功不仅源于产品定位,更得益于其对先进技术的深度应用。
|
6月前
|
存储 人工智能 安全
AI战略丨全面投入升级 AI 大基建
云厂商拥有全栈技术储备,并通过基础设施的全面升级,让 AI 训练、推理、部署和应用整 个生命周期变得更高效。

热门文章

最新文章