生成式AI应用于自动驾驶:前沿与机遇

简介: 近期发表的一篇综述性论文总结了生成式AI在自动驾驶领域的应用进展,并探讨了自动驾驶与机器人、无人机等其它智能系统在生成式AI技术上的交叉融合趋势

激光雷达点云生成、驾驶视频生成、占用(Occupancy)生成、驾驶轨迹生成、....,生成式AI在自动驾驶的研发和应用中大有用武之处。近期发表的一篇综述性论文[1]以超过百页的篇幅介绍了生成式AI技术在自动驾驶领域的研究进展,并对其未来发展方向进行了展望。

Title.jpg

论文目录

Contents_1A.jpg

Contents_2A.jpg

Contents_3A.jpg

Contents_4A.jpg

部分插图

以下是该论文的部分插图。

Figure2_Top.jpg

自动驾驶汽车上主要传感器的典型位置[1]




Figure2_Bottom.jpg

自动驾驶汽车上传感器的覆盖和感知区域[1]




Figure4_lidar.jpg

激光雷达点云生成的方法和模型演进[1]




Figure4_occupancy.jpg

占用(Occupancy)生成的方法和模型演进[1]




Figure11.jpg

图像编辑示例:白天与夜景图像的转换;晴天与雨天图像的转换[2]

生成式AI的跨领域融合

上述论文[1]指出了自动驾驶领域与机器人、无人机等领域的部分共同之处,包括:

  • 都需要大量的视觉等传感器数据,用于训练和测试;
  • 都需要高度的安全性;
  • 都需要规划模型、推理引擎、协同机制等。

上述论文[1]还指出了自动驾驶与机器人、无人机等领域在生成式AI技术上的交叉融合趋势。

  • 在机器人领域有了VLA(视觉-语言-动作)模型之后不久,自动驾驶领域也出现了基于类似概念的EMMA和OpenEMMA模型;
  • 用于激光雷达点云生成的LidarDM模型既可用于自动驾驶领域,也可用于机器人领域;
  • 扩散(Diffusion)模型既可用于自动驾驶领域中的轨迹生成[4],也可用于机器人领域中的动作生成[5][6]。

挑战与机遇

上述论文[1]列举了自动驾驶中生成式AI目前所面临的若干挑战、以及若干科研和应用方向,例如:

  • 生成式AI的可信赖性——生成式AI可能会产生幻觉和错误输出,这对于自动驾驶来说是非常危险的;因此,Waymo等研发自动驾驶的公司在技术栈中采用了多层次的预防和纠正措施,包括采用多个冗余系统;
  • 人与生成式AI协同的可能性——(1)在自动驾驶的设计和测试中,工程师们可以为生成式AI制作示例、调整参数、以及指示AI生成特定的模拟场景(例如:生成行人在夜间暴雨中横穿马路的场景);反过来,生成式AI可以为工程师们的工作查错、生成脚本、配置实验、生成测试用例,发挥类似于AI编程助手的作用;(2)在自动驾驶的实际使用中,人与AI可以共同控制汽车:当遇到危险、并且车中的人没有做出反应时,AI可以像驾驶教练一样代替做出反应;当人觉得AI的驾驶过于激进时,可以接管驾驶,或者通过指示,改变AI的驾驶;
  • 无人机和低空经济——无人机与自动驾驶汽车所面临的问题有些是相似的,例如动态环境中的感知、导航、碰撞规避、障碍规避、与基础设施协同、与其它无人机或自动驾驶汽车协同等,这些问题都需要大量的数据、模型训练和模拟;无人机还面临其它的问题,例如:无人机的飞行轨迹是三维的,需要大量的三维环境数据(建筑物、树木、电磁地图等);无人机对于风等环境因素更加敏感,因此生成式AI还被用于生成微观天气数据,以模拟城市中的风对无人机安全性能的影响;在未来的低空经济中,无人机与自动驾驶汽车有望相互协同,形成多模态、可优化的交通体系,届时,生成式AI的应用前景将更加广阔。

参考文献

[1] Generative AI for Autonomous Driving: Frontiers and Opportunities

https://arxiv.org/abs/2505.08854

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] One-Step Image Translation with Text-to-Image Models

https://arxiv.org/abs/2403.12036

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[3] OpenVLA: An Open-Source Vision-Language-Action Model

https://arxiv.org/abs/2406.09246

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[4] MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

https://arxiv.org/abs/2306.03083

[5] π_0: A Vision-Language-Action Flow Model for General Robot Control

https://arxiv.org/abs/2410.24164

[6] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

https://arxiv.org/abs/2503.14734


封面图:Timo Wielink、Unsplash

目录
相关文章
|
5月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1412 57
|
6月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1336 63
|
5月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
671 30
|
5月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
682 2
|
5月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
5月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
413 3
|
5月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
603 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
6月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
699 12
|
5月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
1094 82
|
5月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
962 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀

热门文章

最新文章