生成式AI应用于自动驾驶:前沿与机遇

简介: 近期发表的一篇综述性论文总结了生成式AI在自动驾驶领域的应用进展,并探讨了自动驾驶与机器人、无人机等其它智能系统在生成式AI技术上的交叉融合趋势

激光雷达点云生成、驾驶视频生成、占用(Occupancy)生成、驾驶轨迹生成、....,生成式AI在自动驾驶的研发和应用中大有用武之处。近期发表的一篇综述性论文[1]以超过百页的篇幅介绍了生成式AI技术在自动驾驶领域的研究进展,并对其未来发展方向进行了展望。

Title.jpg

论文目录

Contents_1A.jpg

Contents_2A.jpg

Contents_3A.jpg

Contents_4A.jpg

部分插图

以下是该论文的部分插图。

Figure2_Top.jpg

自动驾驶汽车上主要传感器的典型位置[1]




Figure2_Bottom.jpg

自动驾驶汽车上传感器的覆盖和感知区域[1]




Figure4_lidar.jpg

激光雷达点云生成的方法和模型演进[1]




Figure4_occupancy.jpg

占用(Occupancy)生成的方法和模型演进[1]




Figure11.jpg

图像编辑示例:白天与夜景图像的转换;晴天与雨天图像的转换[2]

生成式AI的跨领域融合

上述论文[1]指出了自动驾驶领域与机器人、无人机等领域的部分共同之处,包括:

  • 都需要大量的视觉等传感器数据,用于训练和测试;
  • 都需要高度的安全性;
  • 都需要规划模型、推理引擎、协同机制等。

上述论文[1]还指出了自动驾驶与机器人、无人机等领域在生成式AI技术上的交叉融合趋势。

  • 在机器人领域有了VLA(视觉-语言-动作)模型之后不久,自动驾驶领域也出现了基于类似概念的EMMA和OpenEMMA模型;
  • 用于激光雷达点云生成的LidarDM模型既可用于自动驾驶领域,也可用于机器人领域;
  • 扩散(Diffusion)模型既可用于自动驾驶领域中的轨迹生成[4],也可用于机器人领域中的动作生成[5][6]。

挑战与机遇

上述论文[1]列举了自动驾驶中生成式AI目前所面临的若干挑战、以及若干科研和应用方向,例如:

  • 生成式AI的可信赖性——生成式AI可能会产生幻觉和错误输出,这对于自动驾驶来说是非常危险的;因此,Waymo等研发自动驾驶的公司在技术栈中采用了多层次的预防和纠正措施,包括采用多个冗余系统;
  • 人与生成式AI协同的可能性——(1)在自动驾驶的设计和测试中,工程师们可以为生成式AI制作示例、调整参数、以及指示AI生成特定的模拟场景(例如:生成行人在夜间暴雨中横穿马路的场景);反过来,生成式AI可以为工程师们的工作查错、生成脚本、配置实验、生成测试用例,发挥类似于AI编程助手的作用;(2)在自动驾驶的实际使用中,人与AI可以共同控制汽车:当遇到危险、并且车中的人没有做出反应时,AI可以像驾驶教练一样代替做出反应;当人觉得AI的驾驶过于激进时,可以接管驾驶,或者通过指示,改变AI的驾驶;
  • 无人机和低空经济——无人机与自动驾驶汽车所面临的问题有些是相似的,例如动态环境中的感知、导航、碰撞规避、障碍规避、与基础设施协同、与其它无人机或自动驾驶汽车协同等,这些问题都需要大量的数据、模型训练和模拟;无人机还面临其它的问题,例如:无人机的飞行轨迹是三维的,需要大量的三维环境数据(建筑物、树木、电磁地图等);无人机对于风等环境因素更加敏感,因此生成式AI还被用于生成微观天气数据,以模拟城市中的风对无人机安全性能的影响;在未来的低空经济中,无人机与自动驾驶汽车有望相互协同,形成多模态、可优化的交通体系,届时,生成式AI的应用前景将更加广阔。

参考文献

[1] Generative AI for Autonomous Driving: Frontiers and Opportunities

https://arxiv.org/abs/2505.08854

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] One-Step Image Translation with Text-to-Image Models

https://arxiv.org/abs/2403.12036

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[3] OpenVLA: An Open-Source Vision-Language-Action Model

https://arxiv.org/abs/2406.09246

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[4] MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

https://arxiv.org/abs/2306.03083

[5] π_0: A Vision-Language-Action Flow Model for General Robot Control

https://arxiv.org/abs/2410.24164

[6] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

https://arxiv.org/abs/2503.14734


封面图:Timo Wielink、Unsplash

目录
相关文章
真·零门槛!原来手搓AI应用这么简单
这是一篇关于如何创作小红书爆款文案的专业指南,涵盖标题技巧、正文结构、情绪表达及关键词运用。内容包括高吸引力标题公式、正文六种开篇模板、关键词库和写作规则,帮助用户高效打造高转化文案。
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
本文对比了企业AI应用构建中的两大开源工具——Open WebUI与Dify,在技术架构、核心能力及适用场景方面的差异。Open WebUI适合轻量级对话场景,侧重本地部署与基础功能;而Dify则聚焦复杂业务流程,提供可视化工作流编排与端到端RAG支持。文章结合典型用例与落地建议,助力企业合理选型并实现高效AI集成。
Open WebUI 和 Dify 在构建企业AI应用时的主要区别
Open WebUI与Dify是企业AI落地的两大开源方案,定位差异显著。Open WebUI专注零代码交互界面开发,适合快速部署对话式前端;Dify提供全栈低代码平台,支持AI应用全生命周期管理。前者优势在轻量化UI组件,后者强于复杂业务编排与企业级功能。企业可根据需求选择前端工具或完整解决方案,亦可组合使用实现最优效果。
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
175 5
当无人机遇上Agentic AI:新的应用场景及挑战
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
340 0
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
代理IP:企业AI应用的隐形加速器与合规绞索
代理IP作为企业AI应用的重要基础设施,既是效率提升的加速器,也可能成为合规风险的来源。它通过技术演进重塑数据采集、模型训练与安全防护等核心环节,如智能路由、量子加密和边缘计算等创新方案显著优化性能。然而,全球法规(如GDPR)对数据流动提出严格要求,促使企业开发自动化合规审计系统应对挑战。未来,代理IP将向智能路由3.0、PaaS服务及量子网络方向发展,成为连接物理与数字世界的神经网络。企业在享受其带来的效率增益同时,需构建技术、法律与伦理三位一体的防护体系以规避风险。
77 0
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
135 11
让复杂 AI 应用构建就像搭积木:Spring AI Alibaba Graph 使用指南与源码解读
通过指南和完整的示例项目,你可以快速掌握 Spring AI Alibaba Graph 的使用方法,并在实际项目中高效地构建智能化应用。
727 22
在AI应用中Prompt撰写重要却难掌握,‘理解模型与行业知识是关键’:提升迫在眉睫
本文三桥君探讨Prompt优化技巧对AI应用的重要性。内容涵盖理解大语言模型、行业Know-how及Prompt撰写方法,助力提升AI输出质量与应用效率。
123 58

热门文章

最新文章

AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等