自动驾驶如何做到感知决策一体化?上海 AI Lab 自动驾驶团队分享最新成果

简介: 自动驾驶如何做到感知决策一体化?上海 AI Lab 自动驾驶团队分享最新成果

自从1988 的 Alvinn 开始,端到端自动驾驶便进入了人们的视野,不同于模块化的自动驾驶方案,端到端的自动驾驶将传感器原始输入直接通过网络得到规划轨迹/控制信号。端到端自动驾驶模型结构简单,直接优化最终的驾驶信号,近年来吸引了诸多学术界和工业界的注意。

但现阶段的端到端自动驾驶也存在着很多问题,如先前基于 RL/IL 的一系列工作往往是在特征提取后简单直接输出控制信号,是一个黑盒模型,对系统的安全性形成重大挑战;大量工作关注于感知部分的传感器融合、特征提取,而忽略了如何在决策输出部分提高鲁棒性;当前工业界端到端模型实际应用落地时会遇到哪些困难等。

针对这些问题,上海人工智能实验室自动驾驶团队的研究员在感知决策一体化方面做了诸多研究,在论文《Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline》中,提出了仅依靠单相机在 CARLA AD Leaderboard 上获得第一的方法 TCP,以及被 ECCV 2022 接收的论文《ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning》中,提出的基于环视相机的具有中间特征可解释性的 ST-P3 框架等内容。

相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
37 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
10天前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
55 15
|
26天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
82 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
13天前
|
传感器 人工智能 安全
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了
杨笛一团队最新研究揭示,简单弹窗可操控AI智能体,使其在执行任务时陷入混乱。实验显示,在OSWorld和VisualWebArena环境中,攻击成功率分别达86%和60%以上。该发现强调了AI安全的重要性,提醒我们在享受AI便利的同时需警惕潜在风险。研究指出,弹窗设计中的四个关键要素(注意力钩子、指令、信息横幅、ALT描述符)对攻击成功至关重要,并建议通过安全训练、人类监督和环境感知提升防御能力。
42 13
|
1月前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
63 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
12天前
|
存储 人工智能 安全
微软推出Copilot Vision AI助手赋能网页浏览与决策
微软推出Copilot Vision AI助手赋能网页浏览与决策
|
22天前
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
83 9
|
2月前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
42 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
1月前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
1月前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
47 7