Waymo首次公开自动驾驶技术:让AI学会「危机想象力」

简介: Waymo 的自动驾驶出租车「Waymo One」已经上线了,现在美国亚利桑那州凤凰城的居民可以像叫个滴滴一样用手机 app 打来一辆自动驾驶汽车。这些高度智能化的无人车使用的是哪些技术?最近这家谷歌旗下的公司终于公开了自己的第一篇论文,介绍了 Waymo 自动驾驶算法的细节。

今年,自动驾驶公司 Waymo 取得了一些里程碑式的进展。8 月份,Waymo 的实地自动驾驶里程突破 1000 万英里,上周,Waymo 又推出了一款商用自动驾驶车——Waymo One。但该公司的研究人员始终着眼于未来。


Medium 上今天出现了一篇博文,Mayank Bansal、Abhijit Ogale 两位研究人员详细介绍了利用标注数据(即来自专业驾驶演示的 Waymo 数百万英里的已标注数据)通过监督学习训练 AI 驾驶员的方法。

学习人类经验


「近年来,深度神经网络中的监督训练使用大量标注数据在许多领域迅速提高了当前最佳水准,尤其是在目标检测及预测领域。这些技术在 Waymo 得到了广泛应用,」研究人员写道。「随着感知神经网络取得成功,我们自然而然地会问自己:我们可以利用纯监督深度学习方法训练出一个熟练的自动驾驶员吗?」


微信图片_20211130162513.gif

模拟环境中,Waymo 的智能体绕过一辆停泊的车。青色路径描绘了输入路径,绿色框是智能体,蓝色点是智能体的过去位置,绿色点是预测的未来位置。

微信图片_20211130162508.gif

image.gif

模拟环境中,Waymo 的 AI 系统根据前方车辆位置减速停车。带有褪色尾部的黄色方块是场景中过去一秒内的动态目标(其它车辆)的位置。


为了创建一个能够模拟专业驾驶的系统,他们精心设计了一个神经网络——ChauffeurNet,该网络通过观察真实和模拟数据(包括地图、周围目标、交通灯状态和汽车过去的运动)学会了生成驾驶轨迹。一个低级的控制器将十点轨迹转化为转向和加速指令,允许 AI 模型驾驶真实和模拟汽车。


该模型从「相当于专业驾驶 60 天的驾驶数据」中得到样本,其使用的技术确保了它不会根据过去的运动推断下一步动作,而是根据环境中的变化做出反应。在测试中,它会对交通控制标识做出反应,如停车标识和交通灯。但遇到以前从未见过的情况时,它的表现不佳。


模拟异常情况


研究人员指出,造成这种问题的原因在于其从现实驾驶中获得的驾驶 demo 是有偏差的——它们只包含正常情况(无事故)下的驾驶案例。为了教网络从边缘案例中恢复,该团队合成了接近事故和与物体发生碰撞的情况,后者鼓励 AI 模型避开这些物体。


微信图片_20211130162503.gif

Waymo 的模型在转弯时的表现。图源:Waymo


ChauffeurNet 在模拟环境中表现较好,它将损失和合成的示例都考虑在内,甚至还能绕过停泊的车辆,在信号灯由黄变红时停下以及在其轨道上修复些微的偏差。在现实世界的私人试车跑道驾驶 Waymo 的克莱斯勒 Pacifica 小型货车时,ChauffeurNet 成功地驶过了弯道,并正确判别了停止信号和转弯。


「全自动驾驶系统需要具备处理现实世界种种状况的能力,」研究人员写道。「在 Waymo 车辆上运行的现有规划器将机器学习与外显推理相结合,连续不断地评估大量概率变量并在多种不同的情境下做出最佳驾驶决策……因此,用完全的机器学习系统替代 Waymo 规划器的门槛很高,尽管这一系统的组成也可以用在 Waymo 规划器内,或者用于在规划器的模拟测试期间创造更加实用的『智慧智能体』」。


模型在真实世界驾驶的情况

微信图片_20211130162458.gifimage.gif

红色轨迹表示场景中动态目标的过去轨迹,绿色轨迹表示每个目标未来 2 秒之内的预测轨迹。

1638260675(1).png

点击查看原视频

模型结构


微信图片_20211130162415.gif


ChauffeurNet 内部由两个部分组成——FeatureNet 和 AgentRNN。AgentRNN 的输入包括一张展示过去智能体姿态的图像、一组由卷积网络FeatureNet 从展示的输入中计算的特征、一张展示过去智能体框的图像、展示预测未来智能体姿态以预测智能体下一个姿态的外显记忆,以及俯视视角下的下一个智能体框。这些预测用于更新 AgentRNN 的输入,从而预测下一个时间步。


最后,让我们看看这篇介绍 ChauffeurNet 的论文:《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》。

微信图片_20211130162411.jpg


论文链接:https://sites.google.com/view/waymo-learn-to-drive


摘要:我们的目标是通过模仿学习来为自动驾驶训练可用于驾驶真实汽车的鲁棒策略。我们发现通常的行为复制不足以适应复杂的驾驶环境,即使已经使用了感知系统来预处理输入,以及使用控制器来将输出执行到汽车上:3 千万个案例仍然是不够的。我们在本研究中提出,应该以专业驾驶数据的扰动形式向学习器展示合成数据,这会产生有趣的情况,例如碰撞和/或离开道路。我们不是纯粹模仿所有数据,而是通过额外的损失补充模仿损失,以惩罚不良事件并鼓励进步,扰动为这些损失函数提供了重要信号,并实现了学习模型的鲁棒性。结果表明,ChauffeurNet 模型可以处理模拟中的复杂情况,我们还提供了控制变量实验,强调我们提出的每个变化的重要性,并表明模型可以对适当的因果因素进行响应。最后,我们展示了在现实世界中驾驶汽车的模型。


参考内容:


相关文章
|
7天前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
阿里云 Qwen3 全栈 AI 模型:技术解析、开发者实操指南与 100 万企业落地案例
阿里云发布Qwen3全栈AI体系,推出Qwen3-Max、Qwen3-Next等七大模型,性能全球领先,开源生态超6亿次下载。支持百万级上下文、多模态理解,训练成本降90%,助力企业高效落地AI。覆盖制造、金融、创作等场景,提供无代码与代码级开发工具,共建超级AI云生态。
149 6
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
|
17天前
|
机器学习/深度学习 人工智能 资源调度
嵌入式AI领域关键技术的理论基础
本内容系统讲解嵌入式AI领域关键技术的数学理论基础,涵盖神经网络量化、剪枝、知识蒸馏与架构搜索的核心原理。深入探讨量化中的信息论与优化方法、稀疏网络的数学建模、蒸馏中的信息传递机制,以及神经架构搜索的优化框架,为在资源受限环境下实现高效AI推理提供理论支撑。
55 5
|
17天前
|
存储 机器学习/深度学习 人工智能
​​解锁AI检索的7大Embedding技术:从稀疏到多向量,一文掌握!​
本文系统解析七种主流文本嵌入技术,包括 Sparse、Dense、Quantized、Binary、Matryoshka 和 Multi-Vector 方法,结合适用场景提供实用选型建议,助你高效构建文本检索系统。
141 0
|
23天前
|
人工智能 安全 数据库
AI编程:普通人难以逾越的技术高墙-优雅草卓伊凡
AI编程:普通人难以逾越的技术高墙-优雅草卓伊凡
136 15
|
23天前
|
人工智能 JSON 前端开发
Agentic AI崛起:九大核心技术定义未来人机交互模式​
本文系统梳理AI智能体架构设计的九大核心技术,涵盖智能体基础、多智能体协作、知识增强、模型优化、工具调用、协议标准化及人机交互等关键领域,助力构建高效、智能、协同的AI应用体系。建议点赞收藏,持续关注AI架构前沿技术。
348 1
|
23天前
|
数据采集 Web App开发 人工智能
如何让AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块
Browser-Use 是一种基于大语言模型(LLM)的浏览器自动化技术,通过融合视觉理解、DOM解析和动作预测等模块,实现对复杂网页任务的自主操作。它突破了传统固定选择器和流程编排的限制,具备任务规划与语义理解能力,可完成注册、比价、填报等多步骤操作。其核心功能包括视觉与HTML融合解析、多标签管理、元素追踪、自定义动作、自纠错机制,并支持任意LLM模型。Browser-Use标志着浏览器自动化从“规则驱动”向“认知驱动”的跃迁,大幅降低维护成本,提升复杂任务的处理效率与适应性。
666 28
|
6天前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
|
6天前
|
数据采集 人工智能 前端开发
Playwright与AI智能体的网页爬虫创新应用
厌倦重复测试与低效爬虫?本课程带您掌握Playwright自动化工具,并融合AI大模型构建智能体,实现网页自主分析、决策与数据提取,完成从脚本执行到智能架构的能力跃升。
|
6天前
|
人工智能 运维 安全
聚焦 AI 应用基础设施,云栖大会 Serverless AI 全回顾
2025 年 9 月 26 日,为期三天的云栖大会在杭州云栖小镇圆满闭幕。随着大模型技术的飞速发展,我们正从云原生时代迈向一个全新的 AI 原生应用时代。为了解决企业在 AI 应用落地中面临的高成本、高复杂度和高风险等核心挑战,阿里云基于函数计算 FC 发布一系列重磅服务。本文将对云栖大会期间 Serverless+AI 基础设施相关内容进行全面总结。

热门文章

最新文章