备案控制台

开发者社区雷锋网文章正文

如何用超大规模真实驾驶视频数据集做端到端自动驾驶

2017-10-24 2174

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文讲的是如何用超大规模真实驾驶视频数据集做端到端自动驾驶，自动驾驶是人工智能落地的重要应用之一，许多业界公司和学校实验室都在以自己的方法研究自动驾驶系统。本次雷锋网 AI 科技评论请到了许华哲博士介绍他们团队研究的端到端自动驾驶系统。

本文讲的是如何用超大规模真实驾驶视频数据集做端到端自动驾驶，

自动驾驶是人工智能落地的重要应用之一，许多业界公司和学校实验室都在以自己的方法研究自动驾驶系统。本次雷锋网 AI 科技评论请到了许华哲博士介绍他们团队研究的端到端自动驾驶系统。

许华哲是UC Berkeley 博士，师从 Prof. Trevor Darrell。对计算机视觉、自动驾驶、强化学习感兴趣。本科毕业于清华大学电子工程系。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这次分享主要基于徐华哲和他的同学们发表的CVPR2017的收录文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」，这是对端到端自动驾驶的一个尝试。除了文章本身，许华哲也会介绍学术角度上自动驾驶领域中有意思的任务和问题。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

分享的内容包括：

自动驾驶的前世今生
许华哲他们发表的超大规模数据集
为了解决自动驾驶问题，如何用数学公式定义它
论文中构建的FCN-LSTM模型
论文中用到的新技巧“Learning with privileged information”，以及实验结果

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

自动驾驶主要分为这样几类：基于规则的自动驾驶系统，端到端的自动驾驶系统（输出直接是对车的操作），综合性方法（Intermediate，决策系统的输入是前处理系统的输出）。最后还有一个研究方向是对未来会发生的事情做预测以便规避风险。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

图中是基于规则的自动驾驶系统的经典工作，检测出路上的车和车道，然后进行决策。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

基于规则的系统，好处是在工业界得到了广泛使用，比如GoogleX的自动驾驶就是以基于规则的系统为主；以及系统的可解释性非常强。不好之处是难以应对不确定的情况，以及在复杂的情况下无法对所有可能的操作进行建模。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

完全端到端的方法中早期的典型工作是ALVINN，浅层神经网络的结果已经表明端到端学习有形成自动驾驶系统的潜力。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

Yann LeCun提出的DAVE已经可以回避路上的障碍物。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

在2017年10月最新的文章中，已经可以通过高阶的运动意图对低阶的实际驾驶操作进行条件（conditioned）控制，在许华哲看来已经是水平最领先的文章。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

不过话说回来，这个领域影响最大的还是NVIDIA的这篇文章，第一次借助三个摄像头用端到端的方法开起了真车。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

端到端驾驶的好处是，模型可以直接对图像输入作出回应，不需要人类干预；坏处是，系统对于不同的车辆系统需要逐一校准，以及解释性差

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这项综合自动驾驶系统的典型方法中，用深度学习方法学到一系列行驶中的路况信息，然后把这些路况信息输入决策模型；决策模型中则可以再设定一些规则。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这种方法的解释性介于端到端和基于规则的系统之间，但还是需要人工定义许多规则，仍然有“无法完全定义系统规则”的问题

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

未来视频预测的目的是帮助训练自动驾驶系统，效果还有很多提升的空间，但是许华哲认为与现阶段各大自动驾驶平台的自动驾驶模拟器相比，这方面研究的意义还有待讨论。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

接下来，值得聊的话题是数据集。大家都知道ImageNet对深度学习领域有着深远的影响，因为它提供了检验算法的绝佳条件。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

从近年的错误率显著下降来看，大家都认为图像分类问题是一个近乎于解决了的问题，ImageNet就在其中起到了非常大的贡献。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

那么，许华哲认为自动驾驶领域也需要一个起到同样作用的数据集，它应当由众包得到，应当是真实的、足够难的、有一个明确的任务目标

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

对于任务目标，他们把它公式化为了一个预测车辆未来位置的问题。

这样做的好处是，泛化性强，可以运用于对任意的车辆，也可以用未经过校准的数据；他们的模型是可以端到端训练的；同时模型可以一次预测多个方向

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

模型中要预测的egomotion用方向角α和位移s描述，这样也就不需要直接对车辆内的方向盘和踏板进行控制，简化了系统的前期研究。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

模型的数学定义如上图，评估给定的状态s和动作a的得分，其中s包括视觉信息和车辆的当前状态；a可以是分离的几个状态，也可以是连续的数值输出；最精确的是输出6个自由度上的运动

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

下一个问题就是如何评估这个模型。借助数据集的话，借助语言模型里perplexity预测的思路，把过去的状态作为序列，预测序列中的下一个元素

在他们的数据集之前，大家比较熟悉几个数据集包括KITTI、Cityscape、英特尔的GTA。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

KITTI的特点是数据量比较小，但图像质量高，数据种类丰富，横向很宽

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

Torcs是在游戏里采的数据

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

Cityscape是一个高质量的图像语意分割数据集，但是并没有放出对应的视频

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

英特尔的GTA数据集也是以语意分割为主，虽然基于虚拟的游戏环境但是很逼真，可以看作最接近真实世界的游戏

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

几个数据集做对比的话，场景的丰富程度上KITTI力压所有数据集，其余更多方面则都有缺失

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

时长方面，Oxford的最长，围绕城市采了200小时数据。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这几个数据集都不算令人满意。为了大幅度提升时长和丰富程度，许华哲他们想到了众包的方法，与Uber合作，采集、使用了司机视角的视频。这个数据集的特点是基于真实世界的、第一人称视角，从右侧样例里可以看到内容也非常丰富。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

最重要的是，这个数据集也是足够长的，比现存的任何数据集都要多出2个数量级。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这样对比下来，他们的数据集BDD-V就全面领先于其它的数据集

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

BDD-V数据集更多的指标如上图，30fps/720p，包括了惯性传感器IMU、陀螺仪Gyroscope、GPS和指南针的数据，而且是全面开放的。许华哲还偷偷透露，除了这个视频数据集，他们还会同步发布其它用于驾驶任务的高质量、大规模数据集。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这里正式介绍文章中的内容，一张图像输入到模型中后，模型要判断车如何行驶，最后输出中绿色部分表示可能的动作的概率分布（离散或者连续）。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

论文中使用的模型结构是Dilated Fully Convolutional Networks+LSTM+Segmentation Loss。FCN用来保留空间信息，LSTM对之前时间中的信息加以利用，Segmentation语义分割则是为了把车辆从背景中分离出来（这部分属于Privileged Learning，等下还会讲到）。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

上图显示的是预测离散的车辆动作（也就是前后左右）的结果，G代表ground truth，P代表预测的结果。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

对于红绿灯也作出了合理的预测结果（黄灯时前进和停止一半一半，红灯时预测结果都是停止）

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

对于预测连续的车辆动作，沿着路的时候能判断出“不能右转”，到了路口就有了更多方向的选择

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

在连续预测中，有个重要问题是能否预测多个模态。可以看到，到了路口时预测结果明显分为了两个部分。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

这里，为了更好地展示模型学到的特征，徐华哲从模型中抽出了conv-4层学到的特征。对于右侧的街道图，左侧是模型注意力的heat-map；两图并不是完全对齐的。可以看到，行车线、红绿灯、骑车的人和汽车（表现为两个车轮）都获得了很高的注意力。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

Privileged Learning是指，模型一边预测未来的运动，一边训练一个语义分割网络，然后用语义分割网络更好地帮助模型做运动预测。P1、P2是Baseline，P3是带有Privileged Learning之后的结果，对图中这样“半辆车”的情况有更好的识别能力。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

总结整篇论文

首先介绍了一个不依赖执行机构的自动驾驶通用模型
收集、公开了最大、最丰富的基于真实世界的数据集
提出了新的网络架构，能够输出多模态行为
确认了Privileged Learning方法的有效性，进一步提升了预测效果
第一个长度可以和人类一生开车时间相比的训练数据集

数据、模型和代码可以在 https://github.com/gy20073/BDD_Driving_Model 看到。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

未来他们也还会继续采集、扩充数据集。目前总长度（最下方）大概是一个人一生开车时间的一半，未来希望扩充到10万个小时。

如何用超大规模真实驾驶视频数据集做端到端自动驾驶 | 分享总结

同时他们也在改进模型，并在测试场地上把真车开起来。秋天时他们也会再发一两篇文章。

徐华哲最后还解答了几个在线观众提出的问题。

本文作者：杨晓凡

本文转自雷锋网禁止二次转载，原文链接

文章标签：

自动驾驶

机器学习/深度学习

计算机视觉

玄学酱

目录

相关文章

Echo_Wish

|

2月前

|

机器学习/深度学习数据采集传感器

使用Python实现深度学习模型：智能土壤质量监测与管理

使用Python实现深度学习模型：智能土壤质量监测与管理

Echo_Wish

289 69 69

Echo_Wish

|

6月前

|

机器学习/深度学习数据挖掘 TensorFlow

使用Python实现深度学习模型：智能农业与精准农业技术

【7月更文挑战第28天】使用Python实现深度学习模型：智能农业与精准农业技术

Echo_Wish

170 9 9

游客762btuqu5wybw666

|

2月前

|

机器学习/深度学习传感器边缘计算

深度强化学习在自动驾驶汽车中的应用与挑战###

本文探讨了深度强化学习（Deep Reinforcement Learning, DRL）技术在自动驾驶汽车领域的应用现状、关键技术路径及面临的主要挑战。通过分析当前自动驾驶系统的局限性，阐述了引入DRL的必要性与优势，特别是在环境感知、决策制定和控制优化等方面的潜力。文章还概述了几种主流的DRL算法在自动驾驶模拟环境中的成功案例，并讨论了实现大规模部署前需解决的关键问题，如数据效率、安全性验证及伦理考量。最后，展望了DRL与其他先进技术融合的未来趋势，为推动自动驾驶技术的成熟与发展提供了新的视角。 ###

游客762btuqu5wybw666

82 2 2

1941623231718325

|

2月前

|

传感器机器学习/深度学习人工智能

自动驾驶汽车中的AI：从概念到现实

【10月更文挑战第31天】自动驾驶汽车曾是科幻概念，如今正逐步成为现实。本文探讨了自动驾驶汽车的发展历程，从早期的机械控制到现代的AI技术应用，包括传感器融合、计算机视觉、路径规划和决策控制等方面。尽管面临安全性和法规挑战，自动驾驶汽车在商用运输、公共交通和乘用车领域展现出巨大潜力，未来将为人类带来更安全、便捷、环保的出行方式。

1941623231718325

117 1 1

Echo_Wish

|

6月前

|

机器学习/深度学习运维 TensorFlow

使用Python实现深度学习模型：智能交通管控与智慧城市

【7月更文挑战第27天】使用Python实现深度学习模型：智能交通管控与智慧城市

Echo_Wish

194 4 5

使用Python实现深度学习模型：智能交通管控与智慧城市

Echo_Wish

|

5月前

|

机器学习/深度学习传感器自动驾驶

使用Python实现深度学习模型：智能车联网与自动驾驶

【8月更文挑战第14天】使用Python实现深度学习模型：智能车联网与自动驾驶

Echo_Wish

388 10 11

Echo_Wish

|

4月前

|

机器学习/深度学习数据采集存储

使用Python实现深度学习模型：智能医疗影像分析

使用Python实现深度学习模型：智能医疗影像分析

Echo_Wish

143 0 0

Echo_Wish

|

5月前

|

机器学习/深度学习数据采集数据可视化

使用Python实现深度学习模型：智能城市交通管控与优化

【8月更文挑战第17天】使用Python实现深度学习模型：智能城市交通管控与优化

Echo_Wish

243 0 0

mg的嘟嘟

|

7月前

|

机器学习/深度学习数据采集人工智能

深度学习在医疗影像分析中的应用与未来展望

深度学习技术近年来在医疗影像分析领域取得了显著进展，通过自动化处理和高度准确的诊断能力，极大地提升了疾病检测和治疗的效率。本文探讨了当前深度学习在医疗影像分析中的应用现状，具体案例，以及未来可能的发展方向和面临的挑战。

mg的嘟嘟

110 3 3

1941623231718325

|

8月前

|

机器学习/深度学习传感器自动驾驶

构建一个基于深度学习的自动驾驶模拟系统

【5月更文挑战第31天】本文探讨了构建基于深度学习的自动驾驶模拟系统，该系统包括模拟环境、传感器模拟、深度学习模型、车辆控制和评估反馈等组件。关键技术研发涉及3D渲染、深度学习框架、传感器模拟、车辆动力学模型和评估反馈机制。模拟系统为自动驾驶测试提供安全平台，促进性能优化，随着技术发展，未来模拟系统将更智能，助力自动驾驶技术革新出行体验。

1941623231718325

99 1 1

雷锋网

热门文章

最新文章

ToC和ToB有啥区别

多中心容灾实践：如何实现真正的异地多活？

时间序列预测：CNN+LSTM+Attention模型实战

DSP_代码笔记（基于TMS320X281x）

Confluence 6 那些文件需要备份

区块链技术将占据全球金融系统核心地位

一个有味道的函数

ceph启动脚本

[CLR via C#]7. 常量和字段

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

KAG：增强 LLM 的专业能力！蚂蚁集团推出专业领域知识增强框架，支持逻辑推理和多跳问答

Gemini Coder：基于 Google Gemini API 的开源 Web 应用生成工具，支持实时编辑和预览

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

MiniPerplx：基于 Grok 2.0 的开源 AI 搜索引擎，支持网页、学术、视频搜索

CreatiLayout：复旦与字节联合推出布局到图像生成技术，支持高质量图像生成与布局优化

Cosmos：英伟达生成式世界基础模型平台，加速自动驾驶与机器人开发

AIOpsLab：云服务自动化运维 AI，微软开源云服务 AI 框架，覆盖整个生命周期

《docker基础篇：4.Docker镜像》包括是什么、分层的镜像、UnionFS（联合文件系统）、docker镜像的加载原理、为什么docker镜像要采用这种分层结构呢、docker镜像commit

《鸿蒙安全沙箱机制——人工智能应用的安全护盾》

相关课程

更多

深度学习与自动驾驶

声纹识别技术

信息科技前沿技术及应用趋势

视觉AI技术体系及趋势概述

人机对话技术浅析

场景实践 - 基于机器学习进行收入预测分析

相关电子书

更多

自动驾驶方案介绍

强化学习在电商环境下的若干应用与研究

连接现实与虚拟世界的AI交通指挥官

相关实验场景

更多

体育赛事！零代码生成运动风格AI写真。

【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板

以电商场景为例搭建AI语义搜索应用

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

奥运时刻！零代码生成奥运风格AI写真。

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

下一篇

开通oss服务