George Hotz:请收下我的智驾系统代码(附论文)

简介:
桀骜不逊的自动驾驶破局者


智驾深谈的第一期,就是关于这位老兄George Hotz,江湖人称GeoHot,“声名狼藉的”iPhone和PlayStation破解者,做过多家IT帝国的被告。几个月前研究上了自动驾驶技术,紧接着就公然挑战Tesla、Google和Mobileye,自嘲是个“智痴(I'm an Idiot.)”,而其他家的水平,只能算是智障。Musk发邮件邀请他去Tesla,被他拒了,声称自己年底就要出不到一万人民币的产品,而且效果绝对秒杀。四月初拿到了310万美元融资,并在拉斯维加斯正常车流中,GeoHot演示了目前的技术进展,完成度颇高,只用了一个前置摄像头,以及一个草草贴在前保险杠上的毫米波雷达。


深度学习端到端:开源概况


此前我提过,目前的自动驾驶技术可以划分为两类,一种是感知-决策-控制然后不断闭环,每个模块用不同的方法力争最好,很多情况下需要专家提供基于经验的规则。另一种则是GeoHot正在采用的办法,叫做End-to-End,端到端方法,指以摄像头的原始图像作为输入,直接输出车辆的速度和方向,中间用某种数学模型来拟合逼近最优驾驶策略,目前常用的就是深度学习模型。


本次GeoHot开源的东西非常丰富,包括下面几个内容:


  • 七小时十五分的高速公路图像数据

  • 两种使用该数据的机器学习实验方法

  • 一篇利用深度学习RNN网络进行自动驾驶的论文(在新智元公众平台回复0806下载)

  • 整套试验代码包括tensorflow,anaconda,keras等常用工具的用法


这些材料,足够读者复现GeoHot为Bloomberg演示的效果,比起此前Mobileye或者Nvidia光发布论文前进了一大步。

 

深度学习端到端:数据准备

                       

驾驶数据是本次开源的重要组成部分,不但包括前视摄像头裁剪的数据,共计7.25小时,分为11个视频,160*320大小,并且还包括了GeoHot那辆讴歌采集的转向、制动、速度以及惯导数据,以及图像输入和控制输出的同步时间戳数据。本次发布的论文主要聚焦在通过图像输入来学习控制转向和速度,GeoHot将图像缩小为80*160并将像素值归一化。


深度学习端到端:模型介绍



目前深度学习用于自动驾驶可以大概分为两类,一类是收集驾驶数据,离线训练模型,不断逼近人类驾驶员;另一类是在模拟器中,利用Q函数,不断自我决策和试错来提高驾驶技术。由于真正图片的复杂以及输出命令的连续性,使得现实世界中能够得到好结果比较困难,所以我们目前见到的很多都是在模拟器中尝试。



本次GeoHot开源的是第一种方法,且是在真实道路上经过实测的。其基本原理是,将摄像头获得的图像数据,利用Autoencoder编码(如上图锁匙,期间还用到最近很火的GAN),然后用一个RNN深度网络来从人类驾驶数据中学习,最终预测下一步操作。


深度学习端到端:代码概要



从代码结构上来看,大概可以分为数据、模型和训练框架三部分,其中模型部分包括了autoencoder和RNN,训练框架则以server.py文件作为入口。


结语


我非常惊讶于GeoHot做出这次开源的决定,看过论文和代码之后,相信复现他们演示结果并不是一件很难的事情,算是让大部分想要尝试深度智驾模型而又无从下手的人得到了福利。那么开源是否会对整个智驾产业带来影响呢?如果你觉得GeoHot还不够强的话,Google未来开源了会不会有影响呢?谁也很难说智驾不会像智能手机一样,成为下一个兵家必争之地。


文章转自新智元公众号,原文链接

相关文章
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
【2月更文挑战第24天】当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
85 2
当prompt策略遇上分治算法,南加大、微软让大模型炼成“火眼金睛”
揭秘AI大模型的‘梦幻迷雾’:一场关于真实与虚假的智力较量,你能否穿透幻觉迷雾,窥见真相之光?
【10月更文挑战第13天】本文深入探讨了大模型幻觉的底层逻辑,分析了其产生的原因、表现形式及解决方案。从数据质量、模型复杂度、解码策略等方面解析幻觉成因,提出了提高数据质量、引入正则化技术、增强上下文理解等对策,旨在减少大模型生成不准确或虚假信息的风险。
153 1
埃隆·马斯克:第一性原理和五步工作法
马斯克的逆推式五步工作法不仅是一种高效解决问题的思维框架,也为团队提供了一种优化流程的清晰路径。
203 1
埃隆·马斯克:第一性原理和五步工作法
|
8月前
|
ACL 2024:大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用
【7月更文挑战第8天】北大研究团队推出KIEval框架,针对大语言模型(LLMs)的性能评估进行创新。KIEval采用互动评估和动态出题,通过多轮基于知识的对话测试模型理解和应用能力,旨在减少数据污染影响,挑战死记硬背的评估。然而,该方法可能增加计算需求,且评估结果可能受主观因素影响,不适用于所有类型LLMs。[论文链接:](https://arxiv.org/abs/2402.15043)**
143 24
|
9月前
技术好文共享:蒙提霍尔悖论(三门问题)终极分析
技术好文共享:蒙提霍尔悖论(三门问题)终极分析
84 1
JCR一区7.4分|教科书般网药四件套+实验验证,廉颇老矣尚能饭否
该文章是一篇发表在《Journal of Translational Medicine》上的研究,探讨了白藜芦醇治疗糖尿病肾病(DKD)的机制。通过网络药理学、分子对接和实验验证,研究发现白藜芦醇可能通过作用于PPARA、SHBG、AKR1B1、PPARG、IGF1R、MMP9、AKT1和INSR等靶点影响DKD。分子对接和细胞实验进一步证实了这些发现,为白藜芦醇在DKD治疗中的应用提供了理论支持。
114 0
【软/自考】算法写作思路
【软/自考】算法写作思路
55 0
即将发布的2021年度「Pop SOTA!」名录是否漏了贵组的重要工作?速来查缺补漏~
即将发布的2021年度「Pop SOTA!」名录是否漏了贵组的重要工作?速来查缺补漏~
135 0
即将发布的2021年度「Pop SOTA!」名录是否漏了贵组的重要工作?速来查缺补漏~
我国研发成功世界首台拟态计算机 受自然界最为奇妙的“伪装大师”——拟态章鱼的启发
2013年9月21日,我国宣布自主研发的世界第一台拟态计算机在上海研制成功,并通过863专家组验收。拟态计算机由中国工程院院士邬江兴带领科研团队,在科技部和上海市政府联合支持下,联合国内外十余家单位,聚合500余名研究人员,历时6年研究而成。
593 0
我国研发成功世界首台拟态计算机 受自然界最为奇妙的“伪装大师”——拟态章鱼的启发

新智元

+ 订阅