AI老司机,驾龄等于人类2万年:计划两年登上百万台车

简介: AI老司机,驾龄等于人类2万年:计划两年登上百万台车


毫末智行的 HPilot,不到一年时间就站上了国内智能驾驶第一。


自动驾驶前进的速度,比我们想象得要快一些:今年,全场景辅助驾驶就会在国内落地了。

4 月 19 日,毫末智行在 AI DAY 活动正式推出「城市智慧领航辅助驾驶系统」NOH,并预计将于年中量产落地。

图片.png


「2021 年,毫末智行提出中国自动驾驶的新范式,也就是毫末智行的致胜公式:以领先的数据智能体系,乘以稳定的量产能力乘以安全,之后再乘上生态的 N 次方。毫末智行的致胜公式源于毫末对自动驾驶行业的深刻理解,是毫末智行自动驾驶技术产业化落地的重要举措,」毫末智行董事长张凯在活动中说道。

随着技术的发展,高级别智能驾驶正处在大规模量产的前夜。为毫末所有智能驾驶产品提供技术动力支撑的自研数据智能体系 MANA 正发挥出巨大优势。

智能驾驶领域里,毫末智行已经进入领先者队列,这家公司刚刚公布了最新辅助驾驶总里程记录:已突破 700 万公里,用户使用总时长超过 13 万小时。

在毫末产品规模量产的进展上,去年 3 月,毫末智行在品牌开放日活动中展示了 HPilot 1.0 系统,5 月实现量产落地。截止今年 4 月,HPilot 已登陆魏牌摩卡、坦克 300 城市版、魏牌玛奇朵 DHT、魏牌拿铁 DHT、哈弗神兽、坦克 500 六款车型,成为国内应用量最多的自动驾驶系统。
image.gif图片.png

「最近一年,自动驾驶的基础技术发生了很多变化,车载芯片算力不断提升,Transformer 跨模态模型获得应用,摄像头清晰度增加。在感知技术进化的前提下,辅助驾驶实现的方法也在发生改变,」毫末智行 CEO 顾维灏说道。

在城市辅助驾驶任务上,MANA 从感知到认知层面的能力都有了大幅度升级。


MANA 进化:学会看红绿灯,多模态 Transformer

从高速路到城市辅助驾驶,路况的复杂程度成倍增长,让汽车学会如何看红绿灯并识别对应的车道线就是重要的挑战之一。

从 AI 技术的角度看,这就是一个小目标检测问题:交通灯的状态会动态变化,又具有明显地方特色,横着的、竖着的、三个的、五个的、有待转的、有倒计时的,形色各异。智能驾驶系统必须区分每个灯具体指示哪条线路。

image.gif

图片.png


毫末给出的解决方法是通过图像合成和迁移学习加快技术的迭代,其中主要的挑战是实现真实数据和合成数据的混合训练。通过图像合成技术,毫末的工程师扩大了机器学习的样本量,弥补了真实场景数据样本不均衡的问题。

在不完全依赖高精地图的情况下,若想成功实现红绿灯识别,需要完成灯型和状态的检测,同时也要完成在视野中多组红绿灯中识别目标灯组的绑路操作。毫末智行设计了一个针对红绿灯检测及绑路的「双流」感知模型,将红绿灯检测和绑路问题分解成两个通道。

图片.pngimage.gif


据毫末介绍,这种技术类似于人脑的视觉感知通道,其中 ventral stream 主要携带物体检测及识别信息,主要负责识别通路(what),dorsal stream 主要携带视野中位置及空间关系的信息,主要负责寻找路线(where)。

在双流模型中,ventral 通路主要负责红绿灯的识别信息,包含对红绿灯灯箱的检测和灯型的分类,分别输出红绿灯的颜色、形状和朝向信息。Dorsal 通路主要负责红绿灯绑路,输出目标车道的红绿灯灯组,其通过训练生成特征图,获得真实图像中经常出现红绿灯位置的位置概率。

随后,模型利用空间注意力机制将二者结合起来,双流模型将输出绑路后的目标车道红绿灯通行状态。

图片.png


训练完成后,毫末智行对这些模型进行了大量测试,在不同城市、不同距离、不同转向目标、不同光线的条件下均实现了准确的效果。

Transformer 架构是当前人工智能领域最热门的技术。过去一年里,视觉 Transformer(ViT)已经成为视觉识别的强大支柱。由于性能强大,其在自动驾驶的各独立传感器中都获得了应用。

人们发现,Transformer 结构可为自动驾驶带来几种优势:更高效地利用模型体量和数据,通过注意力结构融合多模态数据,减少对于标注数据的依赖。

图片.png


在多传感器融合的尝试中,交叉注意力机制(Cross Attention)被用来作为多模态数据的融合工具,大量减少了人工先验的介入,可以让基于优化的端到端算法和数据驱动更方便的结合,进一步发挥 Transformer 架构的潜力。

image.gif

图片.png


毫末智行根据智能驾驶任务的特点提出了自己的 BEV Transfomer,利用注意力机制解决了多相机视角拼接问题,在车道线识别任务上取得了进步。

具体来说,新系统在得到摄像头数据后,首先对 2D 图像用 Resnet + FPN 进行处理,之后进行 BEV Mapping,利用 Cross Attention 来动态的确定某一帧图像中的内容在相机所属 BEV 空间中的位置。通过多个 Cross Attention,最终组成一个完整的 BEV 空间。

当视觉特征完成 BEV 投射之后,就天然具备了和 LiDAR 模型的融合能力。最后,算法又通过 History BEV 加入与时间有关的特征,进一步提升识别的准确率和连续性。

图片.png


在自动驾驶中应用 Transformer 可谓最前沿的尝试,获得的回报也非常可观。特斯拉 AI 总监 Andrej Karpathy 曾介绍了特斯拉 FSD 基于 Transformer 的 BEV 网络结构,由于 BEV 空间下的感知结果与决策规划所在的坐标系是统一的,因此感知与后续模块通过 BEV 变换可以紧密联系到一起。此外,BEV 方法可以有效融合多传感器的输出,让近处大目标尺寸估计和追踪都变得更加准确。该方法的使用确立了 FSD 在视觉感知的领先地位。

那毫末 BEV Transfomer 的实现效果如何呢?毫末表示新的方法对自车姿态的容忍度更高,在复杂路面纵向误差表现更好,对于路面起伏的鲁棒性更高。另外,利用多相机输出内容相互辅助,扩充了检测视野,自动驾驶对周围事物的响应也更快。

目前在业内,只有毫末智行和特斯拉在自动驾驶视觉上大规模应用了 Transformer 架构。此类感知算法在稳定成熟后,将逐步替换基于 CNN 的感知算法。


用大模型实现自动驾驶「认知」能力

城市自动驾驶面临的复杂问题往往超过感知层面。在更高层次的认知问题上,毫末智行也有一些新成果。比如非常微妙的路口博弈场景的左转待转时,辅助驾驶车辆需要等待前方掉头车,还需观察避让对向直行车辆、与对向右转车交互。

处理这样的场景,过去自动驾驶算法需要写非常多的规则式场景判定和参数,代码难以调试。当规则越来越多的时候,就会引发逻辑爆炸,导致规则失效。毫末则使用机器学习模型来替换手写规则和参数,获得更广泛的适用性。

毫末提出的 TarsGo 模型目前可以处理很多复杂的辅助驾驶场景,如环岛、辅路汇入、压速变道等等。

图片.pngimage.gif


去年,阿里提出了 10 万亿参数超大规模中文预训练模型 M6,成为国内首个实现商业化落地的多模态大模型。毫末智行和阿里达摩院进行了合作,使用 M6 对自动驾驶数据进行图像可解释性标注,获得了前所未有的效果。

通过注意力机制,AI 模型可以用热力图方式量化出与周围交通参与者的安全风险,近距离用红色表示,输出 Attention High,而中距离用黄色表示,输出 Attention Middle。

图片.png


M6 在自动驾驶领域的应用体现了 AI 能力的普惠化 —— 以往被其他行业使用的数据,现在也可以迭代提升自动驾驶能力了。

毫末智行还与阿里合作,基于 128 卡 A100 集群,实现了 Swin Transformer 模型分布式训练,探索了混合精度训练、算子和编译的优化,使大模型训练成本降低了 60%,加速比超过 96%。

图片.png


在机器学习任务中,数据处理经常占用大部分时间。毫末智行还通过标注过程自动化,将数据标注的效率自动化率提升到了 80%,大幅减少了自动驾驶算法训练的成本。

通过与大算力平台深度融合,自动驾驶认知能力得到了飞速提升,这些技术进步终于让城市智能驾驶成为了可能。


国内首个量产城市辅助驾驶系统 HPILOT 3.0,今年上线

目前,国内高速公路里程约 16 万公里,城市道路里程则早已突破 1000 万公里,在其范围内还有 40 万个城市路口和 130 万个红绿灯。根据毫末的数据,在城市场景下的通勤,有 85% 是拥堵和半拥堵情况。拥堵变道、借道绕障、路口博弈、非机动车出现是城市辅助驾驶必须面临的问题。

毫末目前已完成了城市 NOH 的全部功能开发,其数据智能体系 MANA 的学习时长达 197273 小时,虚拟驾龄相当于人类司机 2 万年。

毫末即将推出的下一代城市智能驾驶系统 HPilot 3.0 将配备 AI 算力 360T,高速缓存 144M,CPU 计算能力达到 200K+DMIPS 的新一代自动驾驶芯片。全车搭载 2 个激光雷达、12 个摄像头,5 个毫米波雷达形成的多冗余感知体系。

图片.png


城市 NOH 能够根据导航路线在城市环境中应对各种复杂交通场景,实现城市区域内点到点安全、轻松的智慧出行。根据目前的测试,该系统实现了 70% 路口通过率,变道成功率 90%。

仅用一年多时间,毫末智行就帮助长城完成了智能驾驶能力的升级,率先站在了下一阶段城市智能驾驶的起跑线上。在国内除毫末智行外,目前仅有小鹏明确表示将在今年上线城市辅助驾驶能力。

毫末为今年制定的目标是 NOH 系统覆盖超过 30 款新车。在未来两年,搭载毫末辅助驾驶系统的乘用车数量将超过 100 万台。按照这一目标,毫末将在未来持续保持中国量产自动驾驶第一名的位置。

图片.png


「随着自动驾驶、辅助驾驶的成熟,这些新技术不仅能够有效保障交通参与者的生命安全,还能够逐步释放驾驶者的驾驶时间,缓解驾驶疲劳,获得出行效用的提升,」顾维灏表示。

在大规模量产后,毫末智行智能驾驶的核心——MANA数据智能,势必将会随数据和技术的积累,在业内树立标杆。

相关文章
|
3月前
|
人工智能
钉钉AI助理创造大赛来袭,百万奖金等你拿!
尽情发挥你的想象力与创造力吧>>
|
1月前
|
人工智能 JavaScript 开发工具
嘿!AI 编码新玩法上线!
基于阿里云强大的大模型能力和智能算力,灵码能以毫秒级的速度生成测试代码,准确率和覆盖率都令人满意。并兼容 Java、Python、JavaScript、TypeScript、C/C++ 等 30 多种主流编程语言。当前,通义灵码下载量已经突破百万,并且各大 IDE 插件市场均已上线,为方便广大开发者更好地了解通义灵码极佳的编码能力,特别设计通义灵码体验体验活动。
767 37
|
8月前
|
人工智能
AI绘画关键词网站推荐 :轻松获取百万个提示词!完全免费
AI绘画关键词网站推荐 :轻松获取百万个提示词!完全免费
368 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
百万中小商家用AI翻译,让国货出海
百万中小商家用AI翻译,让国货出海
103 0
|
机器学习/深度学习 人工智能 自动驾驶
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
112 0
AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络
|
机器学习/深度学习 人工智能 算法
可以学习人类语言模式的人工智能
一种新的人工智能自动学习模型可以应用于不同语言的高级语言模式,使其能够取得更好的结果。
108 0
可以学习人类语言模式的人工智能
|
人工智能 开发者
院士、百万博主、机器汪精彩纷呈|昇腾 AI 开发者创享日全国巡展南京站成功举办!
院士、百万博主、机器汪精彩纷呈|昇腾 AI 开发者创享日全国巡展南京站成功举办!
院士、百万博主、机器汪精彩纷呈|昇腾 AI 开发者创享日全国巡展南京站成功举办!
|
人工智能 算法 芯片
人工智能无法取代人类工作的六个原因
虽然人工智能被设计成一种更有效、更快速的工作方式来取代手工劳动,但它无法取代工作空间中对人工输入的需求。
359 0
人工智能无法取代人类工作的六个原因
|
机器学习/深度学习 人工智能 算法
AI到来,可能会给人类社会带来的影响
人类该如何应对AI时代,目前对AI大多是预测,其可能会带来的影响。
AI到来,可能会给人类社会带来的影响
|
机器学习/深度学习 数据采集 人工智能
借助AI 人类能听懂动物的“喜怒哀乐”?
人工智能是否可以实现人与动物的沟通?算法具体是如何分辨动物情绪的?目前,人类要通过AI理解动物语言,还需克服哪些困难?
借助AI 人类能听懂动物的“喜怒哀乐”?

热门文章

最新文章