作为无人驾驶汽车的眼睛,视觉识别的进步正越来越快

简介:

可以说如果没有视觉识别技术,无人驾驶技术根本不可能实现,因为它就是无人驾驶汽车的眼睛。

无人驾驶一般包括五个等级,但是不管哪个等级都会包含环境感知、规划决策和执行控制等三个方面,其中环境感知方式主要有视觉识别、毫米波雷达感知和激光雷达感知。毫米波雷达感知和激光雷达镁客君在《简析无人驾驶雷达技术,毫米波雷达和激光雷达应相辅相成》一文中有过分析,今天我们就来说一下视觉识别。

\

特斯拉曾经因视觉识别的缺陷而被人口诛笔伐

今年分别发生在美国和中国的两起特斯拉自动驾驶状态下的车祸致死事件,本质上就是因为视觉识别技术的缺陷导致。具体分析如下:

\

美国的车祸中,由于特斯拉车上的毫米波雷达装位置较低,无法检测卡车高的车厢,而摄像头当时应该已经能检测到卡车了。不过车辆的行驶过程中,两个探测设备在最后融合起来的时候可能出现了问题,未能识别卡车所处位置,最终导致车祸发生。

\

国内的车祸中,特斯拉在跟车过程中,前车突然变道,前方工程车辆速度较慢,与特斯拉之间距离迅速缩短,毫米波雷达无法扫描到近距离的侧向车。加之摄像头当时仅收录了部分工程车车体,进而视觉识别无法及时反应,最终导致车毁人亡。

上述两起事故,虽然只是所有有关特斯拉自动驾驶车祸中最典型的两起,但却足以说明在视觉识别技术尚未完善的情况下,使用自动驾驶模式是非常危险的。同样,视觉识别技术对于自动驾驶、无人驾驶技术的重要性也不言而喻。

目标由静至动的转变,是汽车领域的视觉识别最大挑战之一

传统的视觉识别常见的应用场景有文字转录、人脸识别、指纹识别等等,不过这些视觉识别技术都有一个共同的特点,都是静止状态下的识别。而在汽车领域,视觉识别在识别内容和要求两个方面就与传统视觉识别有所不同。

\

识别内容方面,汽车领域的视觉识别最大难点在于,摄像头和识别目标两者都是相对运动的。比方说需要识别的机动车、非机动车、人,这些物体是参与交通的一部分且是处于主动运动状态。而障碍物,以及交通牌、红绿灯等交通标识则是相对运动状态。

而识别要求方面,则是追求低成本的同时还强调性能。一个足够强大的视觉识别系统,其实是可以替代激光雷达的作用,从而降低自动驾驶成本。但是由于技术特性的不同,也会带来一定的可靠性问题。对于汽车而言,即使出现短暂性的问题都可能会严重威胁人身财产安全,比方说特斯拉的那两起事故。

\

正是由于汽车领域的视觉识别既要求成本又要求性能,而识别内容又更加繁复,因此视觉识别在汽车领域的应用难点尤其突出。

深度学习让视觉识别更上一层楼

深度学习可以算是近些年来人工智能领域的最大突破之一,如果在算法和样本量足够的情况下,其准确率可以达到99.9%以上,而传统的视觉算法检测精度的极限在93%左右。这样一来,将深度学习融入视觉识别系统,可以使得无人驾驶技术更加完善。

\

无人驾驶的环境感知部分包括车道线、车辆、行人、交通标志等目标的自动检测,这就要用机器学习的方法去完成自动识别工作,而深度学习是目前为止最好的机器学习方法。深度学习利用其深层的神经网络,通过一定的算法能训练出一个识别率非常高的分类器,从而能够使环境感知部分高精度的完成,为驾驶决策模块提供正确的环境信息,保证无人驾驶正常的完成。

所以说,相比于传统模式识别算法,深度学习算法所具备的精确度更高、环境适应性更强等特点,让无人驾驶技术中的视觉识别更上一层楼,也让整个无人驾驶技术更完善。

\

汽车想要完成自动或者无人驾驶动作,能够感知和识别周围的物体是最基本的前提条件。看完上面的内容,相信各位看官也可以对视觉识别有一定的了解,镁客君后面也会给大家带来一篇有关视觉识别行业的深度文章,敬请期待。


原文发布时间: 2016-11-25 17:41
本文作者: JOKER
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。
相关文章
|
3天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
271 116
|
18天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
5天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
367 36
Meta SAM3开源:让图像分割,听懂你的话
|
12天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
665 220
|
17小时前
|
Windows
dll错误修复 ,可指定下载dll,regsvr32等
dll错误修复 ,可指定下载dll,regsvr32等
121 93
|
10天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1597 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
897 61