2 车型识别的探索和实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、视频结构化等领域等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。例如在监控安防领域,我们可以通过对行人和车辆进行目标检测、识别,对目标结构化,再将结构化后的语义存储起来,实现文字和视频的映射,能够在警察办案时提供快速查询视频的能力。而在工业场景下,目标检测可以对产品进行缺陷检测,在自动化流水线上设置高清摄像头,对工业产品的缺陷特征建模后,摄像头采集产品的图片,目标检测模型就能定位产品上的缺陷,从而提高产品质检的效率,提高收益。由于深度学习的广泛运用,目标检测算法得到了较为快速的发

2.1 研究意义
(1)解决视频资源无法产生价值、浪费存储资源的问题
在园区安防、仓储监管、智慧交通领域,有大量的摄像头对某一场景进行监控,并将获得的视频存储到本地服务器,占用大量的存储资源,存储一定周期后便进行删除。所获得视频资源除了备份之外,并未发挥更多的价值。而通过视频结构化分析,一方面可以通过提取关键帧、关键元素来减少视频存储的资源消耗,另一方面,便于检索,在需要时可以更快速地找到目标。
(2)解决无法融入大数据体系的问题
监控录像作为非结构化数据,它不能直接被计算机读取和识别,因此一直无法较好地与大数据体系进行兼容,无法利用计算机来进行视频数据的分析和挖掘。而视频图像能否通过智能分析技术经济而又高效地进行结构化处理,是视频大数据在智慧城市、数字社区领域落地的关键。
(3)沉淀产品 —— 视频结构化分析
视频结构化不仅仅可以服务于雷数大数据平台,也可以作为单独的产品提供给客户,结合人体行为识别,可以针对用户的某一特定场景产生价值,如工人进入工地是否带安全帽、作业行为是否符合规范等。
(4)技术积累 —— 计算机视觉
当前人工智能在工业场景的应用中,计算机视觉技术的需求场景占据较多比例,同时在工业、物流业、智慧城市行业的项目中有多种应用,但公司目前在该领域的技术积累仍然较少,因此实践和积累相关的计算机视觉技术经验对于公司未来发展具有重要意义。
2.2 公开数据集
MIO-TCD数据集是由在一天中的不同时间和一年中不同时段获得的137,743个图像组成,这些图像来自在加拿大和美国各地部署的数千个交通摄像机。选择这些图像是为了应对广泛的目标识别挑战,并且代表了当今城市交通情景中捕获的典型视觉数据。每个移动物体已被近200人仔细识别,以便于实现各种算法的定量比较和排序。该数据集旨在提供严格的基准测试,用于训练和测试现有的或新的算法,对交通场景中移动车辆进行分类和定位。
包含的数据标签有11类:
o Articulated truck(铰链式挂车)
o Bicycle(自行车)
o Bus(公交车)
o Car(轿车)
o Motorcycle(摩托车)
o Motorized vehicle (i.e. Vehicles that are too small to be labeled into a specific category)(因目标对象在图像中太小而无法标定为特定类别的车辆)
o Non-motorized vehicle(非机动车)
o Pedestrian(行人)
o Pickup truck(皮卡车)
o Single unit truck(单箱载重汽车)
o Work van(7座的商务车或面包车)
类别样例如下:
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

Articulated truck Bicycle Bus Car

Motorcycle Non-motorized vehicle Pedestrian Pickup truck

Single unit truck Work van
然后我们开始对车型图片进行标注,标注的软件我们使用的是开源的LabelImg,下载地址:https://github.com/tzutalin/labelImg。点击“Open Dir”、“Change Save Dir”选择刚刚建立的images以及labels文件夹,接下来就可以使用按钮选择需要label的图片,点击“Create RectBox”激活窗口绘图工具,开始标注,如图5.2所示。
image.png

模型训练完成,如图所示,能识别出car、work_van、single_unit_truck、pedestrian这些细分特征。mAP=0.70.
image.png

2.3 结果评价
YoloV3在其官网的介绍中写道,其在COCO数据集中能达到60.6%的map,而本文使用的MIO-TCD数据集在2017年的CVPR MIO-TCD挑战赛的结果中,最高达到了77%的平均精度,因此,本文测试的YoloV3模型的mAP为70%属于正常范围。YoloV3在55个epoch的训练后期有点过拟合了,所以,模型继续训练的意义不大,只能更改YoloV3模型,提高其性能。
YOLOv3参数表如表5.2所示,方便以后再遇到类似目标检测任务时速查。
表5.2 YOLOv3训练参数
参数类型 参数值
batch_size 8
image_size 416
cfg.filters num(yolo层个数)*(classes+5)
epoch 52
mAP 0.7
image.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术介绍
【10月更文挑战第14天】 人工智能技术介绍
|
机器学习/深度学习 PyTorch 算法框架/工具
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。
1119 9
|
canal 关系型数据库 中间件
开源数据同步神器——canal
作为使用最广泛的数据库,如何将mysql的数据与中间件的数据进行同步,既能确保数据的一致性、及时性,也能做到代码无侵入的方式呢?如果有这样的一个需求,数据修改后,需要及时的将mysql中的数据更新到elasticsearch,我们会怎么进行实现呢?
17977 1
|
4月前
|
人工智能 JSON 缓存
利用 CodeBuddy 构建高效可维护的《植物大战僵尸》游戏项目
本文介绍基于Python开发的《植物大战僵尸》游戏项目,采用模块化设计,包含游戏逻辑、资源管理、UI与音效系统。通过CodeBuddy平台,实现智能代码补全、错误诊断、实时协作等功能,大幅提升开发效率。项目支持5种植物与4种僵尸,具备可扩展架构与关卡配置驱动机制。未来将探索Web/移动端移植及联网对战功能,欢迎访问GitHub贡献代码或体验。
217 8
|
6月前
|
算法 数据安全/隐私保护
基于MPC在线优化的有效集法位置控制器simulink建模与仿真
本课题研究模型预测控制(MPC),一种基于模型的优化控制方法,可处理系统动态特性、输入输出约束及不确定性。通过Simulink实现MPC在线优化的有效集法位置控制器建模与仿真,并与RCNC控制器对比。有效集法适用于带约束的优化问题,通过逐步更新活动集找到最优解。系统基于MATLAB 2022a开发,核心程序包含初始化、搜索方向确定、步长计算、活动集更新及终止准则等关键步骤。
|
12月前
|
网络协议 开发工具 git
hexo github部署,通过域名访问你的博客
本文介绍了如何使用Hexo命令部署博客到GitHub,并详细说明了如何通过自定义域名访问GitHub上部署的博客。
hexo github部署,通过域名访问你的博客
|
6月前
|
运维 容灾 API
云栖大会 | 阿里云网络持续演进之路:简单易用的智能云网络,让客户专注业务创新
云栖大会 | 阿里云网络持续演进之路:简单易用的智能云网络,让客户专注业务创新
251 2
|
安全 关系型数据库 Linux
|
存储 开发框架 网络协议
深入了解Java中的嵌入式开发
深入了解Java中的嵌入式开发
310 0
|
传感器 人工智能 搜索推荐
移动应用开发的未来趋势:人工智能与物联网的融合
【4月更文挑战第7天】随着科技的不断发展,移动应用开发正面临着新的挑战和机遇。本文将探讨人工智能(AI)和物联网(IoT)在移动应用开发中的融合,以及这一趋势如何影响未来的移动应用。我们将分析AI和IoT技术的关键特性,以及它们如何相互补充,为移动应用带来前所未有的智能化和互联性。此外,我们还将讨论开发者如何利用这些技术为用户提供更智能、更便捷的服务。