基本功能演示
摘要:
车辆行人多目标检测与追踪系统
结合了先进的YOLOv8目标检测技术与ByteTrack多目标跟踪算法,能够在实时视频画面中准确地检测并跟踪行人与车辆。这一系统对于改善交通安全、提高城市监控效率以及增强公共安全管理具有显著的重要性。本文基于YOLOv8深度学习框架
,通过5607张图片
,训练了一个进行车辆与行人
的目标检测模型,准确率高达94%
;然后结合ByteTrack
多目标跟踪算法,实现了目标的追踪效果。最终基于此开发了一款带UI界面的车辆行人多目标检测与追踪系统
,可用于实时检测场景中的车辆与行人检测追踪,可以更加方便的进行功能展示。该系统是基于python
与PyQT5
开发的,支持视频
以及摄像头
进行多目标检测追踪
,也可选择指定目标追踪
,支持保存追踪结果
视频。本文提供了完整的Python代码和使用教程,给感兴趣的小伙伴参考学习,完整的代码资源文件获取方式见文末。
前言
车辆行人多目标检测与追踪系统
结合了先进的YOLOv8目标检测技术
与ByteTrack多目标跟踪算法
,能够在实时视频画面中准确地检测并跟踪行人与车辆
。这一系统对于改善交通安全、提高城市监控效率以及增强公共安全管理具有显著的重要性。实时的追踪可以帮助相关部门快速响应各种交通和安全事件,降低事故发生风险,并为城市交通规划和管理提供数据支持。
车辆行人多目标检测与追踪系统的
应用场景主要包括
:
交通监控
:实时监测城市交通流量、行人穿行情况,分析交通拥堵,优化交通信号控制。
事故分析与应对
:在交通事故发生时提供准确的事故记录,辅助事故原因分析和快速响应。
安全监督
:用于公共场所和重要设施周边的安全监控,检测可疑行为,预防犯罪行为的发生。
自动驾驶辅助系统
:整合至自动驾驶系统中,帮助车辆更好地理解周边环境,避免与行人和其他车辆的碰撞。
城市规划
:通过长期数据收集分析人流和车流模式,为城市规划和基础设施建设提供决策支持。
零售与商业分析
:在商业区域监测人流和车流量,为零售和商业活动的布局提供依据。总结来说,车辆行人多目标检测与追踪系统的应用可以在多个层面提高城市管理和居民的生活质量。该系统能够为交通安全和城市安全提供有力支撑,是智慧城市建设和智能交通系统中不可或缺的一部分。通过对实时视频画面的深度分析,该系统不仅可以预防和减少交通事故,还能为未来城市的可持续发展提供数据驱动的见解。
博主通过搜集车辆与行人
的相关数据图片,根据YOLOv8的目标检测与ByteTrack多目标追踪技术,基于python与Pyqt5
开发了一款界面简洁的车辆行人多目标检测与追踪系统
,可支持图片、视频以及摄像头检测
,同时可以将图片或者视频检测结果进行保存
。本文详细的介绍了此系统的核心功能以及所使用到的技术原理与制作流程。
软件初始界面如下图所示:
检测结果界面如下:
一、软件核心功能介绍及效果演示
软件主要功能
1. 可进行车辆
与行人
多目标检测与追踪,也可以指定目标进行追踪
;
2. 可实时显示检测画面中的车辆与行人数目
;
3. 支持图片、视频及摄像头
进行检测,同时支持图片的批量检测
;
4. 界面可实时显示目标位置
、目标总数
、置信度
、用时
等信息;
5. 支持图片
或者视频
的检测结果保存
;
界面参数设置说明
显示追踪轨迹
:用于设置检测的视频中是否显示目标追踪轨迹
,默认勾选:表示显示追踪轨迹,不勾选则不显示追踪轨迹;显示检测框
:用于设置检测的视频中是否显示目标检测框与标签
,默认勾选:表示显示检测框与标签,不勾选则不显示检测框与标签;置信度阈值
:也就是目标检测时的conf参数
,只有检测出的目标置信度大于该值,结果才会显示;交并比阈值
:也就是目标检测时的iou参数
,只有目标检测框的交并比大于该值,结果才会显示;
IoU:全称为Intersection over
Union,表示交并比。在目标检测中,它用于衡量模型生成的候选框与原标记框之间的重叠程度。IoU值越大,表示两个框之间的相似性越高。通常,当IoU值大于0.5时,认为可以检测到目标物体。这个指标常用于评估模型在特定数据集上的检测准确度。
显示追踪轨迹
与显示检测框
选项的功能效果如下:
(1)图片检测演示
点击打开图片
按钮,选择需要检测的图片,或者点击打开文件夹
按钮,选择需要批量检测图片所在的文件夹,操作演示如下:
点击目标下拉框后,可以选定指定目标的结果信息进行显示。 点击保存
按钮,会对视频检测结果进行保存,存储路径为:save_data
目录下。
点击表格中的指定行,界面会显示该行表格所写的信息内容。
注:1.右侧目标位置默认显示置信度最大一个目标位置。所有检测结果均在左下方表格中显示。
单个图片检测操作如下:
批量图片检测操作如下:
(2)视频检测演示
1.点击打开视频
图标,打开选择需要检测的视频,就会自动显示检测结果。再次点击该按钮,会关闭视频
。
2.点击目标选择下拉框
,可以选择指定的目标进行追踪
;
3.点击保存
按钮,会对视频检测结果进行保存,存储路径为:save_data
目录下。
(3)摄像头检测演示
点击打开摄像头
图标,可以打开摄像头,可以实时进行检测,再次点击该按钮,可关闭摄像头
。
(4)保存图片与视频检测结果
点击保存
按钮后,会将当前选择的图片【含批量图片】或者视频
的检测结果进行保存。检测的图片与视频结果会存储在save_data
目录下。
保存的检测内容如下:
二、目标检测模型的训练、评估与推理
1.YOLOv8的基本原理
YOLOv8是一种前沿的目标检测技术,它基于先前YOLO版本在目标检测任务上的成功,进一步提升了性能和灵活性。主要的创新点包括一个新的骨干网络、一个新的 Ancher-Free 检测头和一个新的损失函数,可以在从 CPU 到 GPU 的各种硬件平台上运行
。
其主要网络结构如下:
2. 数据集准备与训练
通过网络上搜集关于车辆行人的各类图片
,并使用LabelMe标注工具对每张图片中的目标边框(Bounding Box)及类别进行标注。一共包含5607张图片
,其中训练集包含4485张图片
,验证集包含1122张图片
,部分图像及标注如下图所示。
图片数据的存放格式如下,在项目目录中新建datasets
目录,同时将检测的图片分为训练集与验证集放入CarPersonData
目录下。
同时我们需要新建一个data.yaml
文件,用于存储训练数据的路径及模型需要进行检测的类别。YOLOv8在进行模型训练时,会读取该文件的信息,用于进行模型的训练与验证。data.yaml
的具体内容如下:
# train and val data as 1) directory: path/images/, 2) file: path/images.txt, or 3) list: [path1/images/, path2/images/] train: E:\MyCVProgram\CarPersonTrack\datasets\CarPersonData\images\train val: E:\MyCVProgram\CarPersonTrack\datasets\CarPersonData\images\val # number of classes nc: 2 # class names names: ['person', 'car']
注:train与val后面表示需要训练图片的路径,建议直接写自己文件的绝对路径。
数据准备完成后,通过调用train.py
文件进行模型训练,epochs
参数用于调整训练的轮数,batch
参数用于调整训练的批次大小【根据内存大小调整,最小为1】,代码如下:
# 加载模型 model = YOLO("yolov8n.pt") # 加载预训练模型 # Use the model if __name__ == '__main__': # Use the model results = model.train(data='datasets/CarPersonData/data.yaml', epochs=250, batch=4) # 训练模型 # 将模型转为onnx格式 # success = model.export(format='onnx')
3. 训练结果评估
在深度学习中,我们通常用损失函数下降的曲线来观察模型训练的情况。YOLOv8在训练时主要包含三个方面的损失:定位损失(box_loss)、分类损失(cls_loss)和动态特征损失(dfl_loss),在训练结束后,可以在runs/
目录下找到训练过程及结果文件,如下所示:
各损失函数作用说明:
定位损失box_loss
:预测框与标定框之间的误差(GIoU),越小定位得越准;
分类损失cls_loss
:计算锚框与对应的标定分类是否正确,越小分类得越准;
动态特征损失(dfl_loss)
:DFLLoss是一种用于回归预测框与目标框之间距离的损失函数。在计算损失时,目标框需要缩放到特征图尺度,即除以相应的stride,并与预测的边界框计算Ciou Loss,同时与预测的anchors中心点到各边的距离计算回归DFLLoss。这个过程是YOLOv8训练流程中的一部分,通过计算DFLLoss可以更准确地调整预测框的位置,提高目标检测的准确性。
本文训练结果如下:
我们通常用PR曲线
来体现精确率和召回率的关系,本文训练结果的PR曲线如下。mAP
表示Precision和Recall作为两轴作图后围成的面积,m表示平均,@后面的数表示判定iou为正负样本的阈值。mAP@.5:表示阈值大于0.5的平均mAP,可以看到本文模型两类目标检测的mAP@0.5
平均值为0.94
,结果还是非常不错的。
4. 检测结果识别
模型训练完成后,我们可以得到一个最佳的训练结果模型best.pt
文件,在runs/trian/weights
目录下。我们可以使用该文件进行后续的推理检测。
图片检测代码如下:
# 所需加载的模型目录 path = 'models/best.pt' # 需要检测的图片地址 img_path = "TestFiles/car_data_1_4648.jpg" # 加载预训练模型 # conf 0.25 object confidence threshold for detection # iou 0.7 intersection over union (IoU) threshold for NMS model = YOLO(path, task='detect') # model = YOLO(path, task='detect',conf=0.5) # 检测图片 results = model(img_path) res = results[0].plot() cv2.imshow("YOLOv8 Detection", res) cv2.waitKey(0)
执行上述代码后,会将执行的结果直接标注在图片上,结果如下:
三、使用ByteTrack进行目标追踪
ByteTrack算法简介
论文地址:https://arxiv.org/abs/2110.06864
源码地址:https://github.com/ifzhang/ByteTrack
ByteTrack算法是一种十分强大且高效的追踪算法
,和其他非ReID的算法一样,仅仅使用目标追踪所得到的bbox进行追踪
。追踪算法使用了卡尔曼滤波预测边界框,然后使用匈牙利算法进行目标和轨迹间的匹配。
ByteTrack算法的最大创新点就是对低分框的使用
,作者认为低分框可能是对物体遮挡时产生的框,直接对低分框抛弃会影响性能,所以作者使用低分框对追踪算法进行了二次匹配,有效优化了追踪过程中因为遮挡造成换id的问题。
- 没有使用ReID特征计算外观相似度
- 非深度方法,不需要训练
- 利用高分框和低分框之间的区别和匹配,有效解决遮挡问题
ByteTrack与其他追踪算法的对比如下图所示,可以看到ByteTrack的性能还是相当不错的。
ByteTrack的实现代码如下:
class ByteTrack: """ Initialize the ByteTrack object. Parameters: track_thresh (float, optional): Detection confidence threshold for track activation. track_buffer (int, optional): Number of frames to buffer when a track is lost. match_thresh (float, optional): Threshold for matching tracks with detections. frame_rate (int, optional): The frame rate of the video. """ def __init__( self, track_thresh: float = 0.25, track_buffer: int = 30, match_thresh: float = 0.8, frame_rate: int = 30, ): self.track_thresh = track_thresh self.match_thresh = match_thresh self.frame_id = 0 self.det_thresh = self.track_thresh + 0.1 self.max_time_lost = int(frame_rate / 30.0 * track_buffer) self.kalman_filter = KalmanFilter() self.tracked_tracks: List[STrack] = [] self.lost_tracks: List[STrack] = [] self.removed_tracks: List[STrack] = [] def update_with_detections(self, detections: Detections) -> Detections: """ Updates the tracker with the provided detections and returns the updated detection results. Parameters: detections: The new detections to update with. Returns: Detection: The updated detection results that now include tracking IDs. """ tracks = self.update_with_tensors( tensors=detections2boxes(detections=detections) ) detections = Detections.empty() if len(tracks) > 0: detections.xyxy = np.array( [track.tlbr for track in tracks], dtype=np.float32 ) detections.class_id = np.array( [int(t.class_ids) for t in tracks], dtype=int ) detections.tracker_id = np.array( [int(t.track_id) for t in tracks], dtype=int ) detections.confidence = np.array( [t.score for t in tracks], dtype=np.float32 ) else: detections.tracker_id = np.array([], dtype=int) return detections def update_with_tensors(self, tensors: np.ndarray) -> List[STrack]: """ Updates the tracker with the provided tensors and returns the updated tracks. Parameters: tensors: The new tensors to update with. Returns: List[STrack]: Updated tracks. """ self.frame_id += 1 activated_starcks = [] refind_stracks = [] lost_stracks = [] removed_stracks = [] class_ids = tensors[:, 5] scores = tensors[:, 4] bboxes = tensors[:, :4] remain_inds = scores > self.track_thresh inds_low = scores > 0.1 inds_high = scores < self.track_thresh inds_second = np.logical_and(inds_low, inds_high) dets_second = bboxes[inds_second] dets = bboxes[remain_inds] scores_keep = scores[remain_inds] scores_second = scores[inds_second] class_ids_keep = class_ids[remain_inds] class_ids_second = class_ids[inds_second] if len(dets) > 0: """Detections""" detections = [ STrack(STrack.tlbr_to_tlwh(tlbr), s, c) for (tlbr, s, c) in zip(dets, scores_keep, class_ids_keep) ] else: detections = [] """ Add newly detected tracklets to tracked_stracks""" unconfirmed = [] tracked_stracks = [] # type: list[STrack] for track in self.tracked_tracks: if not track.is_activated: unconfirmed.append(track) else: tracked_stracks.append(track) """ Step 2: First association, with high score detection boxes""" strack_pool = joint_tracks(tracked_stracks, self.lost_tracks) # Predict the current location with KF STrack.multi_predict(strack_pool) dists = matching.iou_distance(strack_pool, detections) dists = matching.fuse_score(dists, detections) matches, u_track, u_detection = matching.linear_assignment( dists, thresh=self.match_thresh ) for itracked, idet in matches: track = strack_pool[itracked] det = detections[idet] if track.state == TrackState.Tracked: track.update(detections[idet], self.frame_id) activated_starcks.append(track) else: track.re_activate(det, self.frame_id, new_id=False) refind_stracks.append(track) """ Step 3: Second association, with low score detection boxes""" # association the untrack to the low score detections if len(dets_second) > 0: """Detections""" detections_second = [ STrack(STrack.tlbr_to_tlwh(tlbr), s, c) for (tlbr, s, c) in zip(dets_second, scores_second, class_ids_second) ] else: detections_second = [] r_tracked_stracks = [ strack_pool[i] for i in u_track if strack_pool[i].state == TrackState.Tracked ] dists = matching.iou_distance(r_tracked_stracks, detections_second) matches, u_track, u_detection_second = matching.linear_assignment( dists, thresh=0.5 ) for itracked, idet in matches: track = r_tracked_stracks[itracked] det = detections_second[idet] if track.state == TrackState.Tracked: track.update(det, self.frame_id) activated_starcks.append(track) else: track.re_activate(det, self.frame_id, new_id=False) refind_stracks.append(track) for it in u_track: track = r_tracked_stracks[it] if not track.state == TrackState.Lost: track.mark_lost() lost_stracks.append(track) """Deal with unconfirmed tracks, usually tracks with only one beginning frame""" detections = [detections[i] for i in u_detection] dists = matching.iou_distance(unconfirmed, detections) dists = matching.fuse_score(dists, detections) matches, u_unconfirmed, u_detection = matching.linear_assignment( dists, thresh=0.7 ) for itracked, idet in matches: unconfirmed[itracked].update(detections[idet], self.frame_id) activated_starcks.append(unconfirmed[itracked]) for it in u_unconfirmed: track = unconfirmed[it] track.mark_removed() removed_stracks.append(track) """ Step 4: Init new stracks""" for inew in u_detection: track = detections[inew] if track.score < self.det_thresh: continue track.activate(self.kalman_filter, self.frame_id) activated_starcks.append(track) """ Step 5: Update state""" for track in self.lost_tracks: if self.frame_id - track.end_frame > self.max_time_lost: track.mark_removed() removed_stracks.append(track) self.tracked_tracks = [ t for t in self.tracked_tracks if t.state == TrackState.Tracked ] self.tracked_tracks = joint_tracks(self.tracked_tracks, activated_starcks) self.tracked_tracks = joint_tracks(self.tracked_tracks, refind_stracks) self.lost_tracks = sub_tracks(self.lost_tracks, self.tracked_tracks) self.lost_tracks.extend(lost_stracks) self.lost_tracks = sub_tracks(self.lost_tracks, self.removed_tracks) self.removed_tracks.extend(removed_stracks) self.tracked_tracks, self.lost_tracks = remove_duplicate_tracks( self.tracked_tracks, self.lost_tracks ) output_stracks = [track for track in self.tracked_tracks if track.is_activated] return output_stracks
使用方法
1.创建ByteTrack跟踪器
# 创建跟踪器 byte_tracker = sv.ByteTrack(track_thresh=0.25, track_buffer=30, match_thresh=0.8, frame_rate=30)
2.对YOLOv8的目标检测结果进行追踪
model = YOLO(path) results = model(frame)[0] detections = sv.Detections.from_ultralytics(results) detections = byte_tracker.update_with_detections(detections)
3.显示追踪结果ID、检测框及标签信息
labels = [ f"id{tracker_id} {model.model.names[class_id]}" for _, _, confidence, class_id, tracker_id in detections ] annotated_frame = frame.copy() annotated_frame = box_annotator.annotate( scene=annotated_frame, detections=detections, labels=labels)
最终检测效果如下:
以上便是关于此款车辆行人多目标检测与追踪系统
的原理与代码介绍。基于此模型,博主用python
与Pyqt5
开发了一个带界面的软件系统,即文中第二部分的演示内容,能够很好的支持图片、视频及摄像头进行检测追踪,同时支持检测结果的保存
。
关于该系统涉及到的完整源码、UI界面代码、数据集、训练代码、测试图片视频等相关文件,均已打包上传,感兴趣的小伙伴可以通过下载链接自行获取。
【获取方式】
本文涉及到的完整全部程序文件:包括python源码、数据集、训练代码、UI文件、测试图片视频等(见下图),获取方式见文末:
注意:该代码基于Python3.9开发,运行界面的主程序为
MainProgram.py
,其他测试脚本说明见上图。为确保程序顺利运行,请按照程序运行说明文档txt
配置软件运行所需环境。