当CV碰上无人机:ICCV 2019 VisDrone挑战赛冠军解决方案解读

简介: 近日,在 ICCV 2019 Workshop 举办的 Vision Meets Drone: A Challenge(简称:VisDrone2019) 挑战赛公布了最终结果,来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队斩获了「视频目标检测」和「多目标追踪」两项冠军。我们可以通过这篇文章来了解一下 DeepBlueAI 团队的解决方案。

微信图片_20211202061454.jpg

The VisDrone2019 挑战赛


如今,配备摄像头的无人机或通用无人机已经广泛地应用在农业、航空摄影、快速交付、监视等多个领域。


挑战赛官网地址:http://aiskyeye.com/


VisDrone2019 数据集由天津大学机器学习与数据挖掘实验室 AISKYEYE 队伍负责收集,全部基准数据集由无人机捕获,包括 288 个视频片段,总共包括 261908 帧和 10209 个静态图像。


这些帧由 260 多万个常用目标(如行人、汽车、自行车和三轮车)的手动标注框组成。为了让参赛队伍能够更有效地利用数据,数据集还提供了场景可见性、对象类别和遮挡等重要属性。
本届挑战赛包含四个任务:

  • 任务 1:图像中的目标检测。任务旨在从无人机拍摄的单个图像中检测预定义类别的对象(例如,汽车和行人);
  • 任务 2:视频中的目标检测。该任务与任务 1 相似,不同之处在于需要从视频中检测对象;
  • 任务 3:单目标跟踪挑战。任务旨在估计后续视频帧中第一个帧中指示的目标状态;
  • 任务 4:多目标跟踪挑战。该任务旨在恢复每个视频帧中对象的轨迹。


数据集下载链接:https://github.com/VisDrone/VisDrone-Dataset


这次比赛的难点主要有:


1. 大量的检测物体


与常规检测数据集不同的是,每张图片包含上百个待检测物体,数据集总共含有 260 万个标注框,如果使用占用显存较大的模型,可能会出现资源不够的情况。同时面对一些重叠的结果时,我们需要选择合适的阈值去过滤出最好的结果。


2. 部分目标过小


因为数据集是由无人机拍摄而来,行人和远景的物体的标注框就非常小,这对模型产生 anchor 的能力形成了一定的挑战,高分辨率的空间信息和高质量的 proposal 在本次赛题中就显得尤为重要。


3. 不同的数据分布


常用的数据集如:COCO 数据集、OBJ365 都是广泛应用的数据集,所以大家经常用它们的预训练来 fine-tune 其他数据集。而这一次的数据集由于拍摄角度问题,预训练所带来的效果不如预期。


评测指标


为了进行综合评估并反映每个对象类别的性能,本次测评采用类似于 MS COCO 数据集的评估方案,使用 AP, APIOU=0.50, APIOU=0.75, ARmax=1, ARmax=10, ARmax=100, 和 ARmax=500,且这些指标是基于 10 个对象类别计算出来的。


微信图片_20211202061526.jpg


最终,来自电子科技大学的李宏亮团队获得了 Task1「图像中的目标检测」的冠军;中科院信息工程研究所的葛仕明团队获得了 Task3「单目标跟踪挑战」的冠军;来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队获得了 Task2「视频目标检测」和 Task4「多目标追踪」两项冠军。以下是 DeepBlueAI 团队分享的解决方案


任务 2:视频中的目标检测


微信图片_20211202061550.jpg


检测器:Cascade RCNN + DCN + FPN + DH


团队基于现有数据集,并结合以往检测经验,打造了一个强大的目标检测器。1. Cascade RCNN


微信图片_20211202061653.jpg


用低 IoU 阈值进⾏训练会导致效果不好,因为会产⽣很多噪声框;所以我们希望阈值尽量⾼,但 IoU 阀值设过⾼时,训练出的 detector 效果却会呈现下降趋势。Cascade RCNN 将多个阈值越来越⾼的 detector 串联,得到了更好的效果。


⾸先,在每次 detector 计算后,IoU⾼的 bbox 的分布都会提升,使得下⼀阶段更⾼阈值下正样本的数量得到保证;其次,每经过⼀次 detector 计算,bbox 都会变得更准确,更⾼的阈值可保证下⼀次回归效果更好。


2. DCN(Deformable Convolution Network)


微信图片_20211202061719.jpg


deformable convolution network 提出了「deformable convolution」和「deformable RoI pooling」两种网络结构单元,deformable convolution 和 deformable RoI pooling 都是基于通过学习一个额外的偏移(offset),使卷积核对输入 feature map 的采样产生偏移,集中于感兴趣的目标区域, 从而产生更好的感受野。


3. Double Heads


微信图片_20211202061751.jpg


通过对比实验可发现:用 fc-head 去做分类,同时用 conv-head 去做回归,可以实现最好的效果。因为分类更多的需要语义信息,而回归坐标框需要更多的空间信息,这种方法采用「分而治之」的思想,针对不同的需求设计 head 结构,当然这种方法增加了计算量,在平衡速度和准确率的情况下,最后选择了 3 残差、2non-local,共 5 个模块。


实验细节:


1. 我们将 Faster rcnn + DCN + FPN 作为我们的 baseline,因为这两个模块总是能在不同的数据集上起到效果。2. 将原有 head 改为 Double head3. 采用级联检测 (Cascade rcnn)4. 将 ResNeXt101 作为 backbone5. 使用 cascade rcnn COCO-Pretrained weight6. 多尺度训练+Testing tricks


实验结果 (验证集)


微信图片_20211202061814.jpg


任务 4 : 多目标跟踪


微信图片_20211202061837.jpg


跟踪算法:IOU tracker + KCF + tracklet vote


根据赛题描述与数据集分析结果,我们可以知道,如果图中有大量目标且大部分都为小目标,在这种情况下仍然使用 reid 相关跟踪算法的话,不仅最终效果不理想,而且也会在匹配排序的过程中耗费大量的资源,所以我们最终决定使用 iou-tracker。


原因:


  1. 使用不需要图片信息,仅根据检测结果的相邻帧的 iou 进行计算;
  2. iou-tracker 对检测结果有着较高的要求,我们对自己的检测结果有信心;
  3. 运行速度极快,不涉及到神经网络,节省时间和 GPU 资源。


MOT Pipeline:


微信图片_20211202061900.jpg


难点:使用 iou tracker 之后,还是会不可避免地遇到断帧 (一条轨迹无法全部预测,被预测为多个子段) 的问题,这样会大大降低最后的得分,所以我们使用 KCF 对现有结果进行一个更新。


KCF 的原理极为复杂,但 KCF 作用就是根据现有结果使用传统算法,去预测之后几帧的结果,这相当于对一些丢失的信息进行补充的操作。


得到新的轨迹之后再使用 IOU 相关投票融合方法,将更新后的结果融合,融合过程如图所示:


微信图片_20211202061928.jpg


KCF 更新轨迹之后,正常情况下轨迹之间就会有相互重叠的地方,我们使用一个基于 IOU 的投票方法,如果轨迹之间重叠部分的投票结果大于某个阈值,就将这两个轨迹进行融合。


实验细节:


1. 我们将任务二中的检测结果当做输入,先使用 GOG 方法作为我们的 baseline2. 将方法改为 IOU tracker3. 调整阈值,以及一些测试技巧4.+KCF +tracklet voting5. 得到更好的检测结果


实验结果 (验证集)


e8e53130b0d159518c0551a3509450c.png


下一步工作


在检测方面,在网络结构上有一些其他可以使用的模块,例如「PAFPN--FPN 的改进版」,可以在特征提取之后更好地处理各层级之间的信息;以及「GCnet」,一种结合了两个不错的 attention 机制所得到的网络,等等。
由于时间的限制,在更新原有跟踪结果的时候,我们使用的是比较传统的 KCF 算法,这类算法比较节省时间,但同时也有很大的局限性。如果有机会,以后想尝试一些更好的、基于神经网络的方法进行更新。



相关文章
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
数据采集 编解码 自动驾驶
什么样的方案,夺得了CVPR自动驾驶挑战赛冠军?
什么样的方案,夺得了CVPR自动驾驶挑战赛冠军?
111 0
|
机器学习/深度学习 传感器 存储
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
为自动驾驶汽车创造「记忆」,上交校友、康奈尔大学博士生三篇论文被CVPR 2022收录
201 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
159 0
|
传感器 vr&ar
论文再报喜讯,「增强现实中的显著性问题」入选ACMMM!
ACM 国际多媒体大会(英文名称:ACM Multimedia,简称:ACM MM)是多媒体领域的顶级国际会议,每年举办一次。多媒体研究的重点是整合不同数字形式(包括图像,文本,视频,音乐,传感器数据,口头音频)提供的多种视角。自1993年以来,ACM多媒体一直将学术界和工业界的研究人员和从业人员汇聚在一起,提出创新的研究成果并讨论最新进展。会议的一个特别部分是艺术计划,该计划探索计算机科学与艺术的界限。
245 0
|
机器学习/深度学习 人工智能 自然语言处理
2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解
2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解
120 0
|
编解码 算法 数据可视化
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA(二)
Meta现实实验室(Meta Reality Lab)华人一作提出FBNetV5,这是一种在一次运行中同时为多个任务搜索架构的神经架构搜索(NAS)算法。针对三个基本的视觉任务:图像分类、物体检测和语义分割,FBNetV5搜索到的模型在所有三个任务中都超过了目前的SoTA水平。
313 0
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA(二)
|
机器学习/深度学习 人工智能 编解码
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA
Meta现实实验室(Meta Reality Lab)华人一作提出FBNetV5,这是一种在一次运行中同时为多个任务搜索架构的神经架构搜索(NAS)算法。针对三个基本的视觉任务:图像分类、物体检测和语义分割,FBNetV5搜索到的模型在所有三个任务中都超过了目前的SoTA水平。
231 0
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA
|
机器学习/深度学习 编解码 算法
图像分割二十年,盘点影响力最大的10篇论文
【新智元导读】图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向,近些年,图像分割技术迅猛发展,在多个视觉研究领域都有着广泛的应用。本文盘点了近20年来影响力最大的 10 篇论文。
463 0
图像分割二十年,盘点影响力最大的10篇论文
|
Web App开发 机器学习/深度学习 人工智能
DTalk|伯克利BDD研究员Fisher Yu带来自动驾驶最前沿研究
一场高质量的分享会应该具备哪些特征? 一位在某个领域足够资深的演讲者,就一个值得探讨的行业话题,用一套逻辑严密的演讲框架,在可以充分表达的2个小时里,向近千位专业听众完整分享他的看法与见解。 这就是 DTalk。
619 0
DTalk|伯克利BDD研究员Fisher Yu带来自动驾驶最前沿研究
下一篇
DataWorks