最新上线!MMTracking 视频实例分割食用指南

简介: VIS 旨在检测、跟踪、分割视频里出现的物体,也就是在多目标跟踪任务的基础上更进一层,需要提供每个物体的 mask 信息。

前几期,我们陆续推出了关于视频目标感知开源工具箱的3个重要任务: 视频目标检测(VID)任务、多目标跟踪(MOT)任务、单目标跟踪(SOT)任务。


10 月,MMTracking 最新支持了视频感知任务:视频实例分割(VIS)任务。欢迎大家上手使用!


有什么问题,或者对MMTracking的想法、建议,有想支持的新数据集、新方法、新任务,随时在评论区里留言!

640.png



VIS 任务简介

VIS 数据集介绍

MMTracking 支持的 VIS 算法与数据集

上手指南

MaskTrack R-CNN  实现解析


1. VIS 任务简介



VIS 旨在检测、跟踪、分割视频里出现的物体,也就是在多目标跟踪任务的基础上更进一层,需要提供每个物体的 mask 信息。


2. VIS 数据集介绍



目前 VIS 领域主流的数据集为 YouTube-VIS 2019、YouTube-VIS 2021。主要的评估指标是 Mask AP,与检测领域的 Mask AP 不同,VIS 中的 Mask AP 计算方式需要考虑算法的跟踪性能。


3. MMTracking 支持的 VIS 算法与数据集



MMTracking 目前支持以下 VIS 算法:

- MaskTrack R-CNN (ICCV 2019)

链接:https://arxiv.org/abs/1905.04804

MMTracking 目前支持 YouTube-VIS 2019、YouTube-VIS 2021 数据集。


4. 上手指南



接下来,本文详细地介绍在 MMTracking 里如何运行 VIS demo、测试 VIS 模型、训练 VIS 模型。


使用 MMTracking,你只需要克隆一下 github 上面的仓库到本地,然后按照安装手册配置一下环境即可,如果安装遇到什么问题,可以给 MMTracking 提 issue,我们会尽快为小伙伴们解答。


安装手册链接:

https://github.com/open-mmlab/mmtracking/blob/master/docs/install.md


假设已经将预训练权重放置在 MMTracking 根目录下的 checkpoints/ 文件夹下(预训练权重可以在相应的 configs 页面下载)。


运行 VIS demo


在 MMTracking 根目录下只需执行以下命令,即可使用 MaskTrack R-CNN 算法运行 VIS demo。

python demo/demo_mot_vis.py \
    configs/vis/masktrack_rcnn/masktrack_rcnn_r50_fpn_12e_youtubevis2019.py \
    --input ${VIDEO_FILE} \
    --checkpoint checkpoints/masktrack_rcnn_r50_fpn_12e_youtubevis2019_20211022_194830-6ca6b91e.pth \
    --output ${OUTPUT} \
    --show


测试 VIS 模型


在 MMTracking 根目录下使用以下命令即可在 YouTube-VIS 2019 上测试 MaskTrack R-CNN,并且生成一个用于提交结果的 zip 文件。

./tools/dist_test.sh \
   configs/vis/masktrack_rcnn/masktrack_rcnn_r50_fpn_12e_youtubevis2019.py \
   --checkpoint checkpoints/masktrack_rcnn_r50_fpn_12e_youtubevis2019_20211022_194830-6ca6b91e.pth \
   --out ${RESULTS_PATH}/results.pkl \
   --format-only \
   --eval-options resfile_path=${RESULTS_PATH}


训练 VIS 模型


在 MMTracking 根目录下使用以下命令即可在 YouTube-VIS 2019 数据集上训练 MaskTrack R-CNN。由于 YouTube-VIS 没有提供 validation 集的注释文件,因此在训练过程中不会进行评估。


bash ./tools/dist_train.sh \
    ./configs/vis/masktrack_rcnn/masktrack_rcnn_r50_fpn_12e_youtubevis2019.py \
    8 --work-dir ./work_dirs/

其实在 MMTracking 中支持了一些 VIS 模型,并且提供了公共的 checkpoint 供大家使用,在快速上手教程中也有更详细地介绍。


5. MaskTrack R-CNN  实现解析



经过上述步骤,本文已经介绍了怎样运行 VIS 算法,接下来将介绍 MaskTrack R-CNN 在 MMTracking 下的实现。


MaskTrack R-CNN  的配置文件

model = dict(
    type='MaskTrackRCNN',
    detector=dict(type='MaskRCNN'),
    track_head=dict(type='RoITrackHead'),
    tracker=dict(type='MaskTrackRCNNTracker'))

MaskTrack R-CNN 的配置文件如上所示,可以看到 MaskTrack R-CNN 由 3 部分构成:


detector:使用 MaskRCNN 算法,检测视频里的物体,并给出每个物体的 mask;


track_head:使用 RoITrackHead,计算相邻两帧物体的相似度得分,用于相邻两帧物体的匹配;


tracker:MaskTrack R-CNN  的 Tracker,用来进行相邻两帧物体的跟踪。


Track Head 的配置文件


track_head=dict(
    type='RoITrackHead',
    roi_extractor=dict(type='SingleRoIExtractor'),
    embed_head=dict(type='RoIEmbedHead'),
    train_cfg=dict(
        assigner=dict(type='MaxIoUAssigner'),
        sampler=dict(type='RandomSampler')))

Track Head 的配置文件如上所示,可以看到 Track Head 由 3 部分构成:


- roi_extractor:使用 RoI Align 为 proposals 提取特征;


- embed_head:使用 RoIEmbedHead 对提取出的特征进行进一步加工,然后计算相邻两帧物体的相似度得分;


- train_cfg:track head 的训练配置,其中 assigner 基于最大 IoU 分配正负样本,sampler 基于分配后的结果采样正负样本,在 RoITrackHead 中,一般只使用正样本进行相邻两帧物体的计算。


文章来源:公众号【OpenMMLab】

 2021-11-11 20:35

目录
相关文章
|
JSON 编解码 人工智能
labelme 安装使用及常见问题汇总
labelme批量使用、安装、问题解决 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0 module 'labelme.utils' has no attribute 'draw_label' Polygon must have points more than 2 ModuleNotFoundError: No module named 'skimage' Inconsistent use of tabs and s
labelme 安装使用及常见问题汇总
|
机器学习/深度学习 存储 并行计算
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
15411 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
|
机器学习/深度学习 人工智能 大数据
【重磅】文娱技术喜提多篇ACM MM论文
2021ACM MM(ACM International Conference on Multimedia),阿里巴巴文娱技术共4篇论文被收录。研究成果分别是:视频修复、目标检测器、视频质量评估、情感计算 技术领域。
1409 0
【重磅】文娱技术喜提多篇ACM MM论文
|
人工智能 自然语言处理 机器人
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架,可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力,通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题,研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集,涵盖多样化的场景和相机运动。
629 2
今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
|
10月前
|
机器人
陌陌自动回复消息脚本,陌陌自动打招呼回复机器人插件,自动聊天智能版
这是一款为陌陌用户设计的自动回复软件,旨在解决用户无法及时回复消息的问题,提高成交率和有效粉丝数。软件通过自动化操作实现消息检测与回复功能
|
SQL 存储 数据可视化
【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage
【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage
1786 57
pip换源
pip换源
594 0
|
域名解析 缓存 网络协议
【域名解析DNS专栏】DNS解析过程深度解析:一次完整的域名查询旅程
【5月更文挑战第21天】DNS系统将人类友好的域名(如www.example.com)转化为IP地址,涉及递归和迭代查询。当用户输入域名,浏览器查询本地DNS缓存,未命中则向本地DNS服务器发起请求。本地服务器向根域名服务器查询,根服务器指引到对应顶级域名的权威DNS,权威DNS提供IP地址。Python示例代码展示了这一过程。了解DNS解析有助于理解互联网运作并优化网络资源管理。
1175 2
【域名解析DNS专栏】DNS解析过程深度解析:一次完整的域名查询旅程
|
存储 分布式计算 NoSQL
DataX深度剖析:解读数据传输工具的设计理念与架构特点
DataX深度剖析:解读数据传输工具的设计理念与架构特点
1569 5
DataX深度剖析:解读数据传输工具的设计理念与架构特点
|
程序员 Go
【Go语言精进之路】Go语言fmt包深度探索:格式化输入输出的利器
【Go语言精进之路】Go语言fmt包深度探索:格式化输入输出的利器
509 3