AAAI 2020 | 速度提升200倍,爱奇艺&北航等提出基于耦合知识蒸馏的视频显著区域检测算法

简介: 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文介绍了爱奇艺与北航等机构合作的论文《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》。


微信图片_20211202161946.jpg


论文链接:https://arxiv.org/pdf/1904.04449.pdf


本论文设计了一个超轻量级网络 UVA-Net,并提出了一种基于耦合知识蒸馏的网络训练方法,在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的速度分别达到 10,106FPS,404FPS,比之前的模型提升了 206 倍。


由于传统的高精度视频显著区域检测模型往往对计算能力和存储能力有较高要求,处理速度较慢,造成了资源的浪费。因此,视频显著区域检测需要解决如下两个问题:1)如何降低模型的计算量和存储空间需求,提高处理效率?2)如何从视频中提取有效时空联合特征,避免准确率下降?


针对这些问题,作者提出了耦合知识蒸馏的轻量级视频显著区域检测方法 [1]。轻量级视频显著区域检测的难点在于模型泛化能力不足,时域空域线索结合难,影响方法的检测性能。为此,作者提出了一种轻量级的网络结构 UVA-Net,并利用耦合知识蒸馏的训练方法提高视频显著区域检测性能。


MobileNetV2 作为一种轻量级网络结构(如表 3(a)所示)在较大提高的网络的紧凑性的同时,损失了部分精度。作者在 MobileNetV2 的基础上提出了一种 CA-Res block 结构,具体如表 3(b)所示,利用这种网络结构训练的模型比之前的方法快 206 倍。 


微信图片_20211202161951.jpg


作者采用耦合知识蒸馏的方法来进行网络的训练,该方法首先使用低分辨率视频帧作为输入,在尽可能保留视频显著区域检测所需的时域和空域信息的前提下,减少网络的计算量;然后利用结构复杂的时域和空域网络作为教师模型,以耦合知识蒸馏的方式,监督训练结构简单的时空联合的学生模型,大幅度降低了模型参数规模和对存储空间的需求。具体如图 6 所示。 


微信图片_20211202161954.jpgimage.gif

图 6 :基于耦合知识蒸馏的超高速视频显著区域检测方法。


作者在 AVS1K 数据集上进行模型评测,具体结果如表 4 和表 5 所示。从表中我们可以看出 UVA-DVA-64 达到了和其他高性能模型相当的性能,但是模型只有 2.73M,速度达到了 404.3 FPS,而 UVA-DVA-32 性能虽略有下降,模型却只有 0.68M,速度达到了 10,106 FPS。


微信图片_20211202161957.jpg

表 4:在 AVS1K 上的性能对比。

 

微信图片_20211202162000.jpg


表 5:AVS1K 数据集上的代表性帧结果. (a) Video frame, (b) Ground truth, (c) HFT, (d) SP, (e) PNSP, (f) SSD, (g) LDS, (h) eDN, (i) iSEEL, (j) DVA, (k) SalNet, (l) STS, (m) UVA-DVA-32, (n) UVA-DVA-64.


 作者提出的基于耦合知识蒸馏的超高速视频显著区域检测算法与现有的国际高水平方法相比,计算精度与 11 种国际高水平方法相当,能够有效解决任务中模型泛化能力不足,时域空域线索结合难导致的问题,并具有良好的视频显著区域检测效果,且易于迁移到其它任务。


目前该技术已经应用到爱奇艺图片搜索,视频素材检索等方向,并对爱奇艺很多业务具有启发意义。


文献请引用:[1]Fu, K., Shi, P., Song, Y., Ge, S., Lu, X. & Li, J. (2019). Ultrafast Video Attention Prediction with Coupled Knowledge Distillation. In AAAI, 2020.



文为机器之心发布,转载请联系本公众号获得授权

相关文章
|
12月前
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
247 0
|
12月前
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
133 0
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
147 0
|
12月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
146 0
|
12月前
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
144 0
|
12月前
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
100 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
173 0
|
12月前
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
12月前
|
存储 机器学习/深度学习 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(2)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型
|
12月前
|
机器学习/深度学习 存储 人工智能
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型(1)
IJCAI 2022 | 推理速度22.3倍提升,北航、字节跳动提出二值化关键字识别模型