AAAI 2020 | 速度提升200倍,爱奇艺&北航等提出基于耦合知识蒸馏的视频显著区域检测算法

简介: 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文介绍了爱奇艺与北航等机构合作的论文《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》。

微信图片_20211202212922.jpg


论文链接:https://arxiv.org/pdf/1904.04449.pdf


本论文设计了一个超轻量级网络 UVA-Net,并提出了一种基于耦合知识蒸馏的网络训练方法,在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的速度分别达到 10,106FPS,404FPS,比之前的模型提升了 206 倍。由于传统的高精度视频显著区域检测模型往往对计算能力和存储能力有较高要求,处理速度较慢,造成了资源的浪费。因此,视频显著区域检测需要解决如下两个问题:1)如何降低模型的计算量和存储空间需求,提高处理效率?2)如何从视频中提取有效时空联合特征,避免准确率下降?


针对这些问题,作者提出了耦合知识蒸馏的轻量级视频显著区域检测方法 [1]。轻量级视频显著区域检测的难点在于模型泛化能力不足,时域空域线索结合难,影响方法的检测性能。为此,作者提出了一种轻量级的网络结构 UVA-Net,并利用耦合知识蒸馏的训练方法提高视频显著区域检测性能。


MobileNetV2 作为一种轻量级网络结构(如表 3(a)所示)在较大提高的网络的紧凑性的同时,损失了部分精度。作者在 MobileNetV2 的基础上提出了一种 CA-Res block 结构,具体如表 3(b)所示,利用这种网络结构训练的模型比之前的方法快 206 倍。 

微信图片_20211202212926.jpg


作者采用耦合知识蒸馏的方法来进行网络的训练,该方法首先使用低分辨率视频帧作为输入,在尽可能保留视频显著区域检测所需的时域和空域信息的前提下,减少网络的计算量;然后利用结构复杂的时域和空域网络作为教师模型,以耦合知识蒸馏的方式,监督训练结构简单的时空联合的学生模型,大幅度降低了模型参数规模和对存储空间的需求。具体如图 6 所示。 

微信图片_20211202212929.jpg

图 6 :基于耦合知识蒸馏的超高速视频显著区域检测方法。


作者在 AVS1K 数据集上进行模型评测,具体结果如表 4 和表 5 所示。从表中我们可以看出 UVA-DVA-64 达到了和其他高性能模型相当的性能,但是模型只有 2.73M,速度达到了 404.3 FPS,而 UVA-DVA-32 性能虽略有下降,模型却只有 0.68M,速度达到了 10,106 FPS。

微信图片_20211202212931.jpg

表 4:在 AVS1K 上的性能对比。

 

微信图片_20211202212934.jpg

表 5:AVS1K 数据集上的代表性帧结果. (a) Video frame, (b) Ground truth, (c) HFT, (d) SP, (e) PNSP, (f) SSD, (g) LDS, (h) eDN, (i) iSEEL, (j) DVA, (k) SalNet, (l) STS, (m) UVA-DVA-32, (n) UVA-DVA-64.

 作者提出的基于耦合知识蒸馏的超高速视频显著区域检测算法与现有的国际高水平方法相比,计算精度与 11 种国际高水平方法相当,能够有效解决任务中模型泛化能力不足,时域空域线索结合难导致的问题,并具有良好的视频显著区域检测效果,且易于迁移到其它任务。

目前该技术已经应用到爱奇艺图片搜索,视频素材检索等方向,并对爱奇艺很多业务具有启发意义。

文献请引用:[1]Fu, K., Shi, P., Song, Y., Ge, S., Lu, X. & Li, J. (2019). Ultrafast Video Attention Prediction with Coupled Knowledge Distillation. In AAAI, 2020.


相关文章
|
5天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
|
5天前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
12 0
|
6天前
|
机器学习/深度学习 算法 数据挖掘
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(下)
14 0
|
6天前
|
机器学习/深度学习 算法 搜索推荐
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例(上)
【视频】支持向量机算法原理和Python用户流失数据挖掘SVM实例
16 0
|
9天前
|
编解码 算法 数据可视化
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
【视频】时间序列分类方法:动态时间规整算法DTW和R语言实现
14 0
|
11天前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
12 0
|
11天前
|
机器学习/深度学习 自然语言处理 算法
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(下)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
13 0
|
11天前
|
机器学习/深度学习 算法 大数据
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(上)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
13 0
|
15天前
|
机器学习/深度学习 人工智能 算法
基于DCT和扩频的音频水印嵌入提取算法matlab仿真
本文介绍了结合DCT和扩频技术的音频水印算法,用于在不降低音质的情况下嵌入版权信息。在matlab2022a中实现,算法利用DCT进行频域处理,通过扩频增强水印的隐蔽性和抗攻击性。核心程序展示了水印的嵌入与提取过程,包括DCT变换、水印扩频及反变换步骤。该方法有效且专业,未来研究将侧重于提高实用性和安全性。
|
2天前
|
存储 算法
m基于LDPC编译码的matlab误码率仿真,对比SP,MS,NMS以及OMS四种译码算法
MATLAB 2022a仿真实现了LDPC译码算法比较,包括Sum-Product (SP),Min-Sum (MS),Normalized Min-Sum (NMS)和Offset Min-Sum (OMS)。四种算法在不同通信场景有各自优势:SP最准确但计算复杂度高;MS计算复杂度最低但性能略逊;NMS通过归一化提升低SNR性能;OMS引入偏置优化高SNR表现。适用于资源有限或高性能需求的场景。提供的MATLAB代码用于仿真并绘制不同SNR下的误码率曲线。
18 3