AAAI 2020 | 速度提升200倍,爱奇艺&北航等提出基于耦合知识蒸馏的视频显著区域检测算法

简介: 2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办。不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文介绍了爱奇艺与北航等机构合作的论文《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》。

微信图片_20211202212922.jpg


论文链接:https://arxiv.org/pdf/1904.04449.pdf


本论文设计了一个超轻量级网络 UVA-Net,并提出了一种基于耦合知识蒸馏的网络训练方法,在视频注意力预测方向的性能可与 11 个最新模型相媲美,而其存储空间仅占用 0.68 MB,在 GPU,CPU 上的速度分别达到 10,106FPS,404FPS,比之前的模型提升了 206 倍。由于传统的高精度视频显著区域检测模型往往对计算能力和存储能力有较高要求,处理速度较慢,造成了资源的浪费。因此,视频显著区域检测需要解决如下两个问题:1)如何降低模型的计算量和存储空间需求,提高处理效率?2)如何从视频中提取有效时空联合特征,避免准确率下降?


针对这些问题,作者提出了耦合知识蒸馏的轻量级视频显著区域检测方法 [1]。轻量级视频显著区域检测的难点在于模型泛化能力不足,时域空域线索结合难,影响方法的检测性能。为此,作者提出了一种轻量级的网络结构 UVA-Net,并利用耦合知识蒸馏的训练方法提高视频显著区域检测性能。


MobileNetV2 作为一种轻量级网络结构(如表 3(a)所示)在较大提高的网络的紧凑性的同时,损失了部分精度。作者在 MobileNetV2 的基础上提出了一种 CA-Res block 结构,具体如表 3(b)所示,利用这种网络结构训练的模型比之前的方法快 206 倍。 

微信图片_20211202212926.jpg


作者采用耦合知识蒸馏的方法来进行网络的训练,该方法首先使用低分辨率视频帧作为输入,在尽可能保留视频显著区域检测所需的时域和空域信息的前提下,减少网络的计算量;然后利用结构复杂的时域和空域网络作为教师模型,以耦合知识蒸馏的方式,监督训练结构简单的时空联合的学生模型,大幅度降低了模型参数规模和对存储空间的需求。具体如图 6 所示。 

微信图片_20211202212929.jpg

图 6 :基于耦合知识蒸馏的超高速视频显著区域检测方法。


作者在 AVS1K 数据集上进行模型评测,具体结果如表 4 和表 5 所示。从表中我们可以看出 UVA-DVA-64 达到了和其他高性能模型相当的性能,但是模型只有 2.73M,速度达到了 404.3 FPS,而 UVA-DVA-32 性能虽略有下降,模型却只有 0.68M,速度达到了 10,106 FPS。

微信图片_20211202212931.jpg

表 4:在 AVS1K 上的性能对比。

 

微信图片_20211202212934.jpg

表 5:AVS1K 数据集上的代表性帧结果. (a) Video frame, (b) Ground truth, (c) HFT, (d) SP, (e) PNSP, (f) SSD, (g) LDS, (h) eDN, (i) iSEEL, (j) DVA, (k) SalNet, (l) STS, (m) UVA-DVA-32, (n) UVA-DVA-64.

 作者提出的基于耦合知识蒸馏的超高速视频显著区域检测算法与现有的国际高水平方法相比,计算精度与 11 种国际高水平方法相当,能够有效解决任务中模型泛化能力不足,时域空域线索结合难导致的问题,并具有良好的视频显著区域检测效果,且易于迁移到其它任务。

目前该技术已经应用到爱奇艺图片搜索,视频素材检索等方向,并对爱奇艺很多业务具有启发意义。

文献请引用:[1]Fu, K., Shi, P., Song, Y., Ge, S., Lu, X. & Li, J. (2019). Ultrafast Video Attention Prediction with Coupled Knowledge Distillation. In AAAI, 2020.


相关文章
|
1月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。
|
9天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA-PSO-SVM算法的混沌背景下微弱信号检测matlab仿真
本项目基于MATLAB 2022a,展示了SVM、PSO、GA-PSO-SVM在混沌背景下微弱信号检测中的性能对比。核心程序包含详细中文注释和操作步骤视频。GA-PSO-SVM算法通过遗传算法和粒子群优化算法优化SVM参数,提高信号检测的准确性和鲁棒性,尤其适用于低信噪比环境。
|
1月前
|
算法 安全
分别使用OVP-UVP和OFP-UFP算法以及AFD检测算法实现反孤岛检测simulink建模与仿真
本课题通过Simulink建模与仿真,实现OVP-UVP、OFP-UFP算法及AFD检测算法的反孤岛检测。OVP-UVP基于电压幅值变化,OFP-UFP基于频率变化,而AFD则通过注入频率偏移信号来检测孤岛效应,确保电力系统安全稳定运行。系统使用MATLAB 2013b进行建模与仿真验证。
|
15天前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
26 0
|
29天前
|
算法 计算机视觉 Python
圆形检测算法-基于颜色和形状(opencv)
该代码实现了一个圆检测算法,用于识别视频中的红色、白色和蓝色圆形。通过将图像从RGB转换为HSV颜色空间,并设置对应颜色的阈值范围,提取出目标颜色的区域。接着对这些区域进行轮廓提取和面积筛选,使用霍夫圆变换检测圆形,并在原图上绘制检测结果。
62 0
|
19天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
3天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
5天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
5天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
下一篇
无影云桌面