基于深度学习技术的视频内容检测

简介: 短视频APP在UGC场景下出现了大量重复视频内容,该重复视频被重复曝光、重复消费,造成了用户体验较差,甚至于用户流失。本次分享重点介绍基于深度学习CNN技术构建视频重复内容检测服务,并给出该方案的工程实现。该服务上线后,重复检测准确率80%,视频内容分发提效20%。

1、背景介绍
克拉克拉(KilaKila)是国内专注年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频、对话小说等功能,满足当下年轻用户个性化、碎片化的文娱需求。其中短视频每天都有海量的视频素材产生,这对用户造成了严重的信息过载,难以从中自主挑选感兴趣的内容。每一位视频内容的消费者同时也是生产者,期望自己的作品能够被更多的志同道合者所看到,获得最大的曝光度。但短视频在UGC场景下出现了大量重复视频内容,该重复视频被重复曝光、重复观看,造成了用户体验较差甚至于用户流失。本文重点介绍基于深度学习CNN技术构建视频重复内容检测服务并给出该方案的工程架构。该服务上线后,重复检测准确率80%,视频内容分发提效20%。

2、图像特征描述符方法
视频内容理解的第一步便是对视频进行片段化视频帧处理,也就是随机采样。视频抽帧指用视频的关键帧表征整个视频的完整含义,针对不同类型视频编码格式、帧速率、比特率、视频分辨率以及不同种类的视频,视频的抽帧大概分为按视频固定时间间隔抽帧和基于实际图像内容抽帧,具体可细分为聚类抽帧,基于运动抽帧,基于镜头抽帧本文采取深度学习CNN模型框架对图像进行提取特征,其中并对比了目前主流模型的特征提取能力并针对特征数据进行针对训练,以便得到更好的模型参数。
传统的特征描述符方法可以清晰看到特征点的移动,有利于特征点的跟踪而对于边 (edge) 、区域 (patch) 等特征则无能为力。深度学习方法可以保留图像邻域的联系和空间的局部特点(CNN)更容易处理高维图像。对使用者而言无需知道提取的特征有哪些。大量实践表明,深度学习在提取图像特征方面有明显优势。

_1


图一:早期判断图片相似的网络结构

3、深度学习CNN的模型选择
1)深度学习算法之图片提取特征模型(2D-CNN)
FFmpeg按照视频时间的固定间隔抽取关键帧,抽帧间隔灵活选取。利用AlexNe版本的CNN模型处理原始图片为1000维的特征向量。输入的原始数据图像需要经过深度学习模型提取图片特征,以高维数据展示并存取图片对应名称以方便后续操作。

_2


图二:高维数据


2)深度学习算法之视频提取特征模型(3D-CNN)
FFmpeg根据视频相关参数选取合理数量的clip作为单次输入数据。利用C3D版本CNN模型获取视频特征的高维向量表达。对基于视频分析的问题,2D卷积无法有效获取时序上的信息。采用可提取三维图像特征的3D卷积模型,对clip同时还可以提取时空特征,用高维向量表示。Clip固定帧数的视频片段。

_3


图三:2D卷积


_4


图四:3D卷积


_5


图五:C3D模型网络结构

3)深度学习算法之视频提取特征模型
FFmpeg根据视频相关参数选取合理数量的clip作为metadata。利用R2Plus1D版本的CNN模型获取视频特征的高维向量表达。将3D卷积分解为空间卷积和时间卷积,采用ResNet网络的基础block。相比C3D模型在不增加参数量的前提下增强了模型的表达能力。

_6


图六:a)R3D模型卷积核;b)R2Plus1D模型卷积核;R3D模型和R2Plus1D模型网络结构

4、检索方法
1)哈希检索算法
此部分将CNN模型抽取出的1000维特征向量存入Redis数据库完成持久化存储,Redis数据库动态更新保存增量数据。为了保证相关特征向量的查询比对,其中的方案之一便是使用LSH算法,该算法是查询视频的高维特征向量再做高维数据空间向量的位置敏感哈希算法( Locality-Sensitive Hashing ),即将每个视频对应的图片计算得到的特征向量实现归一化后得到每张查询视频在数据库中最相似的视频所对应的特征向量。
2)聚类算法
聚类方法避免对全空间进行搜索,而是对全空间进行分割,将其分割成若干小的子空间,在搜索的时候,锁定查询向量应该落入的子空间,在该子空间中做遍历查询。通过增加索引子类空间的个数提高搜索的精准度。

_7


图七:特征向量聚类算法

3)矢量量化方法 (vector quantiation) 是将一个向量空间中的点用一个有限子集来进行编码表示的过程。典型的有PQ乘积量化 (Product Quantization) 和倒排乘积量化 (IVFPQ) 。PQ乘积量化:本质是一种聚类的方法。

5、视频重复内容检测服务的工程架构选择

1)系统架构,如下:

image.png

通过离线训练模型搭配实时计算,从而完成在线服务。

2)在线服务处理流程:

image.png

目录
相关文章
|
14天前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
63 5
|
16天前
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶中的应用####
随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术突破的关键力量之一。本文深入探讨了深度学习算法,特别是卷积神经网络(CNN)在图像识别领域的创新应用,以及这些技术如何被集成到自动驾驶汽车的视觉系统中,实现对复杂道路环境的实时感知与理解,从而提升驾驶的安全性和效率。通过分析当前技术的最前沿进展、面临的挑战及未来趋势,本文旨在为读者提供一个全面而深入的视角,理解深度学习如何塑造自动驾驶的未来。 ####
67 1
|
22天前
|
机器学习/深度学习 数据采集 传感器
基于深度学习的图像识别技术在自动驾驶中的应用研究####
本文旨在探讨深度学习技术,特别是卷积神经网络(CNN)在自动驾驶车辆图像识别领域的应用与进展。通过分析当前自动驾驶技术面临的挑战,详细介绍了深度学习模型如何提升环境感知能力,重点阐述了数据预处理、网络架构设计、训练策略及优化方法,并展望了未来发展趋势。 ####
76 6
|
20天前
|
机器学习/深度学习 算法框架/工具 网络架构
深度学习中的正则化技术及其对模型性能的影响
本文深入探讨了深度学习领域中正则化技术的重要性,通过分析L1、L2以及Dropout等常见正则化方法,揭示了它们如何帮助防止过拟合,提升模型的泛化能力。文章还讨论了正则化在不同类型的神经网络中的应用,并指出了选择合适正则化策略的关键因素。通过实例和代码片段,本文旨在为读者提供关于如何在实际问题中有效应用正则化技术的深刻见解。
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
|
23天前
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术研究进展###
本文旨在探讨深度学习在图像识别领域的最新研究进展,重点分析卷积神经网络(CNN)的技术创新、优化策略及其在实际应用中的成效。通过综述当前主流算法结构、损失函数设计及数据集增强技巧,本文揭示了提升模型性能的关键因素,并展望了未来发展趋势。尽管未直接涉及传统摘要中的研究背景、方法、结果与结论等要素,但通过对关键技术点的深度剖析,为读者提供了对领域现状与前沿动态的全面理解。 ###
|
16天前
|
机器学习/深度学习 存储 人工智能
探索深度学习的奥秘:从理论到实践的技术感悟
本文深入探讨了深度学习技术的核心原理、发展历程以及在实际应用中的体验与挑战。不同于常规摘要,本文旨在通过作者个人的技术实践经历,为读者揭示深度学习领域的复杂性与魅力,同时提供一些实用的技术见解和解决策略。
29 0
|
20天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术及其在自动驾驶中的应用####
本文深入探讨了深度学习驱动下的图像识别技术,特别是在自动驾驶领域的革新应用。不同于传统摘要的概述方式,本节将直接以“深度学习”与“图像识别”的技术融合为起点,简述其在提升自动驾驶系统环境感知能力方面的核心作用,随后快速过渡到自动驾驶的具体应用场景,强调这一技术组合如何成为推动自动驾驶从实验室走向市场的关键力量。 ####
41 0
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
下一篇
DataWorks