如何检测视频异常事件?阿里工程师提出全新检测模型

简介: 本篇论文收录于ACM MM 2017,论文中我们为城市大脑提供监控交通异常的方法。受动作识别等领域的最新研究成果启发,设计了一种时空自编码进行视频异常检测,同时提出一种权重递减的预测误差计算方法。经真实的交通场景评测,该算法在重要指标上已经超过了此前的最好方法。

image

小叽导读:本篇论文收录于ACM MM 2017,论文中我们为城市大脑提供监控交通异常的方法。受动作识别等领域的最新研究成果启发,设计了一种时空自编码进行视频异常检测,同时提出一种权重递减的预测误差计算方法。经真实的交通场景评测,该算法在重要指标上已经超过了此前的最好方法。

主要作者:赵一儒、邓兵、申晨、刘垚、卢宏涛、华先胜

摘要

真实世界视频场景中的异常事件检测是一个高难度的问题,因为“异常”本身很复杂而且场景中还存在杂乱的背景、物体和运动。大多数已有的方法都是在局部空间区域中使用人工设计的特征来识别异常。

在本论文中,我们提出了一种称为时空自编码器(Spatio-Temporal AutoEncoder,简称 ST AutoEncoder 或 STAE)的全新模型,使用深度神经网络来自动学习视频表征以及通过执行三维卷积来从空间维度和时间维度提取特征。

在经典的自编码器中所使用的重建损失之外,我们为未来帧的生成引入了一种权重递减型预测损失,这能够增强视频中的运动特征学习。因为大多数异常检测数据集都局限于外观异常或不自然的运动异常,所以我们收集了一个新的高难度数据集,该数据集是由真实世界的交通监控视频构成的。我们在公开数据集和我们的交通数据集上进行了多项实验,结果表明我们提出的方法的表现显著优于之前最佳的方法。

1 引言

自动检测视频流中的异常事件是智能视频监控系统面临的一大基本难题,并且已经在过去几年中受到了学术界和工业界的高度关注。

不同于动作识别和事件检测等监督式视频分析问题,视频异常检测主要面临着两大难题:一是正例样本和负例样本之间的数据不平衡(即作为正例样本的异常事件的数量远远少于常规事件);二是正例样本内部存在很大的差异性(异常事件可能包含很多不同的情况,但一般而言可用的训练数据却很有限)。

由于正例样本的稀疏性,经典的监督式事件检测和识别算法无法应用于这个任务。这个问题的通常解决方式是使用无监督方法训练一个表征正常视频序列中的模型,然后将异常值(模型的外点)看作是异常事件。

鉴于训练数据通常只包含普通视频,所以学习常规活动的特征表征是一个无监督学习问题。之前的一部分异常检测研究侧重于建模局部 2D 图像图块或 3D 视频立方体的时空事件模式,这个过程中会用到从低层面外观和运动中提取的人工设计的特征,比如方向梯度直方图(HOG)、光流直方图(HOF)、3D 时空梯度等。但是,由于人工设计的特征的表征能力有限,这一类之前的方法并不适合用来分析复杂的视频监控场景。

深度学习方法已经展现出了在特征学习方面的优势,而且研究已经证明其可以非常有效地解决鉴别式视觉任务。基于自编码器网络的无监督深度学习方法也已被提出用作解决视频异常检测问题的又一类方法。但是,这些方法只依赖于全连接的自编码器或 2D 卷积自编码器,而没有利用来自时间维度的特征,因此无法获取异常事件的时间线索,而这对于识别视频事件异常而言是至关重要的。

受 3D 卷积网络在视频分析中的优越表现的启发,我们提出了用于视频异常检测的时空(ST)自编码器:通过在编码器中应用 3D 卷积和在解码器中应用 3D 反卷积,能够增强模型从时间维度中提取运动模式的能力。

除了经典的自编码器所使用的重建损失,我们还引入了一种权重递减型预测损失来预测未来帧,这可以引导模型获取运动目标的轨迹以及增强编码器以更好地提取时间特征。经过在正常视频数据上的训练之后,该自编码器应该能够以较低误差重建出常规视频片段,而在重建非常规视频片段时则会出现高误差。然后模型再根据这个误差计算视频序列中每一帧的规律性分数(regularity score),然后再将其用于确定异常事件,如图 1 所示。

image

图 1:来自 CUHK Avenue 数据集的一段视频序列的规律性分数。红色区域表示基本真值异常帧。规律性分数会在异常事件发生时下降。

大多数真实世界情形中的异常事件都非常复杂,而大多数当前的异常检测数据集都只包含外观异常或人为制造的运动异常。为了评估我们提出的方法的实用性,我们收集了一个新的高难度数据集,其由真实世界交通监控视频构成。实验表明我们的模型可以应用于这一复杂应用。

本论文的主要贡献总结如下:

我们提出了一种全新的时空自编码器深度网络,可以通过执行 3D 卷积同时根据空间维度和时间维度来建模常规视频数据。据我们所知,这是首个基于 3D 卷积的视频异常检测模型。

我们在模型训练中引入了一个权重递减型预测损失,这能提升检测异常事件的表现。

我们收集了一个新的由真实世界交通监控视频构成的异常检测数据集,并且表明我们的方法的表现在公共基准和我们的 Traffic 数据集上都优于之前最佳的方法。

2 我们的方法

为了具体描述,我们首先简要介绍一下 3D 卷积,然后再详细讨论我们提出的模型。

2.1 3D 卷积

典型的 2D 卷积网络是在 2D 特征图上应用卷积来提取空间维度的特征。2D 卷积网络在图像识别方面表现优越,但它们却无法获取用于视频分析问题的连续帧中所编码的时间信息。Ji 等人[1] 提出执行 3D 卷积来同时计算来自时间维度和空间维度的特征,具体做法是将一个 3D 核卷积到通过连接时间维度中的多个连续帧而形成的立方体上。

2.2 3D 卷积自编码器

输入数据。在大多数用于图像识别的典型 CNN 中,输入数据都是具有 3 个通道(比如 R、G、B 颜色通道)的单张图像。而在异常检测网络中,输入数据是一段包含多帧的视频片段。Hasan等人 [2] 通过使用滑动窗口(滑动窗口的长度为 T)的时间立方体来构建输入。但其中的时间特征很少得到保留。为了解决这个问题,我们以超立方体的形式构建输入——通过在第 4 维(通常被称为时间维)上堆叠 T 帧,然后再在其上执行 3D 卷积。

数据增强。通过在从视频序列中采样的片段上应用多种变换(随机裁剪、亮度变化和高斯模糊),我们可以生成更多输入超立方体。在我们的方法中,我们使用恒定步幅来采样帧,这样目标的运动速度保持不变。

网络架构。图 3 给出了我们提出的时空自编码器网络示意图。

image

图 3:网络的架构。在编码器之后有两个分支的解码器,分别用于重建过去的帧和预测未来的帧。

2.3 权重递减型预测损失

之前已有研究证明预测网络有助于学习视频表征,受这些研究的启发,我们在解码器部分设计了一个预测分支来预测输入视频片段之后的未来 T 帧。具体来说,重建分支和预测分支具有相同的隐藏特征层,但执行的是不同的任务,分别是:重建过去的序列和预测未来的序列。其中预测任务可以引导模型获取运动目标的轨迹以及让编码器更好地提取时间特征。

在大多数视频异常检测场景中,视点是固定的,各种目标进进出出。新目标的出现难以预测,从而会影响预测网络在训练阶段的收敛性。我们应用了预测损失来增强模型的能力,以提取已有目标的运动特征和预测它们在未来近期的运动,而不会预测相对遥远的未来的新目标的出现。新目标出现的概率会随时间推移逐渐增大,因此我们在预测得到的视频片段的每一帧上施加了一个递减的权重。

2.4 规律性分数

由常规事件组成的视频序列有更高的规律性分数,因为它们接近于特征空间中的正常训练数据。相反,异常序列的规律性分数更低,因此可以被用于定位异常事件。

3 实验

3.1 数据集

我们在三个数据集上评估了我们提出的时空自编码器,其中包含 UCSD Pedestrian 和 CUHK Avenue 这两个已有的数据集,另外还有新收集的 Traffic 数据集。

image

表 1:异常检测数据集比较。Nor 表示正常帧,Abn 表示异常帧。

3.2 异常的可视化

当我们训练完模型之后,规律性分数可以根据重建误差计算得出。由正常事件组成的视频序列有更低的误差,而异常序列有更高的误差。重建误差是根据每一帧中的每个像素计算得出的,这让我们可以将误差分解到每一帧以及定位图片中的异常区域。

图 4 给出了 5 组来自不同数据集的示例。

image

图 4:异常的可视化。左列:来自不规则视频片段的帧。中列:我们的模型的重建输出。右列:重建误差图。橙色矩形突出强调了误差图中的异常区域。在前三个场景中都只有单个目标存在异常,后两个场景则与多个目标有关。

3.3 异常事件检测

基于重建误差可以计算得到规律性分数,而规律性分数又可被进一步用于检测异常事件。如图 5 所示,视频片段的规律性分数会在异常发生时下降。

image

图 5:来自三个数据集的四段测试视频片段的规律性分数曲线。红色区域表示基本真值异常帧。结果表明规律性分数会在异常发生时下降。每个场景都给出了几帧采样,用以展示常规/非常规事件。

表 2 给出了我们的方法与几种当前最佳方法在 UCSD Pedestrian 和 CUHK Avenue 数据集上的表现比较。

image

表 2:在 UCSD Pedestrian 和 CUHK Avenue 数据集上的比较

结果还表明我们的时空自编码器模型可用于不同类型的输入数据。

我们还在新收集的 Traffic 数据集上进行了同样的评估。我们将 ConvAE[2] 设为当前最佳方法,因为它有一定的揭示时间特征的能力。表 3 给出了 5 种场景的结果,另外也报告了平均结果。所有被测模型的输入都是灰度帧。

image

表 3:在 Traffic 数据集上的比较

3.4 预测未来帧

如前所述,我们在时空自编码器网络中设计了一个预测分支,以通过跟踪视频序列中运动目标的轨迹来增强视频表征学习的能力。

图 6 给出了两个示例。我们的 STAE 模型可以重建输入的规则视频片段,也能预测未来帧。运动中的车辆(用绿框标出)的轨迹在未来帧中被很好地预测了出来。我们还给出了有新车辆(用红框标出)进入该场景的示例,这表明我们的模型无法预测新出现的目标。

image

图 6:在 Traffic 数据集上的两组帧预测示例。每一组的上一行都是基本真值视频序列,下一行则是我们的网络重建和预测的输出。左侧部分是从 T 个输入帧中采样的,右侧部分是从未来片段中采样的。运动汽车用绿框标出,新进入场景的汽车用红框标出。

4 结论

未来的研究方向包括研究其它网络架构,融合多模态输入数据(比如 RGB 帧和光流),在实例层面而非像素层面评估规律性分数,以及将我们的框架应用于更复杂的场景。

原文发布时间为:2018-08-01
本文作者:研读论文的
本文来自云栖社区合作伙伴“ 阿里巴巴机器智能”,了解相关信息可以关注“ 阿里巴巴机器智能”。

相关文章
|
Cloud Native 前端开发 程序员
面试前的自我评估:识别自己的强项与待提升之处
面试前的自我评估:识别自己的强项与待提升之处
143 0
|
2月前
|
传感器 监控 安全
智能消防系统:早期火灾检测与响应
【10月更文挑战第24天】智能消防系统通过物联网、大数据和先进传感器技术,实现早期火灾的快速检测与响应。系统包括高灵敏度的温度、烟雾传感器和智能分析软件,能够实时监测环境变化并及时发出警报。此外,系统还具备自动开启疏散通道、启动应急照明和自动喷水灭火等功能,确保人员安全撤离并有效控制火势。智能消防系统广泛应用于住宅、办公楼、工厂等场所,为火灾预防和应对提供全面保障。
|
2月前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
74 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
|
6月前
|
机器学习/深度学习 JSON 测试技术
CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型
在3D医学图像分割领域,尽管出现了多种新架构和方法,但大多未能超越2018年nnU-Net基准。研究发现,许多新方法的优越性未经严格验证,揭示了验证方法的不严谨性。作者通过系统基准测试评估了CNN、Transformer和Mamba等方法,强调了配置和硬件资源的重要性,并更新了nnU-Net基线以适应不同条件。论文呼吁加强科学验证,以确保真实性能提升。通过nnU-Net的变体和新方法的比较,显示经典CNN方法在某些情况下仍优于理论上的先进方法。研究提供了新的标准化基线模型,以促进更严谨的性能评估。
175 0
|
7月前
|
人工智能 数据安全/隐私保护
如何实现AI检测与反检测原理
AI检测器用于识别AI生成的文本,如ChatGPT,通过困惑度和爆发性指标评估文本。低困惑度和低爆发性可能指示AI创作。OpenAI正研发AI文本水印系统,但尚处早期阶段。现有检测器对长文本较准确,但非100%可靠,最高准确率约84%。工具如AIUNDETECT和AI Humanizer提供AI检测解决方案,适用于学生、研究人员和内容创作者。
|
7月前
|
人工智能 安全 数据安全/隐私保护
AIGC内容检测方案初探
【1月更文挑战第15天】AIGC内容检测方案初探
153 1
AIGC内容检测方案初探
|
7月前
|
机器学习/深度学习 算法 计算机视觉
视觉智能平台常见问题之量具检测训练好了调用模型如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
SQL 机器学习/深度学习 开发框架
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
290 0
|
机器学习/深度学习 传感器 人工智能
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
基于图像的3D目标检测是自动驾驶领域的一个基本问题,也是一个具有挑战性的问题,近年来受到了业界和学术界越来越多的关注。得益于深度学习技术的快速发展,基于图像的3D检测取得了显著的进展。特别是,从2015年到2021年,已经有超过200篇研究这个问题的著作,涵盖了广泛的理论、算法和应用。然而,到目前为止,还没有一个调查来收集和组织这方面的知识。本文首次对这一新兴的不断发展的研究领域进行了全面综述,总结了基于图像的3D检测最常用的流程,并对其各个组成部分进行了深入分析。此外,作者还提出了两个新的分类法,将最先进的方法组织成不同的类别,以期提供更多的现有方法的系统综述,并促进与未来作品的公平比较。
纯视觉3D检测综述!一文详解3D检测现状、趋势和未来方向!(下)
|
机器学习/深度学习 Web App开发 人工智能
Deepmotion: AI动作捕捉和3D身体追踪技术平台
Deepmotion: AI动作捕捉和3D身体追踪技术平台
749 0
下一篇
DataWorks