深度学习助力实现智能行为分析和事件识别

简介:
行为识别是指通过分析视频、深度传感器等数据,利用特定的算法,对行人的行为进行识别、分析的技术。这项技术被广泛应用在视频分类、人机交互、安防监控等领域。行为识别包含两个研究方向:个体行为识别与群体行为(事件)识别。近年来,深度摄像技术的发展使得人体运动的深度图像序列变得容易获取,结合高精度的骨架估计算法,能够进一步提取人体骨架运动序列。利用这些运动序列信息,行为识别性能得到了很大提升,对智能视频监控、智能交通管理及智慧城市建设等具有重要意义。同时,随着行人智能分析与群体事件感知的需求与日俱增,一系列行为分析与事件识别算法在深度学习技术的推动下应运而生。下面将介绍我们最新的相关研究。


图1 行为识别的定义及应用领域


1.基于层级化循环神经网络的人体骨架运动序列行为识别


目前基于人体骨架的行为识别方法主要可分为两类:1)基于局部特征的方法:该类方法是对序列中的各时刻的人体骨架的局部几何结构做特征提取,然后利用词包(Bag of Words, BoW)模型结合时间金字塔(Temporal Pyramid, TP)或是结合动态时间规整(Dynamic Time Warping, DTW)进行识别,该类方法没有或是只能局部考虑运动序列的时序信息,其识别过程更多地依赖局部静态结构特征;2)基于序列状态转移的方法:该类方法主要是利用HMM 对行为演化的动态过程进行建模,其两个主要不足是不仅需要对序列做预对齐,同时还需要估计状态转移过程的迁移概率,这本是两个比较困难的问题,其识别的精度也往往偏低。本研究主要基于微软的Kinect 和运动捕获系统提取的人体骨架运动序列,结合人体运动的相对性,提出了基于递归神经网络的人体骨架运动序列的行为识别模型。提出的模型首先对已经提取好的人体骨架姿态序列中节点坐标进行归一化,以消除人体所处绝对空间位置对识别过程的影响,利用简单平滑滤波器对骨架节点坐标做平滑滤波以提高信噪比,最后将平滑后的数据送入一个层次化双向递归神经网络同步进行深度特征表达提取、融合及识别,同时提供了一种层次化单向递归神经网络模型以应对实际中的实时分析需求。该方法主要优点是根据人体结构特征及运动的相对性,设计端到端的分析模式,在实现高精度识别率的同时避免复杂的计算,便于实际应用。本工作及其扩展版本先后发表在CVPR-2015及IEEE TIP-2016上。

图2 基于层级化RNN的人体骨架序列行为识别示意图

2.基于双流循环神经网络的行为识别


由于深度传感器的成本的降低和实时的骨架估计算法的出现,基于骨架的行为识别研究越来越受欢迎。传统方法主要基于手工特征设计,对行为中运动的表达能力有限。最近出现了一些基于循环神经网络的算法,可以直接处理原始数据并预测行为。这些方法只考虑了骨架坐标随着时间的动态演变,而忽略了它们在某一个时刻的空间关系。在本文中,我们提出一种基于双流循环神经网络的方法如图三,分别对骨架坐标的时间动态特性和空间相对关系建模。对于时间通道,我们探索了两种不同的结构:多层循环神经网络模型和层次化的循环神经网络模型。对于空间通道,我们提出两种有效的方法把坐标的空间关系图转换为关节点的序列,以方便输入到循环神经网络中。为了提高模型的泛化能力,我们探究了基于三维坐标变换的数据增强技术,包括旋转、缩放和剪切变换。 在深度视频的行为识别标准数据库的测试结果显示,我们的方法对于一般行为,交互式行为和手势的识别结果都有相当大的提高。该工作已被CVPR-2017接收。


图3 基于双流RNN的骨架的行为识别方法

3.基于类相关玻尔兹曼机的视频事件分析


我们研究了有监督模型中的视频表达学习,以期望利用类标签学到更有区分力的表达,可同时用于视频分类和检索。我们知道,由于低层视觉特征与类标签之间的语义鸿沟、高维低层特征对后续分析所产生的计算代价以及有标签训练样本的缺乏,在不受控制的网络视频中分析无结构的群体行为和事件是一个非常具有挑战性的任务,如图四所示。为了克服这些困难,我们希望能够学习一个含有语义信息的紧凑中层视频表达。因此,我们提出了一种新的有监督概率图模型:类相关受限玻尔兹曼机(Relevance Restricted Boltzmann Machine, ReRBM),学习一种低维的隐语义表达用于复杂行为和事件分析。提出的模型在受限玻尔兹曼机(RBM)的基础上进行了一些关键性扩展:1)将稀疏贝叶斯学习与RBM结合来学习具有区分力的与视频类相关的隐含特征;2)将RBM中的二进制随机隐含单元替换为非负线性单元来更好的解释复杂视频内容,并使得变分推理能够适用于提出的模型;3)开发了有效的变分EM算法用于模型的参数估计和推理。我们在三个具有挑战性的标准视频数据集(Unstructured Social Activity Attribute、Event Video和Hollywood2)上对提出的模型进行了评估。实验结果表明,相比其他的一些隐变量概率图模型如图五所示,提出的模型所学到的类相关特征提供了对视频数据更具有区分力的语义描述,在分类准确率和检索精度上获得了最好结果,特别是在使用很少有标签训练样本的情况下。这项工作发表在机器学习、神经信号处理领域顶级国际会议NIPS 2013上,其扩展后的版本被计算机视觉领域顶级国际期刊IJCV 2016发表。

图 4 不同类型的活动 (简单动作、结构化活动、非结构化群体事件)


图5 基于类相关受限玻尔兹曼机的视频表达

4.采用双通道卷积神经网络的基于行走行为的身份识别


基于行走行为的身份识别,即步态识别一般指的是给定一个步态序列,要求从一个匹配库中找出与之最相似的序列,从而确定所给定序列中人的身份。步态是远距离、非受控情况下唯一可感知的生物特征,使用范围可远达50米,在远距离大范围的视觉监控场合具有不可替代的应用前景和研究价值。我们提出的方法处理的是预先提取好的步态能量图(Gait Energy Images,GEI),步态能量图是将视频序列中提取出的行人剪影对齐后沿时间维度平均得到的一种2D的灰度图像。首先,考虑到基于步态能量图的步态识别中局部细节差异的重要性,多点的局部比较应该会优于一次全局比较;其次,两个处于不同视角的样本可能会在表观上出现巨大的差异,如果只考虑比较单元自己的局部区域,将很难捕捉到足够的信息进行比较;另外还需要判别式地学习特征和比较模型。以上的三点都可以在一个深度卷积神经网络中实现,从而我们提出了基于上下文的跨视角步态识别方法如图六所示,在极为困难的同时跨视角和行走状态的任务中,也能够达到足够让人接受的识别效率。相关成果已发表在IEEE TMM-2015与TPAMI-2017上。


图6 步态识别流程图与提出的模型结构图


原文发布时间为:2017-09-13

本文作者:赵放、杜勇、王洪松、吴子丰

本文来自云栖社区合作伙伴极市网,了解相关信息可以关注极市网。

相关文章
|
9月前
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
332 22
|
5月前
|
机器学习/深度学习 传感器 算法
基于多模态感知与深度学习的智能决策体系
本系统采用“端-边-云”协同架构,涵盖感知层、计算层和决策层。感知层包括视觉感知单元(800万像素摄像头、UWB定位)和环境传感单元(毫米波雷达、TOF传感器)。边缘侧使用NVIDIA Jetson AGX Orin模组处理多路视频流,云端基于微服务架构实现智能调度与预测。核心算法涵盖人员行为分析、环境质量评估及路径优化,采用DeepSORT改进版、HRNet-W48等技术,实现高精度识别与优化。关键技术突破包括跨摄像头协同跟踪、小样本迁移学习及实时推理优化。实测数据显示,在18万㎡商业体中,垃圾溢流检出率达98.7%,日均处理数据量达4.2TB,显著提升效能并降低运营成本。
239 7
|
6月前
|
机器学习/深度学习 人工智能 运维
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
AI“捕风捉影”:深度学习如何让网络事件检测更智能?
175 8
|
7月前
|
机器学习/深度学习 运维 自然语言处理
当深度学习遇上故障根因分析:运维人的绝佳拍档
当深度学习遇上故障根因分析:运维人的绝佳拍档
300 17
|
8月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
9月前
|
机器学习/深度学习 存储 运维
深度学习在数据备份与恢复中的新视角:智能化与效率提升
深度学习在数据备份与恢复中的新视角:智能化与效率提升
306 19
|
9月前
|
机器学习/深度学习 运维 监控
利用深度学习进行系统健康监控:智能运维的新纪元
利用深度学习进行系统健康监控:智能运维的新纪元
306 30
|
9月前
|
机器学习/深度学习 数据采集 缓存
打造智能音乐推荐系统:基于深度学习的个性化音乐推荐实现
本文介绍了如何基于深度学习构建个性化的音乐推荐系统。首先,通过收集和预处理用户行为及音乐特征数据,确保数据质量。接着,设计了神经协同过滤模型(NCF),利用多层神经网络捕捉用户与音乐间的非线性关系。在模型训练阶段,采用二元交叉熵损失函数和Adam优化器,并通过批量加载、正负样本生成等技巧提升训练效率。最后,实现了个性化推荐策略,包括基于隐式偏好、混合推荐和探索机制,并通过AUC、Precision@K等指标验证了模型性能的显著提升。系统部署方面,使用缓存、API服务和实时反馈优化在线推荐效果。
827 15
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的原理与应用:开启智能时代的大门
深度学习的原理与应用:开启智能时代的大门
593 16
|
10月前
|
机器学习/深度学习 数据采集 供应链
使用Python实现智能食品消费需求分析的深度学习模型
使用Python实现智能食品消费需求分析的深度学习模型
241 21

热门文章

最新文章