中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

简介:

1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方 法。深度卷积神经网络在图像分类取得 成功后,研究人员就希望把它推广到视 频分类中。但这不是一件很容易的事, 一个原因是缺乏足够的训练数据。为此, 谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库,包含 100 万段视频,有 487 类各种各样的运动,这是一个相当大的 数据库。同时他们改进了传统卷积神经 网络,用于处理视频序列,提出在不同 阶段进行特征的融合,这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略,其中 Slow Fusion 效果最好。

image

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心 的问题是深度学习获得了什么样的特征, 下图给出学习到的三维,大家可以看到, 一闪一闪的,有一些彩色的动态边缘。但 这个方法在传统 UCF 数据库测试结果并 不高,低于传统非深度学习的方法。因此, 研究人员就在想有没有更好的方法。

image

下面讲两个非常有效的视频深度学习 模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维, 增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器,C3D 模 型 把 3×3 的滤波推广到 3×3×3。这个网络在 实际视频分类中取得了很好的效果。

image

另一个工作,牛津大学的双流网络 Two Stream。该方法把光流也看成图像, 然后利用一个流 CNN 来处理光流图像; 另外一个流处理 RGB 图像。这个方法充 分利用了 CNN 对 2 维信号的强大处理能 力,在 UCF 数据库上取得了 88% 的识别 率,相当不错。

image

我们知道在传统非深度学习方法中, 运动轨迹特征取得了很好的效果,这启 发我们能够把运动轨迹也考虑到深度建 模中来,或者说把原来运动轨迹特征和 深度神经网络做结合,发挥二者的强项。 运动轨迹可以对运动物体进行跟踪,并强 调运动显著性区域。卷积神经网络强在 它能够提取通过多层处理语义非常强的 特征,这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运 动轨迹提取卷积特征。

image

具体怎么做结合?如图所示,左边参 照传统方法提取光流和运动轨迹,右边 利用卷积神经网络抽取视频的深度特征。 抽完特征后沿着这个运动轨迹把这些卷 积特征进行区域分割、编码和池化。当 然,这里还有一个问题就是如何训练神 经网络,我们采取类似双流网络的方法, 但细节上讲又对其做了改进。

image

在实际试验中,我们发现卷积特征是 非常稀疏的,而且和运动区域是显著相关 的;我们还发现编码时引入一些正则化策 略和使用不同层的多尺度特征,对提升识 别率有帮助。这个方法在 UCF 数据库上 取得了 91.5% 的识别率,在当时是最高的。 我们这个工作发表在 CVPR 2015。

相关文章
|
5天前
|
机器学习/深度学习 自然语言处理 监控
深度学习之视频摘要生成
基于深度学习的视频摘要生成是一种通过自动化方式从长视频中提取关键片段,生成简洁且有代表性的视频摘要的技术。其目的是在保留视频主要内容的基础上,大幅缩短视频的播放时长,方便用户快速理解视频的核心信息。
24 7
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:机器学习与深度学习的融合之旅
【9月更文挑战第35天】在这篇文章中,我们将深入探讨人工智能的两大支柱——机器学习和深度学习。我们将通过代码示例和实际应用案例,揭示它们如何相互补充,共同推动AI技术的发展。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和启示。
17 0
|
19天前
|
机器学习/深度学习 人工智能 算法
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
植物病害识别系统。本系统使用Python作为主要编程语言,通过收集水稻常见的四种叶片病害图片('细菌性叶枯病', '稻瘟病', '褐斑病', '稻瘟条纹病毒病')作为后面模型训练用到的数据集。然后使用TensorFlow搭建卷积神经网络算法模型,并进行多轮迭代训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地模型文件。再使用Django搭建Web网页平台操作界面,实现用户上传一张测试图片识别其名称。
71 21
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
|
19天前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
64 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
19天前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
45 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
15天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
26 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
5天前
|
机器学习/深度学习 运维 监控
深度学习之视频内容理解
基于深度学习的视频内容理解(Video Content Understanding, VCU)是一项关键技术,旨在通过神经网络模型自动分析、解读和提取视频中的语义信息。
19 10
|
2天前
|
机器学习/深度学习 监控 人机交互
深度学习之视频中的姿态跟踪
基于深度学习的视频姿态跟踪是一项用于从视频序列中持续检测和跟踪人体姿态的技术。它能够识别人体的2D或3D关键点,并在时间维度上进行跟踪,主要应用于人机交互、体育分析、动作识别和虚拟现实等领域。
15 3
|
15天前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
35 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
21天前
|
机器学习/深度学习 存储 人工智能
深度学习中的模型压缩技术在人工智能领域,深度学习技术的迅猛发展带来了巨大的计算资源需求。为了解决这一问题,模型压缩技术应运而生。本文将介绍什么是模型压缩、常见的模型压缩方法以及其在实际应用中的意义。
随着深度学习技术的广泛应用,计算资源的需求也大幅增加。为减少资源消耗,提升模型效率,模型压缩技术成为研究热点。本文探讨了模型压缩的定义、主流方法和其重要性。通过量化、剪枝、知识蒸馏和轻量级架构等策略,模型得以在保持性能的同时减小体积,从而适用于资源受限的环境。这些技术不仅降低了计算成本,还推动了深度学习在移动设备和边缘计算等领域的应用,使AI技术更加普及和实用。总之,模型压缩在平衡模型性能与资源消耗之间发挥着关键作用,是未来AI发展的重要方向。