中国人工智能学会通讯——基于视频的行为识别技术 1.5 基于深度学习的视频识别方法

简介:

1.5 基于深度学习的视频识别方法

下面介绍面向视频分类的深度学习方 法。深度卷积神经网络在图像分类取得 成功后,研究人员就希望把它推广到视 频分类中。但这不是一件很容易的事, 一个原因是缺乏足够的训练数据。为此, 谷歌和斯坦福的研究人员开发了 Sports-1 M 数据库,包含 100 万段视频,有 487 类各种各样的运动,这是一个相当大的 数据库。同时他们改进了传统卷积神经 网络,用于处理视频序列,提出在不同 阶段进行特征的融合,这里图中给出了 Late Fusion、Early Fusion、Slow Fusion 三种策略,其中 Slow Fusion 效果最好。

image

接着他们利用 Sports-1 M 这个数据库来训练自己开发的网络。一个值得关心 的问题是深度学习获得了什么样的特征, 下图给出学习到的三维,大家可以看到, 一闪一闪的,有一些彩色的动态边缘。但 这个方法在传统 UCF 数据库测试结果并 不高,低于传统非深度学习的方法。因此, 研究人员就在想有没有更好的方法。

image

下面讲两个非常有效的视频深度学习 模型。第一个工作是 C3D 模型 , 该模型把 VGG 网络的滤波器从二维推广到三维, 增加的一维对应于时间。我们知道 VGG 网络中有大量 3×3 的滤波器,C3D 模 型 把 3×3 的滤波推广到 3×3×3。这个网络在 实际视频分类中取得了很好的效果。

image

另一个工作,牛津大学的双流网络 Two Stream。该方法把光流也看成图像, 然后利用一个流 CNN 来处理光流图像; 另外一个流处理 RGB 图像。这个方法充 分利用了 CNN 对 2 维信号的强大处理能 力,在 UCF 数据库上取得了 88% 的识别 率,相当不错。

image

我们知道在传统非深度学习方法中, 运动轨迹特征取得了很好的效果,这启 发我们能够把运动轨迹也考虑到深度建 模中来,或者说把原来运动轨迹特征和 深度神经网络做结合,发挥二者的强项。 运动轨迹可以对运动物体进行跟踪,并强 调运动显著性区域。卷积神经网络强在 它能够提取通过多层处理语义非常强的 特征,这些特征要比我们传统的 HoG、 HoF 能力强。这就提示我们可以沿着运 动轨迹提取卷积特征。

image

具体怎么做结合?如图所示,左边参 照传统方法提取光流和运动轨迹,右边 利用卷积神经网络抽取视频的深度特征。 抽完特征后沿着这个运动轨迹把这些卷 积特征进行区域分割、编码和池化。当 然,这里还有一个问题就是如何训练神 经网络,我们采取类似双流网络的方法, 但细节上讲又对其做了改进。

image

在实际试验中,我们发现卷积特征是 非常稀疏的,而且和运动区域是显著相关 的;我们还发现编码时引入一些正则化策 略和使用不同层的多尺度特征,对提升识 别率有帮助。这个方法在 UCF 数据库上 取得了 91.5% 的识别率,在当时是最高的。 我们这个工作发表在 CVPR 2015。

相关文章
|
5月前
|
人工智能 数据安全/隐私保护
如何识别AI生成内容?探秘“AI指纹”检测技术
如何识别AI生成内容?探秘“AI指纹”检测技术
922 119
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI检测技术:如何识别机器生成的“数字指纹”?
AI检测技术:如何识别机器生成的“数字指纹”?
368 115
|
5月前
|
人工智能 自然语言处理 算法
揭秘AI文本:当前主流检测技术与挑战
揭秘AI文本:当前主流检测技术与挑战
914 115
|
5月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
5月前
|
人工智能 新制造
TsingtaoAI受邀参加宁波AI海曙科创训练营并分享技术落地实践
10月12日至15日,由宁波市海曙区组织部主办的AI海曙科创训练营在宁波成功举办。作为受邀企业代表,TsingtaoAI团队深入参与了多项活动,与政府领导、行业专家及科创企业代表围绕AI技术在制造业、成果转化等领域的实际应用展开交流,用真实案例诠释了“技术扎根产业”的价值逻辑。
171 2
|
5月前
|
机器学习/深度学习 人工智能 算法
AI可以做电商主图了:技术原理,AI电商图生成工具对比及技术解析
双十一临近,电商主图需求激增。AI技术凭借多图融合、扩散模型等,实现高效智能设计,30秒生成高质量主图,远超传统PS效率。支持风格迁移、背景替换、文案生成,助力商家快速打造吸睛商品图,提升转化率。
1563 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
如何准确检测AI生成内容?这三大技术是关键
如何准确检测AI生成内容?这三大技术是关键
929 116
|
5月前
|
人工智能 机器人 人机交互
当AI学会“看、听、懂”:多模态技术的现在与未来
当AI学会“看、听、懂”:多模态技术的现在与未来
385 117
|
5月前
|
机器学习/深度学习 人工智能 算法
AI生成内容的“指纹”与检测技术初探
AI生成内容的“指纹”与检测技术初探
663 9

热门文章

最新文章