中国人工智能学会通讯——基于视频的行为识别技术 1.6 深度神经网络提高视频处理速度-阿里云开发者社区

中国人工智能学会通讯——基于视频的行为识别技术 1.6 深度神经网络提高视频处理速度

2017-09-01 1766

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.6 深度神经网络提高视频处理速度

视频处理还有一个需要考虑的重要问题——速度。视频的数据量很大，另一方面很多视频的应用都有实时性要求，因此这是一个很实际的问题。对前面介绍的深度神经网络而言，速度的瓶颈在于计算光流的时间。

为了解决这个问题，我们注意到有一个很好的东西可以替代光流。我们知道现在的视频数据大部分都是压缩，很少有人会把不压缩的视频存储和传输，因为数量太大了。视频压缩时会使用运动向量 MotionVector，运动向量表示一些具体图像块帧间的运动。这个虽然没有像光流一样去描述像素级精细的运动信息，但也提供了运动信息。运动向量的好处在于，它是不需要额外计算的，在视频解码过程中首先就要提取运动向量。

这就启发我们用运动向量替换光流，以节约光流的运算时间。当然运动向量也有它的问题，它代表一些区域运动不像光流那么精细，看起来像马赛克。另外，它对运动的描述并不准确，存在噪声。我们发现直接利用运动向量来训练卷积神经网络，识别性能会有很大的影响。

相比而言，光流训练处的神经网络性能是很好的，这就启发我们把光流所学知识或者特征迁移到运动向量神经网络中。具体而言，我们设计了集中策略包括模型的初始化、输出监督的迁移等。通过这些方法，我们发现运动向量神经网络识别率得到了很大的提升，它的学习特征更强了。

另外，视频作为一种时间序列，启发研究人员利用时序模型对视频进行建模。深度递归神经网络 RNN 是一个非常有效的时序模型。如何利用 RNN 或 LSTM 进行时序建模？可以先用卷积神经网络提取每一帧的特征，然后把这个特征作为 LSTM 当前时刻的输入。递归神经网络可以很多层，可以做双向的，这些都对识别率有帮助。

中国人工智能学会通讯——基于视频的行为识别技术 1.6 深度神经网络提高视频处理速度

1.6 深度神经网络提高视频处理速度

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

中国人工智能学会通讯——基于视频的行为识别技术 1.6 深度神经网络提高视频处理速度

1.6 深度神经网络提高视频处理速度

热门文章

最新文章

相关课程

相关电子书