《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发-阿里云开发者社区

开发者社区> 人工智能> 正文

《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第5章,第5.26节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

5.26 受视觉通路的整体结构启发

一般认为层级的视觉系统有两条通路,即腹侧通路和背侧通路。一般腹侧通路处理与识别相关的信息,而背侧通路处理和物体空间位置以及运动有关的信息。在视频处理中,静态图像的信息和动作信息同时起作用。为了利用动作信息,常用的做法包括将前后多帧的图像信息在处理的某个阶段进行融合,比如早融合将多张图像一起输入,晚融合分别处理多张图像然后将它们的输出组合在一起。递归神经网络也经常用来辅助模型以提取时序上的动作信息。与这些做法不同,文献 [10] 将双通路的CNN 用于视频中的动作识别(如图 6 所示),其中空间流 CNN 模仿腹侧通路处理静态图像,时域流CNN 模仿背侧通路处理光流图片(光流图片提取了动作信息)。空间流 CNN 以单帧图像为输入,该CNN 能够识别出图像中包含的物体类别,由于动作本身是由物体发出的,静态图像的信息对动作识别有重要作用。时域流 CNN 以根据多帧图像计算出的光流图像作为输入进行处理。有趣的是,用图像分类任务对时域流 CNN 做预训练对这个任务仍然有辅助作用。模型在动作识别中取得了优异的效果,是目前做视频分类的基准模型,很多新的模型都是在此基础上的改进版,如文献 [11]。image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章