《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发-阿里云开发者社区

《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

2017-09-04 1111

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第5章，第5.26节，更多章节内容可以访问云栖社区“CCAI”公众号查看。

5.26 受视觉通路的整体结构启发

一般认为层级的视觉系统有两条通路，即腹侧通路和背侧通路。一般腹侧通路处理与识别相关的信息，而背侧通路处理和物体空间位置以及运动有关的信息。在视频处理中，静态图像的信息和动作信息同时起作用。为了利用动作信息，常用的做法包括将前后多帧的图像信息在处理的某个阶段进行融合，比如早融合将多张图像一起输入，晚融合分别处理多张图像然后将它们的输出组合在一起。递归神经网络也经常用来辅助模型以提取时序上的动作信息。与这些做法不同，文献 [10] 将双通路的CNN 用于视频中的动作识别（如图 6 所示），其中空间流 CNN 模仿腹侧通路处理静态图像，时域流CNN 模仿背侧通路处理光流图片（光流图片提取了动作信息）。空间流 CNN 以单帧图像为输入，该CNN 能够识别出图像中包含的物体类别，由于动作本身是由物体发出的，静态图像的信息对动作识别有重要作用。时域流 CNN 以根据多帧图像计算出的光流图像作为输入进行处理。有趣的是，用图像分类任务对时域流 CNN 做预训练对这个任务仍然有辅助作用。模型在动作识别中取得了优异的效果，是目前做视频分类的基准模型，很多新的模型都是在此基础上的改进版，如文献 [11]。

《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

5.26 受视觉通路的整体结构启发

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

5.26 受视觉通路的整体结构启发

热门文章

最新文章

相关课程

相关电子书

相关实验场景