《中国人工智能学会通讯》——5.26 受视觉通路的整体结构启发

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第5章,第5.26节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

5.26 受视觉通路的整体结构启发

一般认为层级的视觉系统有两条通路,即腹侧通路和背侧通路。一般腹侧通路处理与识别相关的信息,而背侧通路处理和物体空间位置以及运动有关的信息。在视频处理中,静态图像的信息和动作信息同时起作用。为了利用动作信息,常用的做法包括将前后多帧的图像信息在处理的某个阶段进行融合,比如早融合将多张图像一起输入,晚融合分别处理多张图像然后将它们的输出组合在一起。递归神经网络也经常用来辅助模型以提取时序上的动作信息。与这些做法不同,文献 [10] 将双通路的CNN 用于视频中的动作识别(如图 6 所示),其中空间流 CNN 模仿腹侧通路处理静态图像,时域流CNN 模仿背侧通路处理光流图片(光流图片提取了动作信息)。空间流 CNN 以单帧图像为输入,该CNN 能够识别出图像中包含的物体类别,由于动作本身是由物体发出的,静态图像的信息对动作识别有重要作用。时域流 CNN 以根据多帧图像计算出的光流图像作为输入进行处理。有趣的是,用图像分类任务对时域流 CNN 做预训练对这个任务仍然有辅助作用。模型在动作识别中取得了优异的效果,是目前做视频分类的基准模型,很多新的模型都是在此基础上的改进版,如文献 [11]。image

相关文章
|
4月前
|
人工智能 安全 Anolis
中兴通讯分论坛邀您探讨 AI 时代下 OS 的安全能力 | 2024 龙蜥大会
操作系统如何提供符合场景要求的安全能力,构建更加安全可信的计算环境。
|
7月前
|
机器学习/深度学习 人工智能 监控
AI日报:信用公司转型人工智能的长采访...或许能给你一些启发
AI日报:信用公司转型人工智能的长采访...或许能给你一些启发
|
机器学习/深度学习 并行计算 PyTorch
搭建(人工智能)或(视觉处理)环境前必看
在进行做人工智能或视图处理的一些ai环境搭建的时候,我们经常要下Anaconda要下cuda要下pytorch一大堆的东西,那么这些东西的作用和他们之间的关系是什么呢!
143 1
|
人工智能 自然语言处理 搜索推荐
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
187 1
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
数据采集 人工智能 计算机视觉
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(2)
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
160 0
|
机器学习/深度学习 编解码 人工智能
中科院团队新研究:人工智能有助于从空间分辨转录组学中识别组织亚结构
中科院团队新研究:人工智能有助于从空间分辨转录组学中识别组织亚结构
160 0
|
机器学习/深度学习 人工智能 安全
快80~500倍!人工智能快速预测两种蛋白质的结构互作方式
快80~500倍!人工智能快速预测两种蛋白质的结构互作方式
142 0
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
553 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
2085 0
与世界同行 2017中国人工智能大会有感