《中国人工智能学会通讯》——4.24 机器的视觉注意

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第4章,第4.24节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

4.24 机器的视觉注意

1 . 表达方式

对于给定的图像或视频数据,机器的视觉注意过程是希望能找到场景中较为显著(或突出)的区域,其输出结果一般采用视觉显著度图(Saliency Map)的形式。其中每个空间位置的显著性一般用值域为 [0,1]的概率值来表示。概率值越大,表示该位置越有可能成为人类视觉关注的目标。以图 1 为例,图中第一行为原始输入影像;第二行为视觉显著度图(每个像素的灰度值是将其对应位置的概率值线性放大到值域[0,255],并予以显示)。图像中强度越高的区域表示越有可能是兴趣区域,强度越低则表示越不显著[6] 。
image

2 . 传统范式传统的视觉显著性分析模型主要考虑自下而上的视觉注意过程,采用对比分析范式,依照对比线索的参考范围可进一步细分为局部对比范式和全局对比范式。局部对比范式主要是通过像素(或区域)与其局部邻域的视觉对比度来定义该像素(或区域)的视觉显著性程度。这一类模型中很多工作都与 Koch 等于 1985 所假设的人类视觉系统的生物模型[7]有着一定程度的联系。Itti 等的工作[8]即是直接基于该生物模型而展开,即首先通过高斯差分(Difference ofGaussians)算子从图像中获取一系列的、多尺度的低层特征,而后采用局部的中心 - 周边差异(Centrer-Surround Difference)算子对这些特征进行归一化和整合,并结合返回抑制(Inhibition of Return)操作得到视觉显著度图。

另有一些工作更直接地依赖于纯粹的局部视觉对比度分析,比如将扫描窗内区域与扫描窗外周边区域之间的平均特征向量差异,作为确定扫描窗中心位置的视觉显著度的依据[9] ,以影像内各位置与其局部邻域之间的 KL 散度(Kullback-Leibler Divergence)来定义视觉显著度[10] ,或通过局部控制核(Local SteeringKernels)以待测像素与其周边邻域间的梯度对比度来计算视觉显著性[11] 。

全局对比范式则是在进行对比分析时充分考虑跨区域、时段的视觉单元。比如,通过计算各像素的颜色信息与图像经高斯平滑后的全局颜色均值之间的差异[12] ,比对各个图像块与全局范围内 k 近邻之间的相似性[13] ,或以颜色成分为处理单元对比各种颜色的全局分散度[14]来定义视觉显著度。

对于自上而下的视觉注意,有很多证据表明诸如行人、人脸、汽车、文字等在影像中具有概念意义的高层信息在预测注视点位置时比低层视觉特征更有效[15-17] 。遗憾的是,目前而言只有少量可执行的计算模型能够对这些高层信息加以利用,而其中大部分都需要依赖于眼动跟踪或目标检测技术[18-21] 。

3 . 发展现状研究者们从计算机科学的角度关注视觉注意已有近 40 年的研究历史。让机器具有视觉注意功能无疑是一项有趣而极具意义的工作。我们以《中国计算机学会推荐国际学术会议与期刊目录》(人工智能)A 类目录3为参考,对 2011—2015 年间视觉显著性分析领域学术论文的发表情况进行了统计,期望从一个侧面反映此研究领域的发展以供业界参考。统计结果参见表 1,其数据来源于计算机科学文献库 DBLPComputer Science Bibliography 4 。可以看出,就目前而言研究者们对该领域投入的关注度相对而言仍显不足。image

相关文章
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
搭建(人工智能)或(视觉处理)环境前必看
在进行做人工智能或视图处理的一些ai环境搭建的时候,我们经常要下Anaconda要下cuda要下pytorch一大堆的东西,那么这些东西的作用和他们之间的关系是什么呢!
57 1
|
6月前
|
机器学习/深度学习 人工智能 算法
专栏介绍《机器智造:AI与实战学习》
专栏介绍《机器智造:AI与实战学习》
37 0
|
8月前
|
存储 机器学习/深度学习 人工智能
LangChain + Streamlit + Llama:将对话式AI引入本地机器
在过去的几个月里,大型语言模型(LLM)获得了极大的关注,引起了全球开发人员的兴趣。这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员而言。LLM带来的可能性引发了开发人员的热情 |人工智能 |NLP社区。
452 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
112 0
|
9月前
|
人工智能 自然语言处理 搜索推荐
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
135 1
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(1)
|
9月前
|
数据采集 人工智能 计算机视觉
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat(2)
赋予LLM视觉理解能力,360人工智能研究院开源中文多模态对话模型SEEChat
103 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
AI再卷数学界,DSP新方法将机器证明成功率提高一倍
132 0
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
469 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
人工智能 大数据 新制造
谈谈大数据和人工智能的9个应用场景【人与机器共生】
大数据时代,以数据为基础的技术正在改变人类的未来。
谈谈大数据和人工智能的9个应用场景【人与机器共生】