《中国人工智能学会通讯》——4.24 机器的视觉注意-阿里云开发者社区

开发者社区> 人工智能> 正文

《中国人工智能学会通讯》——4.24 机器的视觉注意

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第4章,第4.24节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

4.24 机器的视觉注意

1 . 表达方式

对于给定的图像或视频数据,机器的视觉注意过程是希望能找到场景中较为显著(或突出)的区域,其输出结果一般采用视觉显著度图(Saliency Map)的形式。其中每个空间位置的显著性一般用值域为 [0,1]的概率值来表示。概率值越大,表示该位置越有可能成为人类视觉关注的目标。以图 1 为例,图中第一行为原始输入影像;第二行为视觉显著度图(每个像素的灰度值是将其对应位置的概率值线性放大到值域[0,255],并予以显示)。图像中强度越高的区域表示越有可能是兴趣区域,强度越低则表示越不显著[6] 。
image

2 . 传统范式传统的视觉显著性分析模型主要考虑自下而上的视觉注意过程,采用对比分析范式,依照对比线索的参考范围可进一步细分为局部对比范式和全局对比范式。局部对比范式主要是通过像素(或区域)与其局部邻域的视觉对比度来定义该像素(或区域)的视觉显著性程度。这一类模型中很多工作都与 Koch 等于 1985 所假设的人类视觉系统的生物模型[7]有着一定程度的联系。Itti 等的工作[8]即是直接基于该生物模型而展开,即首先通过高斯差分(Difference ofGaussians)算子从图像中获取一系列的、多尺度的低层特征,而后采用局部的中心 - 周边差异(Centrer-Surround Difference)算子对这些特征进行归一化和整合,并结合返回抑制(Inhibition of Return)操作得到视觉显著度图。

另有一些工作更直接地依赖于纯粹的局部视觉对比度分析,比如将扫描窗内区域与扫描窗外周边区域之间的平均特征向量差异,作为确定扫描窗中心位置的视觉显著度的依据[9] ,以影像内各位置与其局部邻域之间的 KL 散度(Kullback-Leibler Divergence)来定义视觉显著度[10] ,或通过局部控制核(Local SteeringKernels)以待测像素与其周边邻域间的梯度对比度来计算视觉显著性[11] 。

全局对比范式则是在进行对比分析时充分考虑跨区域、时段的视觉单元。比如,通过计算各像素的颜色信息与图像经高斯平滑后的全局颜色均值之间的差异[12] ,比对各个图像块与全局范围内 k 近邻之间的相似性[13] ,或以颜色成分为处理单元对比各种颜色的全局分散度[14]来定义视觉显著度。

对于自上而下的视觉注意,有很多证据表明诸如行人、人脸、汽车、文字等在影像中具有概念意义的高层信息在预测注视点位置时比低层视觉特征更有效[15-17] 。遗憾的是,目前而言只有少量可执行的计算模型能够对这些高层信息加以利用,而其中大部分都需要依赖于眼动跟踪或目标检测技术[18-21] 。

3 . 发展现状研究者们从计算机科学的角度关注视觉注意已有近 40 年的研究历史。让机器具有视觉注意功能无疑是一项有趣而极具意义的工作。我们以《中国计算机学会推荐国际学术会议与期刊目录》(人工智能)A 类目录3为参考,对 2011—2015 年间视觉显著性分析领域学术论文的发表情况进行了统计,期望从一个侧面反映此研究领域的发展以供业界参考。统计结果参见表 1,其数据来源于计算机科学文献库 DBLPComputer Science Bibliography 4 。可以看出,就目前而言研究者们对该领域投入的关注度相对而言仍显不足。image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章