【图像分割里程碑】南开提出首个人眼模拟分割指标,性能当前最优

简介: 图像分割是以人眼识别为基础,而人眼识别是从整体到局部的分割方式。本文首次提出了一种模拟人眼判别的新指标,结果远优于现有方法,并证明其与人眼判别结果更加一致。

【新智元导读】图像分割是以人眼识别为基础,而人眼识别是从整体到局部的分割方式。本文首次提出了一种模拟人眼判别的新指标,结果远优于现有方法,并证明其与人眼判别结果更加一致。

图像分割往往是以人眼识别为基础的,而人眼识别是从整体到局部的分割方式。本文从整体和局部两个方向出发,提出了一种新颖而高效的增强校准度量方法(E-measure)用于二值前景图的评估, 通过简单地结合局部信息与全局信息得到了非常可靠的评价结果。

对于GT(GroundTruth,真值图)与分割算法预测的FM (ForegroundMap,前景图),图像评价指标的意义即为计算FM与GT的相似度,为介于0-1之间的值(可以看作概率),1表示完全一样,而0则根据不同的算法有不同的结果,认为是完全不一样(或者与GT正好相反)。GT往往是研究人员手工标注的,
一般认为GT代表的是人眼分割的结果。而评价指标算法的目标,就是取得跟人眼进行图像分类一样的结果。而目前广泛使用的IOU是基于局部信息的误差度量(像素级别),而忽略了图像的全局信息,从而导致其评估不准确。

E-measure是基于局部像素信息差别与全局均值信息的评估方法,我们在5个基准数据集上采用5个元度量证明了E-measure远远优于已有的度量方法,并且在我们提出的人眼排序数据集上取得了最好的结果,证明其与和人的主观评价具有高度一致性。

问题引出:管中窥豹,只可见一斑

评价指标的合理与否对一个领域中模型的发展起到决定性的作用,现有的前景图检测中应用最广泛的评价指标为IOU(Intersection-Over-Union,交并集),如图1, IOU的公式可表示为公式1。

image

图1:IOU的形象化表示

不难看出IOU是基于局部像素差异的评估方法,缺失了全局信息。如图2所示,(d)中所示不过是噪声图,很明显(c)中的图与(b) 中GT更相似,而(d)实际上可能只与全白或者全黑的前景图结果差不多,而对于全白或全黑图,我们可以认为是不相似的(但是并非相似度值为0,事实上为0一般表示完全相反)。而在通过IOU算法的结果却告诉我们,(d)比(c)更好!这显然是不合理的。

image

图2:不同类型前景图FM的评价对比

只基于局部像素差异对计算机来说或许是有效的,但是不符合人眼分割图像的机制。我们来实验分析一个简单的例子,如图3,蓝色范围为GT,红色为FM。可以看出,(a)和(b)的FM形状差别很大,但是其与GT的交却完全一样,导致得到完全一样的结果。

image


图3:IOU简单分析,蓝色范围为GT,红色为检FM,(a)与(b)中交集面积一样

因为IOU只基于局部像素差异进行评估,导致其只能得到一个局部最优结果,而很难得到全面的评估结果。我们需要一个全面的,符合人眼视觉的评价指标。

解决方案:眼观六路,耳听八方

由于当前的评价指标都是考虑单个像素点的误差,缺少全局信息的考量,从而导致评估不准确。为此,我们考虑将局部信息与全局信息结合进行度量。

image

图4:(b)是原始图像(a)的分割结果,Map1(c)和Map2(d)分别为两个算法分割的结果

我们先来看一个例子,从图4中两个分割算法检测的结果Map1和Map2中,我们判断其结果与GT的相似度会考虑到全局的相似度,如整个鹿的身体部分。通过这一判断,感知两者的相似度差异较小。进而进行局部的细节判断(见图 5})。我们发现与Map1相比,Map2分割结果包含了更多细节(脚),从而,如图 6所示,我们会认为Map2的的分割结果优于Map1。

image


图5:(b)是原始图像(a)的分割结果,Map1(c)和Map2(d)分别为两个算法分割的结果


image

图6:(b)是原始图像(a)的分割结果,Map1(c)和Map2(d)分别为两个算法分割的结果

1、结合全局信息与局部信息

我们考虑将图像级的统计信息纳入考量范围,选择全局的像素均值μ作为图像级的统计信息,因为全局均值能代表图像全局的信息而且计算简单。如图7中(c)(d)所示,,分别为GT, FM 的均值。GT与FM中的每一像素值与其均值,之差作为结合全局信息的偏差矩阵。

2、误差估计

计算偏差矩阵(bias matrix),的误差估计,我们可以得到GT, FM间的误差估计,而因为偏差矩阵结合了全局信息与局部像素信息,所以其能很好地代表GT, FM间的误差。

偏差矩阵为[0-1]之间的连续值,我们使用对齐矩阵(alignment matrix)ξ来评价偏差矩阵间的误差:

image

图片7:结合全局信息与局部信息。和分别为GT,FM的均值,,为结合全局信息与局部信息的偏差矩阵(bias matrix)

其中为哈达玛乘,分子为评价误差,而将评估结果缩放到[-1,1]之间,其中-1表示完全相反,而1表示完全相同。即对于每个包含全局信息的局部值误差,我们可以计算出一个[-1,1]之间的误差估计。

3、非线性变换

我们需要一个[0,1]之间的评价指标,因此需要将[-1,1]的值域缩放到[0,1]之间。对于一个随机分类器输出的二分类结果,即随机生成的FM,其与GT的误差应该是均匀的,即其误差应该均匀地分布在[-1.1] 之间,这样我们可以直接使用线性的变换将其值域缩放到[0,1](例如采用)。

但是事实上,所有的分类器应该都要比随机分类器要好得多,也就是说许多方法的输出FM都是与GT相似而极少相反,即评价得分绝大部分集中于[0,1]之间而只有极少部分出现在[-1,0],在此情况下继续采用线性函数进行值域缩放就不再合适,因为这会导致绝大部分的结果集中到0.5以上的结果而导致缺乏区分度。其次,人眼评估的结果是评估FM与GT的相似度的,而非不相似度(或者负相似度),这也说明再使用线性缩放是不合适的。而简单地将所有[-1,0]之间的值置为0(如神经网络中非常著名的relu激活函数)会丢失一些评估结果,因此不可取。

基于上述分析,我们提出非线性的变换函数:

image

该函数其实只是对上述函数的平方,同样将[-1,1]缩放到[0,1]之间,但是公式3是非线性函数,其图像如图8,其将[-1,0]之间的值缩放到一个较小的范围,而将[0,1]之间的值缩放到较大的范围,从而避免了线性缩放带来的诸多问题。


image


图8:非线性变换函数,其将[-1,0]之间的值缩放到一个较小的范围,而将[0,1]之间的值缩放到较大的范围

4、综合估计

我们将所有的误差缩放到[0,1]之间,便得到符合范围的误差结果(4):

image

E-measure定义为所有位置误差结果的综合:

image

元度量实验证明有效性

为了证明指标的有效性和可靠性,研究人员采用元度量的方法来进行实验。通过提出一系列合理的假设,然后验证指标符合这些假设的程度就可以得到指标的性能。简而言之,元度量就是一种评测指标的指标。实验采用了5个元度量:

元度量1:应用排序

推动模型发展的一个重要原因就是应用需求,因此一个指标的排序结果应该和应用的排序结果具有高度的一致性。即,将一系列前景图输入到应用程序中,由应用程序得到其标准前景图的排序结果,一个优秀的评价指标得到的评价结果应该与其应用程序标准前景图的排序结果具有高度一致性。如下图9所示。

image

图9


元度量2:最新水平 vs.通用结果

一个指标的评价原则应该倾向于选择那些采用最先进算法得到的检测结果而不是那些没有考虑图像内容的通用结果(例如中心高斯图)。如下图10所示。

image

图10

元度量3:最新水平 vs.随机结果

一个指标的评价原则应该倾向于选择那些采用最先进算法得到的检测结果而不是那些没有考虑图像内容的随机结果(例如高斯噪声图)。如图2所示。

元度量4:人工排序

人作为高级灵长类动物,擅长捕捉对象的结构,因此前景图检测的评价指标的排序结果,应该和人的主观排序具有高度一致性。我们通过从所有数据集中按比例,通过人随机选择符合人眼排序的前景图组,组成人工排序数据集FMDatabase。如下图11所示。


image

图11

元度量5:参考GT随机替换

原来指标认定为检测结果较好的模型,在参考的Ground-truth替换为错误的Ground-truth时,分数应该降低。如图12所示。

image

图12

实验结果

本文在5个具有不同特点的、具有挑战性数据集上进行了广泛的测试,以验证指标的稳定性、鲁棒性。

image

图13

实验结果表明:我们的指标分别在PASCAL, ECSSD, SOD 和HKU-IS数据集上具有更强的鲁棒性和稳定性。同时在FMDatabase(MM4)上,我们的指标也具有最好的结果。

论文地址:
http://dpfan.net/e-measure/

原文发布时间为:2018-08-03
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:【图像分割里程碑】南开提出首个人眼模拟分割指标,性能当前最优

相关文章
|
17天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
30921 105
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
6天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
4456 0
|
12天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6398 16
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
11天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4482 9
|
13天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5480 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
13天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6001 5
|
15天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7666 17