SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

简介: SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

最近,SAM向通用人工智能迈出了重要的一步。同时,它的可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,作者提出了SAM线索的 Multi-box 即时触发不确定性估计,以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布,使用不同的prompt作为测试时间增加的公式。

作者的实验结果表明, Multi-box prompt增强增强了SAM性能,并为每个像素提供了不确定性。这为可靠的SAM提供了一个突破性的范例。

1、简介

大规模基础模型在人工智能研究人员中越来越受欢迎。在自然语言处理(NLP)领域,OpenAI开发的生成预训练转换器(GPT)和ChatGPT由于其卓越的泛化能力而快速增长。这些模型在自动驾驶和医疗保健等不同领域都有应用。大模型显著的泛化能力往往会在用户中灌输信任感;然而,它们的公平性和可靠性也受到了一定程度的审查。

如今,由于Meta AI发布了Segment Anything Model(SAM),人们对计算机视觉的热情与日俱增。SAM是在一个庞大的SA-1B数据集上训练的,该数据集由1100多万张图像和10亿个Mask组成,使其成为一个出色的工具。它擅长从各种类型的prompt中生成准确的分割结果,包括前景/背景点、thick boxes 或Mask以及自由格式文本。

SAM的引入让许多研究人员相信,通用人工智能终于到来了。然而,一些研究人员对SAM的性能表示担忧。具体而言,他们已经确定了医学图像中需要进一步改进的领域,如工业缺陷检测、伪装目标检测以及肿瘤和病变分割。此外,SAM的可靠性仍需进一步研究。

不确定性估计是为SAM提供可靠性的方法之一。此前,不确定性估计已在几个医学分割任务中证明了其可靠性和稳健性,包括皮肤病变和脑肿瘤等。目前的不确定性估计方法大致可分为基于确定性的方法、Bayesian Neural Network-based的方法、Ensemble-based的方法、Dropout-based的方法和Test-time augmentation-based的方法。本文的重点是在实现像素级不确定性估计的同时,保持SAM的简单性和原始结构。

在图1中,作者给出了不同条件下高质量和低质量眼底图像的视盘分割结果。SAM为高质量图像展示了更好的分割结果,并且包含不同的条件会带来一定的性能改进。然而,SAM对低质量图像的分割结果并不令人满意。尽管如此,包含不同条件大大提高了它的性能,尤其是使用更准确的方框prompt。

此外,作者观察到一种现象,即不同级别的框prompt往往会产生不同的结果。这一观察结果促使作者为医学图像引入一种新的方法,即 Multi-box prompt诱导的不确定性估计。因此,本文的主要关注点是通过使用多个框prompt来提高分割精度。这种方法使作者能够通过不确定性估计来建立像素级的可靠性。

具体来说,作者使用SAM来预测使用不同 Multi-box prompt的输出分布。带有 Multi-box prompt的SAM从预测分布中生成大量样本。随后,这些样本被用于计算方差,这为医学图像分割提供了不确定性估计。作者的实验表明, Multi-box prompt不仅提高了低质量医学图像的性能,而且为它们提供了不确定性估计。

2、本文方法

作者提出的方法的总体框架如图2所示。作者的主要重点是在零样本学习的背景下提高SAM的可靠性和准确性。为了提高SAM的准确性,作者引入了 Multi-box prompt,这使作者能够从分布中获得更精确的医学图像分割结果。具体而言,作者使用具有先验分布参数的蒙特卡罗模拟来估计SAM预测的分布。这种方法允许作者的方法通过考虑单个医学图像的多个预测来估计任意不确定性。

2.1、Mask选择策略

在未经prompt的设置下,SAM生成多个二进制Mask,并可以在一个输入中弹出几个潜在对象。为了在特定的分割任务中公平地评估感兴趣的区域,作者遵循[SAM Struggles in Concealed Scenes – Empirical Study on “Segment Anything”]的策略,根据其 GT Mask选择最合适的Mask。

形式上,给定输入图像的N个二进制预测和 GT G,作者计算每对的Dice分数,以生成一组评估分数。作者最后从这一组中选出Dice得分最高的面具。

2.2、Multi-box prompts SAM

prompt由于其固有的不精确性,可能会在模型的推断中引入错误。为了减少prompt变化的影响。作者随机化M个框prompt 。每个框prompt引导SAM生成不同的分割结果。

通过该策略,作者获得了不同先验线索下SAM的预测,将它们结合起来可以提高SAM的分割精度,减少不确定性。组合预测计算如下:

其中,表示对图像的组合预测。

2.3、使用multi-box prompts对SAM的不确定度进行估计

不同的框prompt会导致SAM分割的差异,即使它们指的是人类视野中的一个对象。受此启发,作者提出的 Multi-box prompt(MNP)算法模拟了多个临床专家的注释,以生成最终预测和不确定性估计。量化由 Multi-box prompt触发的不确定性。

假设M框prompt ,所有这些都指的是 GT 。在M框prompt和输入图像I的情况下,SAM生成一组预测。如图3所示,作者提出了一个 Multi-box prompt的不确定性估计程序。

作者首先通过熵描述来自单个给定图像I的任意不确定性:

估计图像i的预测的多样性。其中表示预测像素。表示中的唯一值。

然后,作者使用 Multi-box prompt进行蒙特卡罗模拟,以获得一组预测。因此,不确定性分布近似如下:

3、实验

3.1、定量分析

如表1所示,作者使用高质量的医学图像给出了SAM模式的不同分割结果。首先,作者比较了SAM在“everything”模式下和SAM在“box”模式下对正常医学图像的分割结果。

研究发现,在“box”模式下使用SAM的结果是优越的。此外,随着作者算法的引入,SAM的性能进一步提高。

表2和表3展示了在高斯噪声和退化医学图像下SAM模式的各种分割结果。作者比较了从上述SAM模式获得的结果。SAM在“everything”模式和“box”模式下的性能有所下降,而“multi-box”模式的性能保持在一定水平,ECE指数较低。因此,可以得出结论, Multi-box prompt的加入提高了SAM的准确性和可靠性。

3.2、定性比较

如图4所示,作者首先展示了multi-box模式SAM下的不确定性估计结果。从中可以看出,眼盘的周边被清楚地标记为不确定区域。

此外,作者比较了正常和退化医学图像下不同SAM模式的分割结果,如图5所示。在SAM with everything模式中,很难分割眼盘。在框prompt下,正常情况下可以对视盘进行分割,但在高斯噪声和退化图像下的分割结果并不令人满意。而作者的方法也在退化图像中获得了更好的分割结果,并为不确定的像素提供了权重。这为SAM开辟了一个新的范式,以实现稳健可靠的医学图像分割。

4、讨论与总结

在本文中,作者研究了SAM对眼底图像的分割性能。结果表明,框prompt显著提高了分割效果,但不同的框prompt会导致预测的变化。本文提出的主要方法,即快速增强,可以帮助估计任意不确定性的变化,并生成一个不确定性分布图,突出分割的挑战区域。

不确定性图不仅改进了分割过程和最终结果,而且能够开发出更先进的眼底图像分割方法。此外,不确定性图在需要手动注释的领域提供了宝贵的指导。使用不确定性分布图来指导分割并提高精度的特点值得注意。此外,不确定性图可以帮助识别潜在的分割错误并支持进一步的分析,为临床医生提供有用的信息。

5、参考

[1].SAM-U: Multi-box prompts triggered uncertainty estimation for reliable SAM in medical image.

相关文章
|
5月前
|
人工智能
ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。
149 60
|
7月前
|
存储 人工智能 安全
使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型
本文探讨了一种名为“abliteration”的技术,该技术能够在不重新训练大型语言模型(LLM)的情况下移除其内置的安全审查机制。通常,LLM在接收到潜在有害输入时会拒绝执行,但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析,研究人员发现可以识别并消除导致拒绝行为的特定方向,从而允许模型响应所有类型的提示。
480 1
|
7月前
|
机器学习/深度学习 JSON 测试技术
CNN依旧能战:nnU-Net团队新研究揭示医学图像分割的验证误区,设定先进的验证标准与基线模型
在3D医学图像分割领域,尽管出现了多种新架构和方法,但大多未能超越2018年nnU-Net基准。研究发现,许多新方法的优越性未经严格验证,揭示了验证方法的不严谨性。作者通过系统基准测试评估了CNN、Transformer和Mamba等方法,强调了配置和硬件资源的重要性,并更新了nnU-Net基线以适应不同条件。论文呼吁加强科学验证,以确保真实性能提升。通过nnU-Net的变体和新方法的比较,显示经典CNN方法在某些情况下仍优于理论上的先进方法。研究提供了新的标准化基线模型,以促进更严谨的性能评估。
184 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
【CV大模型SAM(Segment-Anything)】真是太强大了,分割一切的SAM大模型使用方法:可通过不同的提示得到想要的分割目标
|
7月前
|
机器学习/深度学习 算法 Python
YOLOV5应用实战项目:钢材表面缺陷检测(数据集:NEU-CLS)笔记
YOLOV5应用实战项目:钢材表面缺陷检测(数据集:NEU-CLS)笔记
|
8月前
|
机器学习/深度学习 编解码 自然语言处理
SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上
SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上
254 1
|
8月前
|
机器学习/深度学习 编解码 人工智能
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
368 0
|
机器学习/深度学习 人工智能 算法
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
937 0
目标检测模型设计准则 | YOLOv7参考的ELAN模型解读,YOLO系列模型思想的设计源头
|
8月前
|
机器学习/深度学习 自然语言处理
【论文精读】COLING 2022-KiPT:知识注入提示调优的事件检测模型
【论文精读】COLING 2022-KiPT:知识注入提示调优的事件检测模型
|
数据可视化 数据处理 计算机视觉
Grounded-SAM模型:自动化检测、分割、生成一切
借着Meta发布的Segment Anything视觉大模型,作者团队做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。