SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

简介: SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺

最近,SAM向通用人工智能迈出了重要的一步。同时,它的可靠性和公平性也引起了人们的极大关注,尤其是在医疗保健领域。在这项研究中,作者提出了SAM线索的 Multi-box 即时触发不确定性估计,以证明分割病变或组织的可靠性。作者使用具有先验分布参数的蒙特卡罗来估计SAM预测的分布,使用不同的prompt作为测试时间增加的公式。

作者的实验结果表明, Multi-box prompt增强增强了SAM性能,并为每个像素提供了不确定性。这为可靠的SAM提供了一个突破性的范例。

1、简介

大规模基础模型在人工智能研究人员中越来越受欢迎。在自然语言处理(NLP)领域,OpenAI开发的生成预训练转换器(GPT)和ChatGPT由于其卓越的泛化能力而快速增长。这些模型在自动驾驶和医疗保健等不同领域都有应用。大模型显著的泛化能力往往会在用户中灌输信任感;然而,它们的公平性和可靠性也受到了一定程度的审查。

如今,由于Meta AI发布了Segment Anything Model(SAM),人们对计算机视觉的热情与日俱增。SAM是在一个庞大的SA-1B数据集上训练的,该数据集由1100多万张图像和10亿个Mask组成,使其成为一个出色的工具。它擅长从各种类型的prompt中生成准确的分割结果,包括前景/背景点、thick boxes 或Mask以及自由格式文本。

SAM的引入让许多研究人员相信,通用人工智能终于到来了。然而,一些研究人员对SAM的性能表示担忧。具体而言,他们已经确定了医学图像中需要进一步改进的领域,如工业缺陷检测、伪装目标检测以及肿瘤和病变分割。此外,SAM的可靠性仍需进一步研究。

不确定性估计是为SAM提供可靠性的方法之一。此前,不确定性估计已在几个医学分割任务中证明了其可靠性和稳健性,包括皮肤病变和脑肿瘤等。目前的不确定性估计方法大致可分为基于确定性的方法、Bayesian Neural Network-based的方法、Ensemble-based的方法、Dropout-based的方法和Test-time augmentation-based的方法。本文的重点是在实现像素级不确定性估计的同时,保持SAM的简单性和原始结构。

在图1中,作者给出了不同条件下高质量和低质量眼底图像的视盘分割结果。SAM为高质量图像展示了更好的分割结果,并且包含不同的条件会带来一定的性能改进。然而,SAM对低质量图像的分割结果并不令人满意。尽管如此,包含不同条件大大提高了它的性能,尤其是使用更准确的方框prompt。

此外,作者观察到一种现象,即不同级别的框prompt往往会产生不同的结果。这一观察结果促使作者为医学图像引入一种新的方法,即 Multi-box prompt诱导的不确定性估计。因此,本文的主要关注点是通过使用多个框prompt来提高分割精度。这种方法使作者能够通过不确定性估计来建立像素级的可靠性。

具体来说,作者使用SAM来预测使用不同 Multi-box prompt的输出分布。带有 Multi-box prompt的SAM从预测分布中生成大量样本。随后,这些样本被用于计算方差,这为医学图像分割提供了不确定性估计。作者的实验表明, Multi-box prompt不仅提高了低质量医学图像的性能,而且为它们提供了不确定性估计。

2、本文方法

作者提出的方法的总体框架如图2所示。作者的主要重点是在零样本学习的背景下提高SAM的可靠性和准确性。为了提高SAM的准确性,作者引入了 Multi-box prompt,这使作者能够从分布中获得更精确的医学图像分割结果。具体而言,作者使用具有先验分布参数的蒙特卡罗模拟来估计SAM预测的分布。这种方法允许作者的方法通过考虑单个医学图像的多个预测来估计任意不确定性。

2.1、Mask选择策略

在未经prompt的设置下,SAM生成多个二进制Mask,并可以在一个输入中弹出几个潜在对象。为了在特定的分割任务中公平地评估感兴趣的区域,作者遵循[SAM Struggles in Concealed Scenes – Empirical Study on “Segment Anything”]的策略,根据其 GT Mask选择最合适的Mask。

形式上,给定输入图像的N个二进制预测和 GT G,作者计算每对的Dice分数,以生成一组评估分数。作者最后从这一组中选出Dice得分最高的面具。

2.2、Multi-box prompts SAM

prompt由于其固有的不精确性,可能会在模型的推断中引入错误。为了减少prompt变化的影响。作者随机化M个框prompt 。每个框prompt引导SAM生成不同的分割结果。

通过该策略,作者获得了不同先验线索下SAM的预测,将它们结合起来可以提高SAM的分割精度,减少不确定性。组合预测计算如下:

其中,表示对图像的组合预测。

2.3、使用multi-box prompts对SAM的不确定度进行估计

不同的框prompt会导致SAM分割的差异,即使它们指的是人类视野中的一个对象。受此启发,作者提出的 Multi-box prompt(MNP)算法模拟了多个临床专家的注释,以生成最终预测和不确定性估计。量化由 Multi-box prompt触发的不确定性。

假设M框prompt ,所有这些都指的是 GT 。在M框prompt和输入图像I的情况下,SAM生成一组预测。如图3所示,作者提出了一个 Multi-box prompt的不确定性估计程序。

作者首先通过熵描述来自单个给定图像I的任意不确定性:

估计图像i的预测的多样性。其中表示预测像素。表示中的唯一值。

然后,作者使用 Multi-box prompt进行蒙特卡罗模拟,以获得一组预测。因此,不确定性分布近似如下:

3、实验

3.1、定量分析

如表1所示,作者使用高质量的医学图像给出了SAM模式的不同分割结果。首先,作者比较了SAM在“everything”模式下和SAM在“box”模式下对正常医学图像的分割结果。

研究发现,在“box”模式下使用SAM的结果是优越的。此外,随着作者算法的引入,SAM的性能进一步提高。

表2和表3展示了在高斯噪声和退化医学图像下SAM模式的各种分割结果。作者比较了从上述SAM模式获得的结果。SAM在“everything”模式和“box”模式下的性能有所下降,而“multi-box”模式的性能保持在一定水平,ECE指数较低。因此,可以得出结论, Multi-box prompt的加入提高了SAM的准确性和可靠性。

3.2、定性比较

如图4所示,作者首先展示了multi-box模式SAM下的不确定性估计结果。从中可以看出,眼盘的周边被清楚地标记为不确定区域。

此外,作者比较了正常和退化医学图像下不同SAM模式的分割结果,如图5所示。在SAM with everything模式中,很难分割眼盘。在框prompt下,正常情况下可以对视盘进行分割,但在高斯噪声和退化图像下的分割结果并不令人满意。而作者的方法也在退化图像中获得了更好的分割结果,并为不确定的像素提供了权重。这为SAM开辟了一个新的范式,以实现稳健可靠的医学图像分割。

4、讨论与总结

在本文中,作者研究了SAM对眼底图像的分割性能。结果表明,框prompt显著提高了分割效果,但不同的框prompt会导致预测的变化。本文提出的主要方法,即快速增强,可以帮助估计任意不确定性的变化,并生成一个不确定性分布图,突出分割的挑战区域。

不确定性图不仅改进了分割过程和最终结果,而且能够开发出更先进的眼底图像分割方法。此外,不确定性图在需要手动注释的领域提供了宝贵的指导。使用不确定性分布图来指导分割并提高精度的特点值得注意。此外,不确定性图可以帮助识别潜在的分割错误并支持进一步的分析,为临床医生提供有用的信息。

5、参考

[1].SAM-U: Multi-box prompts triggered uncertainty estimation for reliable SAM in medical image.

相关文章
|
6月前
|
自然语言处理
使用ChatGPT润色学术论文的9个必备提示词指令,高效实用,值得收藏
本指南涵盖学术写作全流程,从语法校对到逻辑优化,再到格式规范,提供九大角色精细润色指导,助力提升论文质量与学术表达水平。
|
Web App开发 JSON 安全
Chrome浏览器的跨域问题
【10月更文挑战第6天】
2576 123
|
计算机视觉
Opencv错误笔记(一):通过cv2保存图片采用中文命名出现乱码
在使用OpenCV的cv2模块保存带有中文命名的图片时,直接使用cv2.imwrite()会导致乱码问题,可以通过改用cv2.imencode()方法来解决。
855 0
Opencv错误笔记(一):通过cv2保存图片采用中文命名出现乱码
|
12月前
|
人工智能 数据可视化
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
1119 18
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
机器学习/深度学习 监控 计算机视觉
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
本文介绍了如何使用YOLOv7进行目标检测,包括环境搭建、数据集准备、模型训练、验证、测试以及常见错误的解决方法。YOLOv7以其高效性能和准确率在目标检测领域受到关注,适用于自动驾驶、安防监控等场景。文中提供了源码和论文链接,以及详细的步骤说明,适合深度学习实践者参考。
3733 1
目标检测实战(八): 使用YOLOv7完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
编解码 数据可视化 定位技术
60行代码就可以训练/微调 Segment Anything 2 (SAM 2)
本文演示了如何在仅60行代码内(不包括标注和导入)对SAM2进行微调。
1393 1
60行代码就可以训练/微调 Segment Anything 2 (SAM 2)
|
机器学习/深度学习 数据采集 搜索推荐
深度学习之医学影像分类
基于深度学习的医学影像分类是利用深度学习模型对医学影像(如X光片、CT、MRI等)进行自动分类,以辅助医生进行疾病诊断和治疗决策。
739 0
|
编译器 Linux TensorFlow
【Deepin 20系统】Tensorflow2.x离线下载cifar-10-python.tar.gz如何配置使用cifar10.load_data()
文章讨论了在Deepin 20系统上使用Tensorflow 2.x时,如何通过离线方式配置使用CIFAR-10数据集。
380 0
Vue3根据搜索框内容跳转至本页面指定位置
Vue3根据搜索框内容跳转至本页面指定位置
802 1
Vue3根据搜索框内容跳转至本页面指定位置

热门文章

最新文章