SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上

简介: SAM增强技术 | SAMAug提出Point Prompt增强,让SAM模型天天向上

本文介绍了一种用于SAM的新的 Visual Point 方法SAMAug,该方法提高了交互式图像分割的性能。SAMAug生成增强  point prompts 以向SAM提供更多信息。从初始  point prompts 开始,SAM生成初始 Mask ,然后将其输入到提出的SAMAug中以生成 point prompts 增强。通过结合这些额外的点,SAM可以基于增强的  point prompts 和初始 prompts 生成增强的分割 Mask ,从而提高分割性能。

作者评估了4种point增强技术:随机选择、最大差分熵、最大距离和显著性模型。在「COCO」「Fundus」「Chest X-ray」数据集上的实验表明,SAMAug可以提高SAM的分割结果,特别是使用最大距离和显著性模型方法。

SAMAug强调了视觉 prompts 工程在推进交互式计算机视觉模型方面的潜力。

1、简介

大语言模型中的进展激发了人们对计算机视觉基础模型开发的极大关注。其中,Segment Anything Model(SAM)是一种专门为图像分割任务和后续下游应用设计的新型交互式模型。

SAM代表着向更灵活、通用的细分模型的范式转变。SAM模型引入了一种新的图像分割方法,允许交互式的、基于点的用户输入来指导分割过程。尽管这种策略与更传统的图像分割方法相比有了显著的转变,但由于单点输入的固有限制,它在分割精度和质量方面也提出了挑战。输入点的精度和丰富性会显著影响所得到的分割的质量。

为了解决这一限制,作者提出了SAMAug,这是一种新的 Visual Point 增强方法,用于使用SAM生成额外的分割 Mask 。SAMAug通过提供使用几种提出的 point 增强技术之一选择的初始点和增强 point 来 prompts SAM生成新的 Mask 。通过合并这些附加点,SAM生成在初始 Mask 上扩展的增强分割 Mask 。作者评估了4种 point 增强方法:随机选择、最大差分熵、最大距离和显著性模型。

通过在COCO、Fundus和COVID数据集上的大量实验,作者证明了SAMAug可以提高SAM的性能,尤其是在使用最大距离和显著性模型点选择方法时。作者的结果展示了使用视觉 prompts 和预训练模型进行数据扩充的潜力。SAMAug代表了计算机视觉中基于 prompts 的增强方法的重要一步,该方法可以减少数据需求并提高模型性能。

这项研究做出了以下关键贡献:

  1. 作者开发了一个新的 Visual Point 增强框架SAMAug,用于生成额外的  point prompts ,而无需对SAM进行额外的手动操作。
  2. 作者提出了一种基于 prompts 选择不变性的视觉 prompts 增强理论。
  3. 作者在3个不同的数据集上进行了实验,测试了4种增强技术,并确定了最有效的增强技术(最大距离和显著性)。

通过这项研究,作者旨在为在大视觉模型时代不断改进和增强交互式图像分割模型做出贡献。

2、相关方法

2.1、SAM模型

图像分割的任务通常包括识别图像中的哪些像素属于特定目标,从而实现从照片编辑到科学图像分析的应用。最近,SAM的引入彻底改变了图像分割的方法。SAM代表着与传统分割模型的显著背离。它是一个通用的、可 prompts 的模型,旨在适应特定的任务,很像自然语言处理模型中使用的 prompts 系统。

分割模型被分为两大类:交互式分割需要用户输入来迭代地细化 Mask ,而自动分割需要大量手动标注的目标来进行训练。后一种方法能够对预先定义的特定目标类别进行分割,例如猫或椅子。

SAM统一了这两类方法。它是一个能够执行交互式和自动分割的单一模型。它的界面设计用于处理大量的分割任务,并通过适当的模型 prompts 来实现。SAM最显著的特征之一是它在一个前所未有的超过10亿个 Mask 的大型数据集上进行训练,该数据集是作为Segment Anything项目的一部分收集的。这种多样化、高质量的数据集使SAM能够推广到新类型的目标和图像,而不仅仅是在训练过程中观察到的。

Segment Anything项目还引入了Segment Anything 10亿 Mask 数据集(SA-1B),它代表了有史以来最大的分割数据集。数据集是迭代开发的,使用SAM交互式地标注图像,然后使用新标注的数据更新SAM,从而改进模型和数据集。SAM代表了图像分割的范式转变,从特定任务的模型转向更灵活、可推广的模型,减少了对专业知识和资源的需求。

2.2、SAM模型的研究工作

SAM是一个非常强大的图像分割基础模型,可以实现 zero-shot迁移,用户无需额外训练即可在各种图像上实现分割目标。因此,有许多研究试图将SAM应用于不同类型的图像。

根据医学图像,由于图像的前景和背景之间的模糊区分,图像分辨率不够高,目标物体的边界模糊,分割任务很困难。传统的分割模型通常需要大量特定的标记工作和训练才能获得良好的结果。有许多工作验证了SAM对医学图像数据集的影响。结论是,对于某些特定组织和器官的分割,SAM的效果很好,总体准确率也很好,但当分割目标较小、密集或弯曲时,SAM很容易失败。实验还表明,通过调整 prompts 可以提高SAM的分割质量。因此,探索快速调谐可能是解决医学图像分割中SAM问题的一种方法。

SAM也可能在其他不同领域失败。在农业领域,作物的分割有时会将作物与土地混淆,而动物的分割往往会导致不包括动物全身的分割结果。在遥感中,SAM可以分割具有规则形状的物体,但无法识别较小或无法识别的目标。因此,在当前阶段,SAM并不能真正分割所有目标,需要做大量的工作来优化和提高SAM的性能。

2.3、对大模型的Prompt增强

基于 prompts 的学习是机器学习领域的一种战略方法,旨在从预训练的大模型中提取有价值的见解。该技术围绕优化Token序列(离散 prompts )或向量序列(连续 prompts ),具体取决于应用。prompt-based学习的主要优势在于其效率:它使研究人员和从业者能够有效地利用大模型的潜力,而无需进行详尽的微调,从而节省大量的计算资源。

增强 prompts 是可能的,而且可能是有益的。这种策略与数据扩充不同,涉及 prompts 而非数据的生成和优化,从而进一步利用这些模型的功能。这种方法背后的基本原理是指导模型的关注点并提高其在特定任务中的性能,使其成为在各个领域增强大模型的一个有前途的方向。

AutomateCoT是一种NLP方法,它自动扩充和选择 prompts ,以增强大语言模型的推理能力。它解决了手动编写chain-of-thought范例的问题,这需要大量的人力工作。AutomateCoT为每个输入问题生成 pseudo-chains,然后根据预测答案的正确性修剪不正确的问题。它最后使用方差减少策略梯度策略来选择样本的最佳组合。

SAMAug与AutomateCoT有着相似的动机。然而,SAMAug专注于计算机视觉领域,为SAM生成视觉 prompts ,以生成增强分割 Mask 。相比之下,AutomateCoT为语言模型生成额外的文本 prompts ,以解决NLP任务,如算术和符号推理。尽管在模式和任务上存在差异,但SAMAug和AutomateCoT都展示了通过改进的 prompts 设计利用模型功能的价值。

2.4、Visual Prompt

Prompts 作为文本中附加内容的一种形式,在自然语言处理领域得到了广泛的应用。预训练模型利用 prompts 来提高各种任务的性能,从而实现与全参数微调相当的效果。

受 prompts 在NLP中取得的巨大成功的启发,研究人员探索了将视觉 prompts 应用于计算机视觉。视觉 prompts 有多种形式,包括关键点、边界框、分割 Mask 等。例如,VPT将一小部分可学习参数引入输入空间,并保持整个预训练的Transformer Backbone冻结。通过训练这些被视为视觉 prompts 的参数,VPT可以在不同的视觉任务中获得更好的性能。精心设计 prompts 并将其输入到各种预训练的模型中被认为是 prompts 工程,它不仅有效地提高了性能,而且有助于解决许多困难。Convpass将视觉Transformer(ViT)与卷积旁路 prompts 相结合,以减轻计算压力。ViPT实现了快速调整方法,以增加Baseline模型中的先验知识,从而从有限的大规模数据中学习更多的信息和结构。

SAM是一种典型的大型计算机视觉模型,可以从视觉 prompts 中受益,这可以增强模型理解图像中目标和组件的能力。通过使用可训练的 prompts ,SAM有助于在农业领域细分领域。最近的研究还在腹部器官分割任务中实现了具有丰富 Visual Point 或框 prompts 的SAM,这是医学领域的一个常见挑战。总之,视觉 prompts 增强了预训练的模型分析视觉数据的能力,并已成为许多视觉模型在各种任务中的强大机制。

2.5、Sampling Methods

采样方法一直是统计学和深度学习领域的一个基本问题,分为两大类:概率采样和非概率采样。由于每个样本被选择的机会相等,因此通常使用概率抽样,并且在统计上更有可能选择代表总数的样本。概率抽样又分为以下4种亚型:

  1. 简单随机样本
  2. 分层样本
  3. 聚类样本
  4. 系统样本

具体而言,简单随机抽样是最常用的抽样技术,它从整个群体中收集随机选择,每个单位都有相等的选择机会。其他采样技术,分层采样、系统采样和聚类采样,包括根据样本的属性将总体划分为子集或聚类,然后从这些子集进行采样。这些抽样策略显著提高了对总体人群的理解。

在计算机视觉领域内,图像的单个像素或小区域可以被视为样本单元。基于这些样本单元特性的采样策略被广泛应用于各种主题,包括图像对齐、图像分割和显著性预测。

具体而言,图像对齐的常见方法包括基于像素属性将多个图像初始划分为不同的子集,然后对齐从不同图像采样的关键点。类似地,可以直接对单个像素的属性进行采样以进行二值分类,二值分类可以用于确定给定像素属于前景类别还是背景类别。这种方法通常用于图像分割。

通过基于像素所包含的语义信息的重要性对像素进行采样,可以识别图像中的显著信息,从而形成显著性检测的基础。此外,在图像中表现出高水平显著性的像素与其语义信息密切相关,因此在各种应用中选择相似样本点时,显著性通常被认为是一个基本标准。

3、本文方法

3.1、SAM框架和  point prompts 增强的前提

SAM的基本框架如图2所示。首先,SAM使用ViT对传入图像和视觉 prompts 进行编码。然后将编码的图像和 prompts 传递到 Mask 解码器以预测分割 Mask 。解码器采用基于 prompts 的自注意力和交叉注意力,允许注意力从编码 prompts 流到图像,反之亦然,以更新编码图像和 prompts 特征。如果 prompts 是点或边界框,则它们将由SAM表示为位置编码,其中 prompts 的位置信息将被转换为256维向量和指示前景/背景的标志。位置编码对输入坐标执行正弦映射,因此映射的矢量可用于在基于Transformer的结构中训练基于坐标的MLP。如果 prompts 是文本,SAM将使用CLIP模型对 prompts 进行编码。如果 prompts 是密集的,例如 Mask ,则它们将直接与图像嵌入进行卷积,并按元素求和。

SAM prompts 过程的机制使其可能对  point prompts 的位置和数量敏感,如图1的右侧面板所示。

  • 首先,解码路径内的双向交叉注意力模块严重依赖于由位置编码表示的  point prompts 的坐标。由于图像嵌入也将相应地更新,来自不同位置的  point prompts ,即使具有相似的语义上下文,也可能导致最终分割 Mask 的差异。
  • 其次,由于SAM是为执行一般分割而不是任何特定任务而训练的,因此它无法准确处理(无论是抑制还是增强)分割边界,尤其是在 prompts 信息有限的情况下。
  • 第三,如SAM中所指出的,单个 prompts (如仅一个  point prompts )将导致分段模糊问题,其中 prompts 可以对应于多个有效 Mask ,并且SAM模型无法区分 prompts 实际指的是哪个 Mask 。虽然SAM模型采用了模糊性解决模块来生成多个分割 Mask ,并根据置信度得分对其进行排序,但使用多个 prompts 肯定可以解决这个问题。

因此,在这项工作中,作者提出了  point prompts 增强方案,其前提是:

  1. 人类用户在  point prompts 选择过程中存在不变性,其中选择的  point prompts 仅来自用户关于图像的先验知识的许多可能坐标中的一个。具体而言,类似于经典图像处理设置中预期的旋转或移位不变性,作者还期望SAM将基于 prompts 形式的目标表现产生相同的分割结果,而不管  point prompts 确切位于何处。
  2. 由于实验结果表明SAM无法实现这种不变性,作者将需要执行即时增强来引导模型更好地理解作者的分割目标。最直观的方法将通过SAM自动生成从初始分割 Mask 采样的额外点(即,使用单个人工提供的  point prompts 的分割结果)。

从 Mask 采样方法本质上将初始分割 Mask 视为与作者的目标相比可靠但潜在不完整的结果;并旨在通过利用 prompts 选择不变性和添加额外的  point prompts 来改进结果。这些自动生成的  point prompts 可以通过下面描述的特定策略进行采样。

3.2、通过随机抽样实现的  point prompts 增强

在随机选择方法中,作者的目标是在初始 Mask 中添加一点。为了实现这一点,作者从可用的候选点中随机选择一点。这些候选点是根据初始 Mask 确定的,它表示 Mask 的当前状态。

3.3、基于最大熵准则的  point prompts 增强

在最大熵点方法中,作者的目标是选择一个使熵与初始点的差最大化的点。为了计算熵,作者使用了一个以初始 Mask 中的每个候选点为中心的9x9网格。每个候选点的熵是根据该网格内像素强度的分布来计算的。选择与初始点相比,熵差最大的点作为 Mask 的加法。

3.4、通过最大距离标准增加  point prompts

在基于距离的方法中,作者搜索与初始点相距最佳距离的点。点之间的距离是使用合适的度量来测量的,例如欧几里得距离。使用这个距离度量,作者计算每个候选点与Mask内初始点之间的距离。将选择使该距离最小化的点,同时满足某些标准或约束,以包含在Mask中。

因此,在许多情况下,为了获得更好的分割结果,作者需要向SAM提供足够的  point prompts ,以便解码器能够学习到更完整的形态学特征。这个过程非常类似于图像增强在分割任务中增加训练目标的数量来提高分割性能。这就是为什么作者的模型被称为SAMAug。

3.5、  point prompts 增强的显著性地图

视觉显著性Transformer(VST)用于显著目标检测(SOD),这有助于从SAM Mask 中选择第二个点。该基于Transformer的模型接收图像并提取视觉上突出的目标的显著性图和边界图。

在本研究中,作者只关注RGB-SOD的VST。输入SAM Mask 在每个方向上扩展10个像素,或者如果某个方向到达图像的边缘,则保持不变。

该过程为VST生成新的输入图像。基于来自VST的输出显著性图,在检测到的目标的范围内随机选择第二点。然后,SAM在双  point prompts 的帮助下产生显著性增强结果。

3.6、数据集

1、COCO Dataset

COCO数据集以其规模和多样性而闻名。它包含20多万张图像和80多个目标类别,包括人、动物、车辆和家居用品等常见目标。该数据集旨在捕捉现实环境中的目标,适用于训练和评估需要理解复杂场景中目标的模型。

除了目标标签,COCO数据集还包括目标实例的像素级分割 Mask ,这使得它对实例分割等任务很有用。此外,数据集中的每张图像都配有多个人工生成的字幕,从而能够研究图像字幕和语言理解。

2、Fundus Dataset

Fundus数据集是指人类Fundus的图像集合,Fundus是眼睛与晶状体相对的内表面。这些图像通常是通过称为Fundus摄影的程序获得的,在Fundus摄影中,专业相机捕捉视网膜、血管和眼睛内其他结构的详细图像。

Fundus数据集经常用于医学研究和计算机视觉应用,用于视网膜疾病诊断、自动筛查和图像分析等任务。这些数据集可能包括来自各种来源的图像,例如健康个体或患有特定眼部疾病或糖尿病视网膜病变、黄斑变性或青光眼等疾病的患者。

大规模Fundus数据集的可用性促进了用于视网膜异常自动检测、分类和分割的机器学习和深度学习模型的开发和评估。这些模型旨在帮助医疗保健专业人员早期发现和管理眼病,有可能改善患者的预后,减轻医疗保健系统的负担。

3、Chest X-Ray Dataset

Chest X-Ray数据集是精心挑选的胸部X射线图像汇编,为新冠肺炎研究和分析精心收集。该数据集包括从疑似或确认患有新冠肺炎的个人获得的大量胸部X光图像。该数据集展示了一系列不同的图像,说明了与该疾病相关的不同表现和异常,包括肺部混浊、浸润和其他独特的发现。

在作者的实验中,作者使用了该数据集的一个子集,其中包括3616张新冠肺炎CXR图像。这些图像附有各自的真实肺部Mask,为进一步分析和评估提供了肺部区域的精确描绘。

3.7、实施细节

这项工作的目标是在分割任务中执行 Visual Point 增强。作者的方法的输入包括初始点和原始图像。作者采用SAM作为作者的基础模型来获得初始 Mask 。

从SAM获得初始 Mask 后,作者继续使用方法部分中描述的方法生成额外的点。具体来说,作者应用了4种不同的方法:随机选择、最大差分熵、最大距离方法和显著 point 增强。这些方法允许作者通过选择相关点以进一步包含在 Mask 中来增加初始点。

对于每种方法,作者都会根据给定的初始点和原始图像生成一个增广点。生成扩增点后,作者将初始点和扩增点作为  point prompts 提供给SAM。通过将这些点合并到分割过程中,SAM生成一个解释额外点的扩增 Mask 。该增强 Mask 提供了细化和扩展的分割输出,结合了来自初始点和增强点的相关信息。

Visual Point 增强实验是在PyTorch环境中的A100图形卡上进行的。COCO数据集需要大约4小时才能完成,而Fundus和胸部X光数据集各需要大约20分钟。这些不同的运行时反映了数据集的大小和复杂性,其中COCO数据集是最大且最耗时的,其次是Fundus和新冠肺炎数据集。

4、结果

4.1、建议策略与SAM策略的比较

表一详细比较了作者提出的方法和COCO、Fundus和新冠肺炎CXR数据集中不同类别的基本SAM模型。

在COCO数据集中,特别是在“人”类别中,基本SAM模型得出的Dice分数为0.4552。当采用作者的增强方法时,可以观察到全面的改进。随机方法将分数略微提高到0.4594,而最大熵则将分数提高到0.4677。最大距离法将分数显著提高到0.51,显著性法进一步扩大了改进范围,获得了0.5535的最高分数。在COCO数据集中的所有其他类别中都观察到了类似的改进趋势。例如,在“所有”类别中,作者的所有方法都超过了基本SAM模型的Dice得分0.6005,最大距离方法获得了0.6514的最高得分。

对于Fundus数据集,作者提出的方法也优于基础SAM模型的Dice得分0.7662,最大距离方法以0.8022的得分再次领先。

在新冠肺炎CXR数据集中,虽然基本SAM模型的Dice得分为0.5047,但作者的所有方法都在这一得分上有所改进。有趣的是,随机方法是最有效的,得分为0.5242,这是该数据集独有的趋势。

4.2、消融研究:额外  point prompts 的实验

表2显示了作者的消融研究结果,其中作者特别观察了在COCO、Fundus和新冠肺炎CXR数据集中使用两个点进行分割的情况。

在COCO数据集中,使用两点,作者所有的增强技术都在基础SAM的Dice得分0.6005的基础上改进。随机方法将其设为0.6137,最大熵设为0.6212,最大距离设为0.6514(最高),显著性模型设为0.6314。

Fundus数据集显示了类似的趋势。随机方法将基础SAMDice得分0.7662提高到0.7939,而最大距离方法获得最高得分0.8022。

在新冠肺炎CXR数据集中,基本SAM模型的Dice得分为0.5047,作者的所有方法都有所改进,Random方法的得分最高,为0.5242。

这些结果强调了在 prompts 过程中增加一点的好处。在所有情况下(COCO、Fundus、新冠肺炎),与基础SAM方法相比,增加一个额外的点可以提高性能,而不考虑使用的特定增强方法。

4.3、消融研究:使用多  point prompts 器的实验

作者进一步深入研究了使用更多的点,特别是3点和5点,作为分割的输入 prompts 的影响,如表2所示。

在COCO数据集中,使用3个点,作者所有的方法都在基础SAM的Dice得分0.5852的基础上进行了改进,最大距离方法获得了0.6473的最高得分。使用5个点,观察到类似的趋势,最大距离法获得了0.6501的高分。

Fundus数据集中也遵循同样的模式,作者的方法提高了基本SAM的3分和5分,最大距离方法提供了最高的分数。

然而,在新冠肺炎CXR数据集中,虽然使用3个点比基础SAM模型的分数(0.5014)有所改善,但使用5个点会导致作者方法的性能比基础SAM的分数0.502略有下降。

增加更多的分数通常会提高性能,但回报会递减。在COCO数据集中,性能从2点提高到3点,但随后从3点稳定到5点。相比之下,对于新冠肺炎数据集,从2点增加到3点和5点会导致性能下降,这表明需要在点数和性能增益之间进行权衡。

尽管存在这些细微差别,但最大距离法在这些数据集和点数中通常是Dice得分最高的方法之一,尽管它在新冠肺炎数据集上的表现不如Random策略。

5、讨论与未来工作

SAMAug的引入代表了在利用大模型进行交互式图像分割方面的重大进步。通过巧妙地生成和利用增强  point prompts ,作者的方法成功地在更大程度上利用了Segment Anything Model(SAM)的潜力,增强了其在各种数据集上的分割性能。

尽管它有效,但仍有相当大的改进和推广空间。未来研究的一个有趣方向是,在这里提出的4种技术之外,开发更复杂的 point 增强策略。这可能涉及探索其他指标的使用,或创建结合多种技术优势的混合方法。研究自适应 point 增强方法也可能是有益的,该方法可以基于每个图像或分割任务的特定特征来调整策略。

一个有希望的方向是将SAMAug与主动学习框架相结合。SAM的交互性质使其成为主动学习的合适候选者,其中模型可以迭代地选择信息量最大的点进行扩充。这种方法可能会加速训练过程,并进一步提高模型的性能。

总之,SAMAug展示了快速增强大型基础模型能力的潜力。它为未来的研究开辟了丰富的可能性,从设计先进的增强技术到探索跨领域应用以及与其他机器学习范式集成。对这些方向的探索有望推动交互式图像分割领域及其他领域的进一步发展。

6、参考

[1].SAMAug: Point Prompt Augmentation for Segment Anything Model.

相关文章
|
15天前
|
算法
基于R语言混合效应模型(mixed model)案例研究
基于R语言混合效应模型(mixed model)案例研究
|
3月前
|
人工智能 自然语言处理 算法
SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺
SAM-U升级SAM | 带你分析SAM的弱点并重新优化设计填补空缺
46 0
|
2天前
|
计算机视觉 网络架构
CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]
7 1
|
18天前
|
自动驾驶 机器人 测试技术
CVPR 2024:分割一切模型SAM泛化能力差?域适应策略给解决了
【4月更文挑战第24天】CVPR 2024 论文提出了解决图像分割基础模型 SAM 在分布偏移下泛化能力不足的问题,通过弱监督自训练策略增强模型适应性和计算效率。在多种图像分割任务上超越预训练 SAM 和现有适应方法,但弱标签质量和数量可能限制性能,且需大量计算资源。[Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation](https://arxiv.org/pdf/2312.03502.pdf)
20 1
|
19天前
|
算法
基于R语言混合效应模型(mixed model)案例研究-2
基于R语言混合效应模型(mixed model)案例研究
|
19天前
基于R语言混合效应模型(mixed model)案例研究-1
基于R语言混合效应模型(mixed model)案例研究
|
3月前
|
机器学习/深度学习 编解码 人工智能
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
SAM-Med | 英伟达基于SAM提出医学图像标注效率神器
141 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。
NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?
|
9月前
|
数据可视化 数据处理 计算机视觉
Grounded-SAM模型:自动化检测、分割、生成一切
借着Meta发布的Segment Anything视觉大模型,作者团队做了一个最强Zero-Shot视觉应用:最强的Zero-Shot检测器,最强的Zero-Shot分割器,最强的Zero-Shot生成器,三合一模型简称为Grounded-SAM。
|
10月前
|
自然语言处理 测试技术 开发者
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
刷新20项代码任务SOTA,Salesforce提出新型基础LLM系列编码器-解码器Code T5+
139 0