Transformers 4.37 中文文档（九十三）（2）-阿里云开发者社区

Transformers 4.37 中文文档（九十三）（1）https://developer.aliyun.com/article/1564059

Pix2StructForConditionalGeneration

`class transformers.Pix2StructForConditionalGeneration`

( config: Pix2StructConfig )

参数

config（Union[Pix2StructConfig，Pix2StructTextConfig]）-模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

具有语言建模头的条件生成模型。可用于序列生成任务。

Pix2Struct 模型是由 Kenton Lee，Mandar Joshi，Iulia Turc，Hexiang Hu，Fangyu Liu，Julian Eisenschlos，Urvashi Khandelwal，Peter Shaw，Ming-Wei Chang，Kristina Toutanova 在Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding中提出的。它是在图像到文本设置中预训练的编码器解码器变换器。

该模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

该模型还是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。

`forward`

< source >

( flattened_patches: Optional = None attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None head_mask: Optional = None decoder_head_mask: Optional = None cross_attn_head_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None labels: Optional = None decoder_inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)

参数

flattened_patches（形状为(batch_size, seq_length, hidden_size)的torch.FloatTensor）— 扁平化的像素块。hidden_size通过以下公式获得：hidden_size = num_channels * patch_size * patch_size
扁平化像素块的过程由Pix2StructProcessor完成。
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 用于避免在填充标记索引上执行注意力的掩码。掩码值选定在[0, 1]中：

1 表示“未被掩盖”的标记，
0 表示被“掩盖”的标记。

什么是注意力掩码？
decoder_input_ids（形状为(batch_size, target_sequence_length)的torch.LongTensor，可选）— 词汇表中解码器输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
解码器输入 ID 是什么？
Pix2StructText 使用pad_token_id作为decoder_input_ids生成的起始标记。如果使用了past_key_values，则可以选择仅输入最后的decoder_input_ids（请参阅past_key_values）。
要了解有关如何为预训练准备decoder_input_ids的更多信息，请查看 Pix2StructText Training。
decoder_attention_mask（形状为(batch_size, target_sequence_length)的torch.BoolTensor，可选）— 默认行为：生成一个张量，忽略decoder_input_ids中的填充标记。因果掩码也将默认使用。
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于将编码器中自注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中：

1 表示头部未被“掩盖”，
0 表示头部被“掩盖”。

decoder_head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于将解码器中自注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中：

1 表示头部未被“掩盖”，
0 表示头部被“掩盖”。

cross_attn_head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.Tensor，可选）— 用于将解码器中交叉注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中：

1 表示头部未被“掩盖”，
0 表示头部被“掩盖”。

encoder_outputs（tuple(tuple(torch.FloatTensor)，可选）— 元组包括（last_hidden_state，可选：hidden_states，可选：attentions）last_hidden_state的形状为(batch_size, sequence_length, hidden_size)，是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
past_key_values（长度为config.n_layers的元组（元组（torch.FloatTensor）））- 包含注意力层的预计算键和值隐藏状态。可用于加速解码。
如果使用了past_key_values，用户可以选择仅输入最后的decoder_input_ids（那些没有将其过去的键值状态提供给此模型的）的形状为(batch_size, 1)，而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
decoder_inputs_embeds（torch.FloatTensor，形状为(batch_size, target_sequence_length, hidden_size)，可选）- 可选地，您可以选择直接传递嵌入表示，而不是传递decoder_input_ids。如果使用了past_key_values，则可以选择仅输入最后的decoder_inputs_embeds（参见past_key_values）。如果您想要更多控制如何将decoder_input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
如果decoder_input_ids和decoder_inputs_embeds都未设置，则decoder_inputs_embeds取inputs_embeds的值。
labels（torch.LongTensor，形状为(batch_size, sequence_length)，可选）- 用于计算解码器的掩码语言建模损失的标签。
use_cache（bool，可选）- 如果设置为True，则返回past_key_values键值状态，可用于加速解码（请参见past_key_values）。
output_attentions（bool，可选）- 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的attentions。
output_hidden_states（bool，可选）- 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的张量下的hidden_states。
return_dict（bool，可选）- 是否返回一个 ModelOutput 而不是一个普通元组。

transformers.modeling_outputs.Seq2SeqModelOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False时）包含根据配置（Pix2StructConfig）和输入的各种元素。

last_hidden_state（torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)）- 模型解码器最后一层的隐藏状态序列。
如果使用了past_key_values，则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码（请参见past_key_values输入）。
decoder_hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出+每层的输出）的形状为(batch_size, sequence_length, hidden_size)。
解码器每一层输出的隐藏状态以及可选的初始嵌入输出。
decoder_attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）- 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（一个用于嵌入层的输出，如果模型有嵌入层，+ 一个用于每一层的输出）。
编码器每一层输出的隐藏状态以及可选的初始嵌入输出。
encoder_attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

Pix2StructForConditionalGeneration 的前向方法，覆盖了__call__特殊方法。

虽然前向传播的步骤需要在这个函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会负责运行前处理和后处理步骤，而后者会默默地忽略它们。

示例：

推理：

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration
>>> processor = AutoProcessor.from_pretrained("google/pix2struct-textcaps-base")
>>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base")
>>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> # autoregressive generation
>>> generated_ids = model.generate(**inputs, max_new_tokens=50)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_text)
A stop sign is on a street corner.
>>> # conditional generation
>>> text = "A picture of"
>>> inputs = processor(text=text, images=image, return_tensors="pt", add_special_tokens=False)
>>> generated_ids = model.generate(**inputs, max_new_tokens=50)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_text)
A picture of a stop sign with a red stop sign

训练：

>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration
>>> processor = AutoProcessor.from_pretrained("google/pix2struct-base")
>>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-base")
>>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "A stop sign is on the street corner."
>>> inputs = processor(images=image, return_tensors="pt")
>>> labels = processor(text=text, return_tensors="pt").input_ids
>>> # forward pass
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> print(f"{loss.item():.5f}")
5.94282

SAM

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/sam

概述

SAM（Segment Anything Model）是由 Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alex Berg、Wan-Yen Lo、Piotr Dollar、Ross Girshick 在Segment Anything中提出的。

该模型可用于预测给定输入图像的任何感兴趣对象的分割掩模。

论文摘要如下：

我们介绍了 Segment Anything (SA)项目：一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们高效的模型，我们构建了迄今为止最大的分割数据集（远远超过），包括超过 11M 张经过许可和尊重隐私的图像上的 10 亿个掩模。该模型被设计和训练为可提示，因此它可以零样本地转移到新的图像分布和任务。我们评估了它在许多任务上的能力，并发现它的零样本性能令人印象深刻——通常与之前的完全监督结果相竞争甚至更优。我们正在发布 Segment Anything Model (SAM)和相应的数据集（SA-1B），其中包含 10 亿个掩模和 1100 万张图像，网址为segment-anything.com，以促进计算机视觉基础模型的研究。

提示：

该模型预测二进制掩模，指示给定图像中感兴趣对象的存在与否。
如果提供 2D 点和/或输入边界框，则模型会预测更好的结果。
您可以为同一图像提示多个点，并预测单个掩模。
目前不支持对模型进行微调
根据论文，文本输入也应该得到支持。然而，在撰写本文时，根据官方存储库似乎不支持。

这个模型是由ybelkada和ArthurZ贡献的。原始代码可以在这里找到。

以下是如何在给定图像和 2D 点的情况下运行掩模生成的示例：

import torch
from PIL import Image
import requests
from transformers import SamModel, SamProcessor
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device)
processor = SamProcessor.from_pretrained("facebook/sam-vit-huge")
img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]]  # 2D location of a window in the image
inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(
    outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu()
)
scores = outputs.iou_scores

您还可以在处理器中处理自己的掩模以及输入图像，以传递给模型。

import torch
from PIL import Image
import requests
from transformers import SamModel, SamProcessor
device = "cuda" if torch.cuda.is_available() else "cpu"
model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device)
processor = SamProcessor.from_pretrained("facebook/sam-vit-huge")
img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")
mask_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
segmentation_map = Image.open(requests.get(mask_url, stream=True).raw).convert("RGB")
input_points = [[[450, 600]]]  # 2D location of a window in the image
inputs = processor(raw_image, input_points=input_points, segmentation_maps=mask, return_tensors="pt").to(device)
with torch.no_grad():
    outputs = model(**inputs)
masks = processor.image_processor.post_process_masks(
    outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu()
)
scores = outputs.iou_scores

资源：

演示笔记本用于使用模型。
演示笔记本用于使用自动生成掩模管道。
演示笔记本用于在医学领域上对 SAM 进行微调的 MedSAM 进行推断。
演示笔记本用于在自定义数据上微调模型。

SamConfig

`class transformers.SamConfig`

<来源>

( vision_config = None prompt_encoder_config = None mask_decoder_config = None initializer_range = 0.02 **kwargs )

参数

vision_config（Union[dict, SamVisionConfig]，可选）—用于初始化 SamVisionConfig 的配置选项字典。
prompt_encoder_config（Union[dict, SamPromptEncoderConfig]，可选）—用于初始化 SamPromptEncoderConfig 的配置选项字典。
mask_decoder_config (Union[dict, SamMaskDecoderConfig], optional) — 用于初始化 SamMaskDecoderConfig 的配置选项字典。
kwargs (optional) — 关键字参数的字典。

SamConfig 是用于存储 SamModel 配置的类。它用于根据指定的参数实例化 SAM 模型，定义视觉模型、提示编码器模型和掩码解码器配置。使用默认值实例化配置将产生类似于 SAM-ViT-H facebook/sam-vit-huge 架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

示例:

>>> from transformers import (
...     SamVisionConfig,
...     SamPromptEncoderConfig,
...     SamMaskDecoderConfig,
...     SamModel,
... )
>>> # Initializing a SamConfig with `"facebook/sam-vit-huge"` style configuration
>>> configuration = SamConfig()
>>> # Initializing a SamModel (with random weights) from the `"facebook/sam-vit-huge"` style configuration
>>> model = SamModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
>>> # We can also initialize a SamConfig from a SamVisionConfig, SamPromptEncoderConfig, and SamMaskDecoderConfig
>>> # Initializing SAM vision, SAM Q-Former and language model configurations
>>> vision_config = SamVisionConfig()
>>> prompt_encoder_config = SamPromptEncoderConfig()
>>> mask_decoder_config = SamMaskDecoderConfig()
>>> config = SamConfig(vision_config, prompt_encoder_config, mask_decoder_config)

SamVisionConfig

`class transformers.SamVisionConfig`

< source >

( hidden_size = 768 output_channels = 256 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 1024 patch_size = 16 hidden_act = 'gelu' layer_norm_eps = 1e-06 attention_dropout = 0.0 initializer_range = 1e-10 qkv_bias = True mlp_ratio = 4.0 use_abs_pos = True use_rel_pos = True window_size = 14 global_attn_indexes = [2, 5, 8, 11] num_pos_feats = 128 mlp_dim = None **kwargs )

参数

hidden_size (int, optional, 默认为 768) — 编码器层和池化层的维度。
output_channels (int, optional, 默认为 256) — Patch Encoder 中输出通道的维度。
num_hidden_layers (int, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。
num_channels (int, optional, 默认为 3) — 输入图像中的通道数。
image_size (int, optional, 默认为 1024) — 期望的分辨率。调整大小的输入图像的目标尺寸。
patch_size (int, optional, 默认为 16) — 从输入图像中提取的补丁的大小。
hidden_act (str, optional, 默认为"gelu") — 非线性激活函数（函数或字符串）。
layer_norm_eps (float, optional, 默认为 1e-06) — 层归一化层使用的 epsilon。
attention_dropout (float, optional, 默认为 0.0) — 注意力概率的丢弃比率。
initializer_range (float, optional, 默认为 1e-10) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
qkv_bias (bool, optional, 默认为True) — 是否为查询、键、值投影添加偏置。
mlp_ratio (float, optional, 默认为 4.0) — mlp 隐藏维度与嵌入维度的比率。
use_abs_pos (bool, optional, 默认为True) — 是否使用绝对位置嵌入。
use_rel_pos (bool, optional, 默认为True) — 是否使用相对位置嵌入。
window_size (int, optional, 默认为 14) — 相对位置的窗口大小。
global_attn_indexes (List[int], optional, 默认为[2, 5, 8, 11]) — 全局注意力层的索引。
num_pos_feats (int, optional, 默认为 128) — 位置嵌入的维度。
mlp_dim (int, optional) — Transformer 编码器中 MLP 层的维度。如果为 None，则默认为 mlp_ratio * hidden_size。

这是用于存储 SamVisionModel 配置的类。它用于根据指定的参数实例化 SAM 视觉编码器，定义模型架构。使用默认值实例化配置将产生类似于 SAM ViT-h facebook/sam-vit-huge 架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

SamMaskDecoderConfig

`class transformers.SamMaskDecoderConfig`

<来源>

( hidden_size = 256 hidden_act = 'relu' mlp_dim = 2048 num_hidden_layers = 2 num_attention_heads = 8 attention_downsample_rate = 2 num_multimask_outputs = 3 iou_head_depth = 3 iou_head_hidden_dim = 256 layer_norm_eps = 1e-06 **kwargs )

参数

hidden_size (int, 可选, 默认为 256) — 隐藏状态的维度。
hidden_act (str, 可选, 默认为"relu") — 在SamMaskDecoder模块内部使用的非线性激活函数。
mlp_dim (int, 可选, 默认为 2048) — Transformer 编码器中“中间”（即前馈）层的维度。
num_hidden_layers (int, 可选, 默认为 2) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数。
attention_downsample_rate (int, 可选, 默认为 2) — 注意力层的下采样率。
num_multimask_outputs (int, 可选, 默认为 3) — SamMaskDecoder模块的输出数量。在“Segment Anything”论文中，此值设置为 3。
iou_head_depth (int, 可选, 默认为 3) — IoU 头模块中的层数。
iou_head_hidden_dim (int, 可选, 默认为 256) — IoU 头模块中隐藏状态的维度。
layer_norm_eps (float, 可选, 默认为 1e-06) — 层归一化层使用的 epsilon。

这是用于存储SamMaskDecoder配置的配置类。它用于实例化一个 SAM 掩码解码器到指定的参数，定义模型架构。实例化配置默认将产生类似于 SAM-vit-h facebook/sam-vit-huge架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

SamPromptEncoderConfig

`class transformers.SamPromptEncoderConfig`

<来源>

( hidden_size = 256 image_size = 1024 patch_size = 16 mask_input_channels = 16 num_point_embeddings = 4 hidden_act = 'gelu' layer_norm_eps = 1e-06 **kwargs )

参数

hidden_size (int, 可选, 默认为 256) — 隐藏状态的维度。
image_size (int, 可选, 默认为 1024) — 图像的预期输出分辨率。
patch_size (int, 可选, 默认为 16) — 每个补丁的大小（分辨率）。
mask_input_channels (int, 可选, 默认为 16) — 要馈送到MaskDecoder模块的通道数。
num_point_embeddings (int, 可选, 默认为 4) — 要使用的点嵌入数量。
hidden_act (str, 可选, 默认为"gelu") — 编码器和池化器中的非线性激活函数。

这是用于存储SamPromptEncoder配置的配置类。SamPromptEncoder模块用于编码输入的 2D 点和边界框。实例化配置默认将产生类似于 SAM-vit-h facebook/sam-vit-huge架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

SamProcessor

`class transformers.SamProcessor`

< source >

( image_processor )

参数

image_processor (SamImageProcessor) — SamImageProcessor 的一个实例。图像处理器是一个必需的输入。

构造一个 SAM 处理器，将 SAM 图像处理器和 2D 点和边界框处理器包装成一个单一处理器。

SamProcessor 提供了 SamImageProcessor 的所有功能。有关更多信息，请参阅call()的文档字符串。

Transformers 4.37 中文文档（九十三）（3）https://developer.aliyun.com/article/1564061

Transformers 4.37 中文文档（九十三）（2）

Pix2StructForConditionalGeneration

`class transformers.Pix2StructForConditionalGeneration`

`forward`

SAM

概述

SamConfig

`class transformers.SamConfig`

SamVisionConfig

`class transformers.SamVisionConfig`

SamMaskDecoderConfig

`class transformers.SamMaskDecoderConfig`

SamPromptEncoderConfig

`class transformers.SamPromptEncoderConfig`

SamProcessor

`class transformers.SamProcessor`

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Transformers 4.37 中文文档（九十三）（2）

Pix2StructForConditionalGeneration

class transformers.Pix2StructForConditionalGeneration

forward

SAM

概述

SamConfig

class transformers.SamConfig

SamVisionConfig

class transformers.SamVisionConfig

SamMaskDecoderConfig

class transformers.SamMaskDecoderConfig

SamPromptEncoderConfig

class transformers.SamPromptEncoderConfig

SamProcessor

class transformers.SamProcessor

热门文章

最新文章

相关电子书

`class transformers.Pix2StructForConditionalGeneration`

`forward`

`class transformers.SamConfig`

`class transformers.SamVisionConfig`

`class transformers.SamMaskDecoderConfig`

`class transformers.SamPromptEncoderConfig`

`class transformers.SamProcessor`