Transformers 4.37 中文文档(九十三)(1)https://developer.aliyun.com/article/1564059
Pix2StructForConditionalGeneration
class transformers.Pix2StructForConditionalGeneration
( config: Pix2StructConfig )
参数
config(Union[Pix2StructConfig,Pix2StructTextConfig])-模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
具有语言建模头的条件生成模型。可用于序列生成任务。
Pix2Struct 模型是由 Kenton Lee,Mandar Joshi,Iulia Turc,Hexiang Hu,Fangyu Liu,Julian Eisenschlos,Urvashi Khandelwal,Peter Shaw,Ming-Wei Chang,Kristina Toutanova 在Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding中提出的。它是在图像到文本设置中预训练的编码器解码器变换器。
该模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
该模型还是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。
forward
( flattened_patches: Optional = None attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None head_mask: Optional = None decoder_head_mask: Optional = None cross_attn_head_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None labels: Optional = None decoder_inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)
参数
flattened_patches(形状为(batch_size, seq_length, hidden_size)的torch.FloatTensor)— 扁平化的像素块。hidden_size通过以下公式获得:hidden_size=num_channels*patch_size*patch_size
扁平化像素块的过程由Pix2StructProcessor完成。attention_mask(形状为(batch_size, sequence_length)的torch.FloatTensor,可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选定在[0, 1]中:
- 1 表示“未被掩盖”的标记,
- 0 表示被“掩盖”的标记。
- 什么是注意力掩码?
decoder_input_ids(形状为(batch_size, target_sequence_length)的torch.LongTensor,可选)— 词汇表中解码器输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
解码器输入 ID 是什么?
Pix2StructText 使用pad_token_id作为decoder_input_ids生成的起始标记。如果使用了past_key_values,则可以选择仅输入最后的decoder_input_ids(请参阅past_key_values)。
要了解有关如何为预训练准备decoder_input_ids的更多信息,请查看 Pix2StructText Training。decoder_attention_mask(形状为(batch_size, target_sequence_length)的torch.BoolTensor,可选)— 默认行为:生成一个张量,忽略decoder_input_ids中的填充标记。因果掩码也将默认使用。head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)— 用于将编码器中自注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中:
- 1 表示头部未被“掩盖”,
- 0 表示头部被“掩盖”。
decoder_head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)— 用于将解码器中自注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中:
- 1 表示头部未被“掩盖”,
- 0 表示头部被“掩盖”。
cross_attn_head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.Tensor,可选)— 用于将解码器中交叉注意力模块的选定头部置零的掩码。掩码值选定在[0, 1]中:
- 1 表示头部未被“掩盖”,
- 0 表示头部被“掩盖”。
encoder_outputs(tuple(tuple(torch.FloatTensor),可选)— 元组包括(last_hidden_state,可选:hidden_states,可选:attentions)last_hidden_state的形状为(batch_size, sequence_length, hidden_size),是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。past_key_values(长度为config.n_layers的元组(元组(torch.FloatTensor)))- 包含注意力层的预计算键和值隐藏状态。可用于加速解码。
如果使用了past_key_values,用户可以选择仅输入最后的decoder_input_ids(那些没有将其过去的键值状态提供给此模型的)的形状为(batch_size, 1),而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。decoder_inputs_embeds(torch.FloatTensor,形状为(batch_size, target_sequence_length, hidden_size),可选)- 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids。如果使用了past_key_values,则可以选择仅输入最后的decoder_inputs_embeds(参见past_key_values)。如果您想要更多控制如何将decoder_input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
如果decoder_input_ids和decoder_inputs_embeds都未设置,则decoder_inputs_embeds取inputs_embeds的值。labels(torch.LongTensor,形状为(batch_size, sequence_length),可选)- 用于计算解码器的掩码语言建模损失的标签。use_cache(bool,可选)- 如果设置为True,则返回past_key_values键值状态,可用于加速解码(请参见past_key_values)。output_attentions(bool,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回的张量下的attentions。output_hidden_states(bool,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回的张量下的hidden_states。return_dict(bool,可选)- 是否返回一个 ModelOutput 而不是一个普通元组。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或config.return_dict=False时)包含根据配置(Pix2StructConfig)和输入的各种元素。
last_hidden_state(torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size))- 模型解码器最后一层的隐藏状态序列。
如果使用了past_key_values,则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。past_key_values(tuple(tuple(torch.FloatTensor)),可选,当传递use_cache=True或config.use_cache=True时返回)- 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码(请参见past_key_values输入)。decoder_hidden_states(tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回)-torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每层的输出)的形状为(batch_size, sequence_length, hidden_size)。
解码器每一层输出的隐藏状态以及可选的初始嵌入输出。decoder_attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。cross_attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
解码器的交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。encoder_last_hidden_state(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)- 模型编码器最后一层的隐藏状态序列。encoder_hidden_states(tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 一个用于每一层的输出)。
编码器每一层输出的隐藏状态以及可选的初始嵌入输出。encoder_attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
Pix2StructForConditionalGeneration 的前向方法,覆盖了__call__特殊方法。
虽然前向传播的步骤需要在这个函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行前处理和后处理步骤,而后者会默默地忽略它们。
示例:
推理:
>>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration >>> processor = AutoProcessor.from_pretrained("google/pix2struct-textcaps-base") >>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base") >>> url = "https://www.ilankelman.org/stopsigns/australia.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> # autoregressive generation >>> generated_ids = model.generate(**inputs, max_new_tokens=50) >>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] >>> print(generated_text) A stop sign is on a street corner. >>> # conditional generation >>> text = "A picture of" >>> inputs = processor(text=text, images=image, return_tensors="pt", add_special_tokens=False) >>> generated_ids = model.generate(**inputs, max_new_tokens=50) >>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] >>> print(generated_text) A picture of a stop sign with a red stop sign
训练:
>>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration >>> processor = AutoProcessor.from_pretrained("google/pix2struct-base") >>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-base") >>> url = "https://www.ilankelman.org/stopsigns/australia.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> text = "A stop sign is on the street corner." >>> inputs = processor(images=image, return_tensors="pt") >>> labels = processor(text=text, return_tensors="pt").input_ids >>> # forward pass >>> outputs = model(**inputs, labels=labels) >>> loss = outputs.loss >>> print(f"{loss.item():.5f}") 5.94282
SAM
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/sam
概述
SAM(Segment Anything Model)是由 Alexander Kirillov、Eric Mintun、Nikhila Ravi、Hanzi Mao、Chloe Rolland、Laura Gustafson、Tete Xiao、Spencer Whitehead、Alex Berg、Wan-Yen Lo、Piotr Dollar、Ross Girshick 在Segment Anything中提出的。
该模型可用于预测给定输入图像的任何感兴趣对象的分割掩模。
论文摘要如下:
我们介绍了 Segment Anything (SA)项目:一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们高效的模型,我们构建了迄今为止最大的分割数据集(远远超过),包括超过 11M 张经过许可和尊重隐私的图像上的 10 亿个掩模。该模型被设计和训练为可提示,因此它可以零样本地转移到新的图像分布和任务。我们评估了它在许多任务上的能力,并发现它的零样本性能令人印象深刻——通常与之前的完全监督结果相竞争甚至更优。我们正在发布 Segment Anything Model (SAM)和相应的数据集(SA-1B),其中包含 10 亿个掩模和 1100 万张图像,网址为segment-anything.com,以促进计算机视觉基础模型的研究。
提示:
- 该模型预测二进制掩模,指示给定图像中感兴趣对象的存在与否。
- 如果提供 2D 点和/或输入边界框,则模型会预测更好的结果。
- 您可以为同一图像提示多个点,并预测单个掩模。
- 目前不支持对模型进行微调
- 根据论文,文本输入也应该得到支持。然而,在撰写本文时,根据官方存储库似乎不支持。
这个模型是由ybelkada和ArthurZ贡献的。原始代码可以在这里找到。
以下是如何在给定图像和 2D 点的情况下运行掩模生成的示例:
import torch from PIL import Image import requests from transformers import SamModel, SamProcessor device = "cuda" if torch.cuda.is_available() else "cpu" model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device) processor = SamProcessor.from_pretrained("facebook/sam-vit-huge") img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png" raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB") input_points = [[[450, 600]]] # 2D location of a window in the image inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to(device) with torch.no_grad(): outputs = model(**inputs) masks = processor.image_processor.post_process_masks( outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu() ) scores = outputs.iou_scores
您还可以在处理器中处理自己的掩模以及输入图像,以传递给模型。
import torch from PIL import Image import requests from transformers import SamModel, SamProcessor device = "cuda" if torch.cuda.is_available() else "cpu" model = SamModel.from_pretrained("facebook/sam-vit-huge").to(device) processor = SamProcessor.from_pretrained("facebook/sam-vit-huge") img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png" raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB") mask_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png" segmentation_map = Image.open(requests.get(mask_url, stream=True).raw).convert("RGB") input_points = [[[450, 600]]] # 2D location of a window in the image inputs = processor(raw_image, input_points=input_points, segmentation_maps=mask, return_tensors="pt").to(device) with torch.no_grad(): outputs = model(**inputs) masks = processor.image_processor.post_process_masks( outputs.pred_masks.cpu(), inputs["original_sizes"].cpu(), inputs["reshaped_input_sizes"].cpu() ) scores = outputs.iou_scores
资源:
SamConfig
class transformers.SamConfig
( vision_config = None prompt_encoder_config = None mask_decoder_config = None initializer_range = 0.02 **kwargs )
参数
vision_config(Union[dict,SamVisionConfig],可选)—用于初始化 SamVisionConfig 的配置选项字典。prompt_encoder_config(Union[dict,SamPromptEncoderConfig],可选)—用于初始化 SamPromptEncoderConfig 的配置选项字典。mask_decoder_config(Union[dict,SamMaskDecoderConfig], optional) — 用于初始化 SamMaskDecoderConfig 的配置选项字典。kwargs(optional) — 关键字参数的字典。
SamConfig 是用于存储 SamModel 配置的类。它用于根据指定的参数实例化 SAM 模型,定义视觉模型、提示编码器模型和掩码解码器配置。使用默认值实例化配置将产生类似于 SAM-ViT-H facebook/sam-vit-huge 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import ( ... SamVisionConfig, ... SamPromptEncoderConfig, ... SamMaskDecoderConfig, ... SamModel, ... ) >>> # Initializing a SamConfig with `"facebook/sam-vit-huge"` style configuration >>> configuration = SamConfig() >>> # Initializing a SamModel (with random weights) from the `"facebook/sam-vit-huge"` style configuration >>> model = SamModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config >>> # We can also initialize a SamConfig from a SamVisionConfig, SamPromptEncoderConfig, and SamMaskDecoderConfig >>> # Initializing SAM vision, SAM Q-Former and language model configurations >>> vision_config = SamVisionConfig() >>> prompt_encoder_config = SamPromptEncoderConfig() >>> mask_decoder_config = SamMaskDecoderConfig() >>> config = SamConfig(vision_config, prompt_encoder_config, mask_decoder_config)
SamVisionConfig
class transformers.SamVisionConfig
( hidden_size = 768 output_channels = 256 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 1024 patch_size = 16 hidden_act = 'gelu' layer_norm_eps = 1e-06 attention_dropout = 0.0 initializer_range = 1e-10 qkv_bias = True mlp_ratio = 4.0 use_abs_pos = True use_rel_pos = True window_size = 14 global_attn_indexes = [2, 5, 8, 11] num_pos_feats = 128 mlp_dim = None **kwargs )
参数
hidden_size(int, optional, 默认为 768) — 编码器层和池化层的维度。output_channels(int, optional, 默认为 256) — Patch Encoder 中输出通道的维度。num_hidden_layers(int, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads(int, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。num_channels(int, optional, 默认为 3) — 输入图像中的通道数。image_size(int, optional, 默认为 1024) — 期望的分辨率。调整大小的输入图像的目标尺寸。patch_size(int, optional, 默认为 16) — 从输入图像中提取的补丁的大小。hidden_act(str, optional, 默认为"gelu") — 非线性激活函数(函数或字符串)。layer_norm_eps(float, optional, 默认为 1e-06) — 层归一化层使用的 epsilon。attention_dropout(float, optional, 默认为 0.0) — 注意力概率的丢弃比率。initializer_range(float, optional, 默认为 1e-10) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。qkv_bias(bool, optional, 默认为True) — 是否为查询、键、值投影添加偏置。mlp_ratio(float, optional, 默认为 4.0) — mlp 隐藏维度与嵌入维度的比率。use_abs_pos(bool, optional, 默认为True) — 是否使用绝对位置嵌入。use_rel_pos(bool, optional, 默认为True) — 是否使用相对位置嵌入。window_size(int, optional, 默认为 14) — 相对位置的窗口大小。global_attn_indexes(List[int], optional, 默认为[2, 5, 8, 11]) — 全局注意力层的索引。num_pos_feats(int, optional, 默认为 128) — 位置嵌入的维度。mlp_dim(int, optional) — Transformer 编码器中 MLP 层的维度。如果为None,则默认为mlp_ratio * hidden_size。
这是用于存储 SamVisionModel 配置的类。它用于根据指定的参数实例化 SAM 视觉编码器,定义模型架构。使用默认值实例化配置将产生类似于 SAM ViT-h facebook/sam-vit-huge 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
SamMaskDecoderConfig
class transformers.SamMaskDecoderConfig
( hidden_size = 256 hidden_act = 'relu' mlp_dim = 2048 num_hidden_layers = 2 num_attention_heads = 8 attention_downsample_rate = 2 num_multimask_outputs = 3 iou_head_depth = 3 iou_head_hidden_dim = 256 layer_norm_eps = 1e-06 **kwargs )
参数
hidden_size(int, 可选, 默认为 256) — 隐藏状态的维度。hidden_act(str, 可选, 默认为"relu") — 在SamMaskDecoder模块内部使用的非线性激活函数。mlp_dim(int, 可选, 默认为 2048) — Transformer 编码器中“中间”(即前馈)层的维度。num_hidden_layers(int, 可选, 默认为 2) — Transformer 编码器中的隐藏层数。num_attention_heads(int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数。attention_downsample_rate(int, 可选, 默认为 2) — 注意力层的下采样率。num_multimask_outputs(int, 可选, 默认为 3) —SamMaskDecoder模块的输出数量。在“Segment Anything”论文中,此值设置为 3。iou_head_depth(int, 可选, 默认为 3) — IoU 头模块中的层数。iou_head_hidden_dim(int, 可选, 默认为 256) — IoU 头模块中隐藏状态的维度。layer_norm_eps(float, 可选, 默认为 1e-06) — 层归一化层使用的 epsilon。
这是用于存储SamMaskDecoder配置的配置类。它用于实例化一个 SAM 掩码解码器到指定的参数,定义模型架构。实例化配置默认将产生类似于 SAM-vit-h facebook/sam-vit-huge架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
SamPromptEncoderConfig
class transformers.SamPromptEncoderConfig
( hidden_size = 256 image_size = 1024 patch_size = 16 mask_input_channels = 16 num_point_embeddings = 4 hidden_act = 'gelu' layer_norm_eps = 1e-06 **kwargs )
参数
hidden_size(int, 可选, 默认为 256) — 隐藏状态的维度。image_size(int, 可选, 默认为 1024) — 图像的预期输出分辨率。patch_size(int, 可选, 默认为 16) — 每个补丁的大小(分辨率)。mask_input_channels(int, 可选, 默认为 16) — 要馈送到MaskDecoder模块的通道数。num_point_embeddings(int, 可选, 默认为 4) — 要使用的点嵌入数量。hidden_act(str, 可选, 默认为"gelu") — 编码器和池化器中的非线性激活函数。
这是用于存储SamPromptEncoder配置的配置类。SamPromptEncoder模块用于编码输入的 2D 点和边界框。实例化配置默认将产生类似于 SAM-vit-h facebook/sam-vit-huge架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
SamProcessor
class transformers.SamProcessor
( image_processor )
参数
image_processor(SamImageProcessor) — SamImageProcessor 的一个实例。图像处理器是一个必需的输入。
构造一个 SAM 处理器,将 SAM 图像处理器和 2D 点和边界框处理器包装成一个单一处理器。
SamProcessor 提供了 SamImageProcessor 的所有功能。有关更多信息,请参阅call()的文档字符串。
Transformers 4.37 中文文档(九十三)(3)https://developer.aliyun.com/article/1564061