Transformers 4.37 中文文档(七十一)(2)https://developer.aliyun.com/article/1564222
SwiftFormerModel
class transformers.SwiftFormerModel
( config: SwiftFormerConfig )
参数
config
(SwiftFormerConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 SwiftFormer 模型变压器输出原始隐藏状态,没有特定的顶部头。此模型是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。
forward
( pixel_values: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithNoAttention or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call
()。output_hidden_states
(bool
, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
, optional) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.BaseModelOutputWithNoAttention
或 tuple(torch.FloatTensor)
一个transformers.modeling_outputs.BaseModelOutputWithNoAttention
或一个torch.FloatTensor
元组(如果传递return_dict=False
或config.return_dict=False
时)包含根据配置(SwiftFormerConfig)和输入的各种元素。
last_hidden_state
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 模型最后一层的隐藏状态序列。hidden_states
(tuple(torch.FloatTensor)
,optional,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入的输出+每层的输出)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
SwiftFormerModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, SwiftFormerModel >>> import torch >>> from datasets import load_dataset >>> dataset = load_dataset("huggingface/cats-image") >>> image = dataset["test"]["image"][0] >>> image_processor = AutoImageProcessor.from_pretrained("MBZUAI/swiftformer-xs") >>> model = SwiftFormerModel.from_pretrained("MBZUAI/swiftformer-xs") >>> inputs = image_processor(image, return_tensors="pt") >>> with torch.no_grad(): ... outputs = model(**inputs) >>> last_hidden_states = outputs.last_hidden_state >>> list(last_hidden_states.shape) [1, 220, 7, 7]
SwiftFormerForImageClassification
class transformers.SwiftFormerForImageClassification
( config: SwiftFormerConfig )
参数
config
(SwiftFormerConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
带有图像分类头部的 SwiftFormer 模型变压器(例如用于 ImageNet)。
该模型是 PyTorch torch.nn.Module的子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( pixel_values: Optional = None labels: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.ImageClassifierOutputWithNoAttention or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。有关详细信息,请参阅 ViTImageProcessor.call
()。output_hidden_states
(bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选) — 是否返回 ModelOutput 而不是普通元组。labels
(torch.LongTensor
,形状为(batch_size,)
,可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]
范围内。如果config.num_labels == 1
,则计算回归损失(均方损失),如果config.num_labels > 1
,则计算分类损失(交叉熵)。
返回
transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一个torch.FloatTensor
元组(如果传递了return_dict=False
或当config.return_dict=False
时)包含各种元素,取决于配置(SwiftFormerConfig)和输入。
loss
(torch.FloatTensor
,形状为(1,)
,可选,当提供labels
时返回) — 分类(如果config.num_labels==1
则为回归)损失。logits
(torch.FloatTensor
,形状为(batch_size, config.num_labels)
) — 分类(如果config.num_labels==1
则为回归)得分(SoftMax 之前)。hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
元组。模型在每个阶段输出的隐藏状态(也称为特征图)。
SwiftFormerForImageClassification 的前向方法,覆盖了__call__
特殊方法。
尽管前向传播的配方需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, SwiftFormerForImageClassification >>> import torch >>> from datasets import load_dataset >>> dataset = load_dataset("huggingface/cats-image") >>> image = dataset["test"]["image"][0] >>> image_processor = AutoImageProcessor.from_pretrained("MBZUAI/swiftformer-xs") >>> model = SwiftFormerForImageClassification.from_pretrained("MBZUAI/swiftformer-xs") >>> inputs = image_processor(image, return_tensors="pt") >>> with torch.no_grad(): ... logits = model(**inputs).logits >>> # model predicts one of the 1000 ImageNet classes >>> predicted_label = logits.argmax(-1).item() >>> print(model.config.id2label[predicted_label]) tabby, tabby cat
Swin Transformer
原文:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/swin
概述
Swin Transformer 是由刘泽、林宇通、曹越、胡涵、魏一轩、张政、林宇、郭百宁在《Swin Transformer: 使用移位窗口的分层视觉 Transformer》中提出的。
论文摘要如下:
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它能够作为计算机视觉的通用骨干。从语言到视觉的 Transformer 的适应性挑战源于两个领域之间的差异,例如视觉实体的规模变化很大,图像中像素的分辨率与文本中的单词相比要高。为了解决这些差异,我们提出了一种层次化的 Transformer,其表示是通过\bold{S}hifted \bold{win}dows 计算的。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口中,同时允许跨窗口连接,从而带来更高的效率。这种层次化架构具有在各种尺度上建模的灵活性,并且对于图像大小具有线性计算复杂度。Swin Transformer 的这些特性使其与广泛的视觉任务兼容,包括图像分类(在 ImageNet-1K 上的 87.3 top-1 准确率)以及密集预测任务,如目标检测(在 COCO test-dev 上的 58.7 盒子 AP 和 51.1 掩码 AP)和语义分割(在 ADE20K val 上的 53.5 mIoU)。其性能大大超过了以前的最先进技术,COCO 上的+2.7 盒子 AP 和+2.6 掩码 AP,ADE20K 上的+3.2 mIoU,展示了基于 Transformer 的模型作为视觉骨干的潜力。层次设计和移位窗口方法也对所有 MLP 架构有益。
Swin Transformer 架构。摘自原始论文。
这个模型是由novice03贡献的。这个模型的 Tensorflow 版本是由amyeroberts贡献的。原始代码可以在这里找到。
使用提示
- Swin 填充输入,支持任何输入高度和宽度(如果可被
32
整除)。 - Swin 可以用作骨干。当
output_hidden_states = True
时,它将同时输出hidden_states
和reshaped_hidden_states
。reshaped_hidden_states
的形状为(batch, num_channels, height, width)
而不是(batch_size, sequence_length, num_channels)
。
资源
一个官方的 Hugging Face 和社区(由🌎表示)资源列表,帮助您开始使用 Swin Transformer。
图像分类
此外:
- SwinForMaskedImageModeling 可以通过这个示例脚本来支持。
如果您有兴趣提交资源以包含在此处,请随时提交拉取请求,我们将进行审查!资源应该最好展示一些新东西,而不是重复现有资源。
SwinConfig
class transformers.SwinConfig
( image_size = 224 patch_size = 4 num_channels = 3 embed_dim = 96 depths = [2, 2, 6, 2] num_heads = [3, 6, 12, 24] window_size = 7 mlp_ratio = 4.0 qkv_bias = True hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 drop_path_rate = 0.1 hidden_act = 'gelu' use_absolute_embeddings = False initializer_range = 0.02 layer_norm_eps = 1e-05 encoder_stride = 32 out_features = None out_indices = None **kwargs )
参数
image_size
(int
, optional, defaults to 224) — 每个图像的大小(分辨率)。patch_size
(int
, optional, defaults to 4) — 每个 patch 的大小(分辨率)。num_channels
(int
, optional, defaults to 3) — 输入通道的数量。embed_dim
(int
, optional, defaults to 96) — patch 嵌入的维度。depths
(list(int)
, optional, defaults to[2, 2, 6, 2]
) — Transformer 编码器中每个层的深度。num_heads
(list(int)
, optional, defaults to[3, 6, 12, 24]
) — Transformer 编码器每层中的注意力头数。window_size
(int
, optional, defaults to 7) — 窗口的大小。mlp_ratio
(float
, optional, defaults to 4.0) — MLP 隐藏维度与嵌入维度的比率。qkv_bias
(bool
, optional, defaults toTrue
) — 是否应向查询、键和值添加可学习的偏置。hidden_dropout_prob
(float
, optional, defaults to 0.0) — 嵌入和编码器中所有全连接层的 dropout 概率。attention_probs_dropout_prob
(float
, optional, defaults to 0.0) — 注意力概率的 dropout 比率。drop_path_rate
(float
, optional, defaults to 0.1) — 随机深度率。hidden_act
(str
orfunction
, optional, defaults to"gelu"
) — 编码器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。use_absolute_embeddings
(bool
, optional, defaults toFalse
) — 是否将绝对位置嵌入添加到 patch 嵌入中。initializer_range
(float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。layer_norm_eps
(float
, optional, defaults to 1e-05) — 层归一化层使用的 epsilon。encoder_stride
(int
, optional, defaults to 32) — 用于掩码图像建模中解码器头部增加空间分辨率的因子。out_features
(List[str]
, optional) — 如果用作 backbone,则输出特征的列表。可以是任何一个"stem"
,"stage1"
,"stage2"
,等(取决于模型有多少阶段)。如果未设置且设置了out_indices
,将默认为相应的阶段。如果未设置且out_indices
未设置,将默认为最后一个阶段。必须按照stage_names
属性中定义的顺序。out_indices
(List[int]
, optional) — 如果用作 backbone,则输出特征的索引列表。可以是 0, 1, 2 等(取决于模型有多少阶段)。如果未设置且设置了out_features
,将默认为相应的阶段。如果未设置且out_features
未设置,将默认为最后一个阶段。必须按照stage_names
属性中定义的顺序。
这是一个配置类,用于存储 SwinModel 的配置。根据指定的参数实例化一个 Swin 模型,定义模型架构。使用默认值实例化配置将产生类似于Swin架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import SwinConfig, SwinModel >>> # Initializing a Swin microsoft/swin-tiny-patch4-window7-224 style configuration >>> configuration = SwinConfig() >>> # Initializing a model (with random weights) from the microsoft/swin-tiny-patch4-window7-224 style configuration >>> model = SwinModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
PytorchHide Pytorch content
SwinModel
class transformers.SwinModel
( config add_pooling_layer = True use_mask_token = False )
参数
config
(SwinConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。add_pooling_layer
(bool
, 可选, 默认为True
) — 是否应用池化层。use_mask_token
(bool
, 可选, 默认为False
) — 是否创建和应用嵌入层中的掩码标记。
裸的 Swin 模型变换器,输出原始隐藏状态,没有特定的头部。这个模型是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( pixel_values: Optional = None bool_masked_pos: Optional = None head_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.swin.modeling_swin.SwinModelOutput or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获取。查看 ViTImageProcessor.call
()获取详细信息。head_mask
(torch.FloatTensor
,形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块中选择的头部失效的掩码。在[0, 1]
中选择掩码值:
- 1 表示头部
未被掩盖
, - 0 表示头部
被掩盖
。
output_attentions
(bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请查看返回张量下的attentions
。output_hidden_states
(bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请查看返回张量下的hidden_states
。return_dict
(bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。bool_masked_pos
(torch.BoolTensor
,形状为(batch_size, num_patches)
,可选) — 布尔掩码位置。指示哪些补丁被掩盖(1)哪些没有(0)。
返回
transformers.models.swin.modeling_swin.SwinModelOutput
或 tuple(torch.FloatTensor)
一个 transformers.models.swin.modeling_swin.SwinModelOutput
或一个 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时)包含根据配置 (SwinConfig) 和输入的各种元素。
last_hidden_state
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的隐藏状态序列。pooler_output
(torch.FloatTensor
,形状为(batch_size, hidden_size)
,可选,当传递add_pooling_layer=True
时返回) — 最后一层隐藏状态的平均池化。hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入输出,一个用于每个阶段的输出)。
模型在每一层输出的隐藏状态加上初始嵌入输出。attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个阶段一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。reshaped_hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, hidden_size, height, width)
的torch.FloatTensor
元组(一个用于嵌入的输出 + 一个用于每个阶段的输出)。
模型在每一层输出的隐藏状态以及重塑以包含空间维度的初始嵌入输出。
SwinModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoImageProcessor, SwinModel >>> import torch >>> from datasets import load_dataset >>> dataset = load_dataset("huggingface/cats-image") >>> image = dataset["test"]["image"][0] >>> image_processor = AutoImageProcessor.from_pretrained("microsoft/swin-tiny-patch4-window7-224") >>> model = SwinModel.from_pretrained("microsoft/swin-tiny-patch4-window7-224") >>> inputs = image_processor(image, return_tensors="pt") >>> with torch.no_grad(): ... outputs = model(**inputs) >>> last_hidden_states = outputs.last_hidden_state >>> list(last_hidden_states.shape) [1, 49, 768]
Transformers 4.37 中文文档(七十一)(4)https://developer.aliyun.com/article/1564226