Transformers 4.37 中文文档(八十二)(1)https://developer.aliyun.com/article/1563224
AlignVisionModel
class transformers.AlignVisionModel
( config: AlignVisionConfig )
参数
config
(AlignConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
ALIGN 中的视觉模型,没有任何头部或顶部的投影。此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( pixel_values: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention or tuple(torch.FloatTensor)
参数
pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
)— 像素值。默认情况下将忽略填充,如果您提供填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 EfficientNetImageProcessor.call
()。output_hidden_states
(bool
,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选)— 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention
或tuple(torch.FloatTensor)
一个transformers.modeling_outputs.BaseModelOutputWithPoolingAndNoAttention
或一个torch.FloatTensor
元组(如果传递了return_dict=False
或config.return_dict=False
时)包含各种元素,具体取决于配置()和输入。
last_hidden_state
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
)— 模型最后一层的隐藏状态序列。pooler_output
(torch.FloatTensor
,形状为(batch_size, hidden_size)
)— 在空间维度上进行池化操作后的最后一层隐藏状态。hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回)— 形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入的输出的一个+每一层的输出的一个)。
模型在每一层输出处的隐藏状态以及可选的初始嵌入输出。
AlignVisionModel 的前向方法,覆盖__call__
特殊方法。
虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者负责运行前处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, AlignVisionModel >>> model = AlignVisionModel.from_pretrained("kakaobrain/align-base") >>> processor = AutoProcessor.from_pretrained("kakaobrain/align-base") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_state = outputs.last_hidden_state >>> pooled_output = outputs.pooler_output # pooled CLS states
AltCLIP
原文链接:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/altclip
概述
AltCLIP 模型是由陈忠志、刘光、张博文、叶福龙、杨庆红、吴乐德在AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities中提出的。AltCLIP(改变 CLIP 中的语言编码器)是一个神经网络,训练于各种图像文本和文本文本对。通过用预训练的多语言文本编码器 XLM-R 替换 CLIP 的文本编码器,我们可以在几乎所有任务上获得与 CLIP 非常接近的性能,并扩展原始 CLIP 的能力,如多语言理解。
论文摘要如下:
在这项工作中,我们提出了一个概念简单且有效的方法来训练强大的双语多模态表示模型。从 OpenAI 发布的预训练多模态表示模型 CLIP 开始,我们将其文本编码器替换为预训练的多语言文本编码器 XLM-R,并通过包含教师学习和对比学习的两阶段训练模式来对齐两种语言和图像表示。我们通过对各种任务的评估验证了我们的方法。我们在一系列任务中取得了新的最先进表现,包括 ImageNet-CN、Flicker30k-CN 和 COCO-CN。此外,我们在几乎所有任务上与 CLIP 获得了非常接近的性能,表明可以简单地改变 CLIP 中的文本编码器以获得扩展能力,如多语言理解。
该模型由jongjyh贡献。
使用提示和示例
AltCLIP 的使用与 CLIP 非常相似,区别在于文本编码器。请注意,我们使用双向注意力而不是单向注意力,并且我们使用 XLM-R 中的[CLS]标记来表示文本嵌入。
AltCLIP 是一个多模态视觉和语言模型。它可用于图像文本相似度和零样本图像分类。AltCLIP 使用类似 ViT 的变压器来获取视觉特征,并使用双向语言模型来获取文本特征。然后将文本和视觉特征投影到具有相同维度的潜在空间中。然后使用投影图像和文本特征之间的点积作为相似分数。
为了将图像馈送到变压器编码器中,每个图像被分割成一系列固定大小且不重叠的补丁,然后进行线性嵌入。添加一个[CLS]标记作为整个图像的表示。作者还添加了绝对位置嵌入,并将结果向量序列馈送到标准变压器编码器。CLIPImageProcessor 可用于调整(或重新缩放)和规范化模型的图像。
AltCLIPProcessor 将 CLIPImageProcessor 和 XLMRobertaTokenizer 封装成一个单一实例,用于对文本进行编码和准备图像。以下示例展示了如何使用 AltCLIPProcessor 和 AltCLIPModel 获取图像文本相似度分数。
>>> from PIL import Image >>> import requests >>> from transformers import AltCLIPModel, AltCLIPProcessor >>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP") >>> processor = AltCLIPProcessor.from_pretrained("BAAI/AltCLIP") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True) >>> outputs = model(**inputs) >>> logits_per_image = outputs.logits_per_image # this is the image-text similarity score >>> probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
该模型基于CLIPModel
,使用方式与原始的 CLIP 相同。
AltCLIPConfig
class transformers.AltCLIPConfig
( text_config = None vision_config = None projection_dim = 768 logit_scale_init_value = 2.6592 **kwargs )
参数
text_config
(dict
, optional) — 用于初始化 AltCLIPTextConfig 的配置选项字典。vision_config
(dict
, optional) — 用于初始化 AltCLIPVisionConfig 的配置选项字典。projection_dim
(int
, optional, defaults to 768) — 文本和视觉投影层的维度。logit_scale_init_value
(float
, optional, defaults to 2.6592) — logit_scale 参数的初始值。默认值根据原始的 CLIP 实现使用。kwargs
(optional) — 关键字参数的字典。
这是一个配置类,用于存储 AltCLIPModel 的配置。根据指定的参数实例化一个 AltCLIP 模型,定义模型架构。使用默认值实例化配置将产生类似于 AltCLIP BAAI/AltCLIP 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import AltCLIPConfig, AltCLIPModel >>> # Initializing a AltCLIPConfig with BAAI/AltCLIP style configuration >>> configuration = AltCLIPConfig() >>> # Initializing a AltCLIPModel (with random weights) from the BAAI/AltCLIP style configuration >>> model = AltCLIPModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config >>> # We can also initialize a AltCLIPConfig from a AltCLIPTextConfig and a AltCLIPVisionConfig >>> # Initializing a AltCLIPText and AltCLIPVision configuration >>> config_text = AltCLIPTextConfig() >>> config_vision = AltCLIPVisionConfig() >>> config = AltCLIPConfig.from_text_vision_configs(config_text, config_vision)
from_text_vision_configs
( text_config: AltCLIPTextConfig vision_config: AltCLIPVisionConfig **kwargs ) → export const metadata = 'undefined';AltCLIPConfig
返回
AltCLIPConfig
一个配置对象的实例
从 altclip 文本模型配置和 altclip 视觉模型配置实例化一个 AltCLIPConfig(或派生类)。
AltCLIPTextConfig
class transformers.AltCLIPTextConfig
( vocab_size = 250002 hidden_size = 1024 num_hidden_layers = 24 num_attention_heads = 16 intermediate_size = 4096 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 514 type_vocab_size = 1 initializer_range = 0.02 initializer_factor = 0.02 layer_norm_eps = 1e-05 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 position_embedding_type = 'absolute' use_cache = True project_dim = 768 **kwargs )
参数
vocab_size
(int
, optional, defaults to 250002) — AltCLIP 模型的词汇表大小。定义了在调用 AltCLIPTextModel 时可以表示的不同标记数量。hidden_size
(int
, optional, defaults to 1024) — 编码器层和池化器层的维度。num_hidden_layers
(int
, optional, defaults to 24) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, defaults to 16) — Transformer 编码器中每个注意力层的注意力头数量。intermediate_size
(int
, optional, defaults to 4096) — Transformer 编码器中“中间”(通常称为前馈)层的维度。hidden_act
(str
orCallable
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。hidden_dropout_prob
(float
, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢失概率。attention_probs_dropout_prob
(float
, optional, defaults to 0.1) — 注意力概率的丢失比率。max_position_embeddings
(int
, optional, defaults to 514) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512、1024 或 2048)。type_vocab_size
(int
, optional, defaults to 1) — 在调用 AltCLIPTextModel 时传递的token_type_ids
的词汇表大小。initializer_range
(float
, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。initializer_factor
(float
, optional, 默认为 0.02) — 用于初始化所有权重矩阵的因子(应保持为 1,用于内部初始化测试)。layer_norm_eps
(float
, optional, 默认为 1e-05) — 层归一化层使用的 epsilon。pad_token_id
(int
, optional, 默认为 1) — 填充 标记的 id。bos_token_id
(int
, optional, 默认为 0) — 序列开始 标记的 id。eos_token_id
(Union[int, List[int]]
, optional, 默认为 2) — 序列结束 标记的 id。可选择使用列表设置多个 序列结束 标记。position_embedding_type
(str
, optional, 默认为"absolute"
) — 位置嵌入的类型。选择"absolute"
,"relative_key"
,"relative_key_query"
中的一个。对于位置嵌入,请使用"absolute"
。有关"relative_key"
的更多信息,请参考Self-Attention with Relative Position Representations (Shaw et al.)。有关"relative_key_query"
的更多信息,请参考Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的 Method 4。use_cache
(bool
, optional, 默认为True
) — 模型是否应返回最后的键/值注意力(不是所有模型都使用)。仅在config.is_decoder=True
时相关。project_dim
(int
, optional, 默认为 768) — 映射层之前教师模型的维度。
这是用于存储 AltCLIPTextModel 配置的配置类。根据指定的参数实例化一个 AltCLIP 文本模型的配置,定义模型架构。使用默认值实例化配置将产生类似于 AltCLIP BAAI/AltCLIP 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import AltCLIPTextModel, AltCLIPTextConfig >>> # Initializing a AltCLIPTextConfig with BAAI/AltCLIP style configuration >>> configuration = AltCLIPTextConfig() >>> # Initializing a AltCLIPTextModel (with random weights) from the BAAI/AltCLIP style configuration >>> model = AltCLIPTextModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
AltCLIPVisionConfig
class transformers.AltCLIPVisionConfig
( hidden_size = 768 intermediate_size = 3072 projection_dim = 512 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 224 patch_size = 32 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 **kwargs )
参数
hidden_size
(int
, optional, 默认为 768) — 编码器层和池化层的维度。intermediate_size
(int
, optional, 默认为 3072) — Transformer 编码器中“中间”(即前馈)层的维度。projection_dim
(int
, optional, 默认为 512) — 文本和视觉投影层的维度。num_hidden_layers
(int
, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。num_channels
(int
, optional, 默认为 3) — 输入通道数。image_size
(int
, optional, 默认为 224) — 每个图像的大小(分辨率)。patch_size
(int
, optional, 默认为 32) — 每个 patch 的大小(分辨率)。hidden_act
(str
或function
, optional, 默认为"quick_gelu"
) — 编码器和池化层中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
以及"quick_gelu"
。layer_norm_eps
(float
, optional, 默认为 1e-05) — 层归一化层使用的 epsilon。attention_dropout
(float
,可选,默认为 0.0)— 注意力概率的 dropout 比率。initializer_range
(float
,可选,默认为 0.02)— 用于初始化所有权重矩阵的截断正态初始化器的标准差。initializer_factor
(float
,可选,默认为 1.0)— 用于初始化所有权重矩阵的因子(应保持为 1,用于内部初始化测试)。
这是用于存储 AltCLIPModel 配置的配置类。它用于根据指定的参数实例化 AltCLIP 模型,定义模型架构。使用默认值实例化配置将产生类似于 AltCLIP BAAI/AltCLIP架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import AltCLIPVisionConfig, AltCLIPVisionModel >>> # Initializing a AltCLIPVisionConfig with BAAI/AltCLIP style configuration >>> configuration = AltCLIPVisionConfig() >>> # Initializing a AltCLIPVisionModel (with random weights) from the BAAI/AltCLIP style configuration >>> model = AltCLIPVisionModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
AltCLIPProcessor
class transformers.AltCLIPProcessor
( image_processor = None tokenizer = None **kwargs )
参数
image_processor
(CLIPImageProcessor,可选)— 图像处理器是必需的。tokenizer
(XLMRobertaTokenizerFast,可选)— 分词器是必需的。
构建一个 AltCLIP 处理器,将 CLIP 图像处理器和 XLM-Roberta 分词器包装成一个单一处理器。
AltCLIPProcessor 提供了 CLIPImageProcessor 和 XLMRobertaTokenizerFast 的所有功能。查看__call__()
和 decode()以获取更多信息。
batch_decode
( *args **kwargs )
此方法将其所有参数转发给 XLMRobertaTokenizerFast 的 batch_decode()。有关更多信息,请参阅此方法的文档字符串。
decode
( *args **kwargs )
此方法将其所有参数转发给 XLMRobertaTokenizerFast 的 decode()。有关更多信息,请参阅此方法的文档字符串。
AltCLIPModel
class transformers.AltCLIPModel
( config: AltCLIPConfig )
forward
( input_ids: Optional = None pixel_values: Optional = None attention_mask: Optional = None position_ids: Optional = None token_type_ids: Optional = None return_loss: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.altclip.modeling_altclip.AltCLIPOutput or tuple(torch.FloatTensor)
参数
input_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
)— 词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是输入 ID?attention_mask
(torch.Tensor
,形状为(batch_size, sequence_length)
,可选) — 避免在填充标记索引上执行注意力的掩码。选择在[0, 1]
范围内的掩码值:
- 对于
未被掩码
的标记为 1, - 对于
被掩码
的标记为 0。
- 什么是注意力掩码?
position_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
,可选) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
。
什么是位置 ID?pixel_values
(torch.FloatTensor
,形状为(batch_size, num_channels, height, width)
) — 像素值。默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 CLIPImageProcessor.call
()。return_loss
(bool
, 可选) — 是否返回对比损失。output_attentions
(bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。output_hidden_states
(bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。return_dict
(bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.models.altclip.modeling_altclip.AltCLIPOutput
或tuple(torch.FloatTensor)
一个transformers.models.altclip.modeling_altclip.AltCLIPOutput
或一个torch.FloatTensor
元组(如果传递return_dict=False
或当config.return_dict=False
时),包括根据配置()和输入的各种元素。
loss
(torch.FloatTensor
,形状为(1,)
,可选,当return_loss
为True
时返回) — 图像-文本相似性的对比损失。logits_per_image:(torch.FloatTensor
,形状为(image_batch_size, text_batch_size)
) —image_embeds
和text_embeds
之间的缩放点积分数。这代表图像-文本相似性分数。logits_per_text:(torch.FloatTensor
,形状为(text_batch_size, image_batch_size)
) —text_embeds
和image_embeds
之间的缩放点积分数。这代表文本-图像相似性分数。text_embeds(torch.FloatTensor
,形状为(batch_size, output_dim
) — 通过将投影层应用于 AltCLIPTextModel 的汇聚输出获得的文本嵌入。image_embeds(torch.FloatTensor
,形状为(batch_size, output_dim
) — 通过将投影层应用于 AltCLIPVisionModel 的汇聚输出获得的图像嵌入。text_model_output(BaseModelOutputWithPooling):
AltCLIPTextModel 的输出。vision_model_output(BaseModelOutputWithPooling):
AltCLIPVisionModel 的输出。
AltCLIPModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, AltCLIPModel >>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP") >>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor( ... text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True ... ) >>> outputs = model(**inputs) >>> logits_per_image = outputs.logits_per_image # this is the image-text similarity score >>> probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities
get_text_features
( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None token_type_ids = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';text_features (torch.FloatTensor of shape (batch_size, output_dim)
参数
input_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
)- 词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是输入 ID?attention_mask
(形状为(batch_size, sequence_length)
的torch.Tensor
,可选)- 避免在填充令牌索引上执行注意力的掩码。选择在[0, 1]
范围内的掩码值:
- 对于未被屏蔽的标记,为 1,
- 对于被屏蔽的标记,为 0。
- 什么是注意力掩码?
position_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
,可选)- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
。
什么是位置 ID?output_attentions
(bool
,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选)- 是否返回 ModelOutput 而不是普通元组。
返回
text_features(形状为(batch_size, output_dim)
的torch.FloatTensor
)
通过将投影层应用于 AltCLIPTextModel 的汇总输出获得的文本嵌入。
AltCLIPModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoProcessor, AltCLIPModel >>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP") >>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP") >>> inputs = processor(text=["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt") >>> text_features = model.get_text_features(**inputs)
get_image_features
( pixel_values: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';image_features (torch.FloatTensor of shape (batch_size, output_dim)
参数
pixel_values
(形状为(batch_size, num_channels, height, width)
的torch.FloatTensor
)- 像素值。默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 CLIPImageProcessor.call
()。output_attentions
(bool
,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(布尔值,可选)— 是否返回 ModelOutput 而不是普通元组。
返回
image_features(形状为(batch_size,output_dim)的 torch.FloatTensor)
通过将投影层应用于 AltCLIPVisionModel 的汇聚输出获得的图像嵌入。
AltCLIPModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from PIL import Image >>> import requests >>> from transformers import AutoProcessor, AltCLIPModel >>> model = AltCLIPModel.from_pretrained("BAAI/AltCLIP") >>> processor = AutoProcessor.from_pretrained("BAAI/AltCLIP") >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg" >>> image = Image.open(requests.get(url, stream=True).raw) >>> inputs = processor(images=image, return_tensors="pt") >>> image_features = model.get_image_features(**inputs)
Transformers 4.37 中文文档(八十二)(3)https://developer.aliyun.com/article/1563226