Transformers 4.37 中文文档(八十五)(3)https://developer.aliyun.com/article/1563262
Clvp 解码器
类 transformers.Clvp 解码器
( config )
由config.num_hidden_layers层组成的 Transformer 解码器。每一层都是一个ClvpDecoderLayer
forward
( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )
参数
input_ids
(形状为(batch_size, input_ids_length)
的torch.LongTensor
)— 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是输入 ID?past_key_values
(长度为config.n_layers
的Tuple[Tuple[torch.Tensor]]
)— 包含模型计算的预计算隐藏状态(注意力块中的键和值),如下面的past_key_values
输出所示。可用于加速顺序解码。已经计算过其过去的input_ids
的input_ids
不应作为input_ids
传递,因为它们已经被计算过。attention_mask
(形状为(batch_size, sequence_length)
的torch.FloatTensor
,可选)- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]
中:
- 1 表示未被
掩码
的标记, - 0 表示被
掩码
的标记。
- 如果使用了
past_key_values
,则attention_mask
需要包含用于past_key_values
的掩码策略。换句话说,attention_mask
的长度始终必须为:len(past_key_values) + len(input_ids)
什么是注意力掩码? token_type_ids
(形状为(batch_size, input_ids_length)
的torch.LongTensor
,可选)- 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]
中:
- 0 对应于句子 A标记,
- 1 对应于句子 B标记。
- 什么是标记类型 ID?
position_ids
(形状为(batch_size, sequence_length)
的torch.LongTensor
,可选)- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
。
什么是位置 ID?head_mask
(形状为(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
,可选)- 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]
中:
- 1 表示头部未被
掩码
, - 0 表示头部被
掩码
。
inputs_embeds
(形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)- 可选地,您可以选择直接传递嵌入表示而不是传递input_ids
。如果您希望更多地控制如何将input_ids
索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。
如果使用了past_key_values
,则可选择仅输入最后的inputs_embeds
(参见past_key_values
)。use_cache
(bool
,可选)- 如果设置为True
,则返回past_key_values
键值状态,并可用于加速解码(参见past_key_values
)。output_attentions
(bool
,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions
。output_hidden_states
(bool
,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。return_dict
(bool
,可选)- 是否返回 ModelOutput 而不是普通元组。
ClvpDecoder 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
Data2Vec
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/data2vec
概述
Data2Vec 模型是由 Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu 和 Michael Auli 在数据 2vec: 语音、视觉和语言中的自监督学习的通用框架中提出的。Data2Vec 提出了一个统一的框架,用于跨不同数据模态的自监督学习 - 文本、音频和图像。重要的是,预训练的预测目标是输入的上下文化潜在表示,而不是特定于模态的、上下文无关的目标。
论文摘要如下:
尽管自监督学习的一般思想在各种模态之间是相同的,但实际的算法和目标差异很大,因为它们是针对单一模态开发的。为了让我们更接近于一般的自监督学习,我们提出了 data2vec,这是一个框架,它使用相同的学习方法来处理语音、NLP 或计算机视觉。核心思想是基于输入数据的遮蔽视图来预测完整输入数据的潜在表示,使用标准的 Transformer 架构进行自蒸馏设置。data2vec 不是预测特定于模态的目标,比如单词、视觉标记或人类语音单元,而是预测包含来自整个输入的信息的上下文化潜在表示。对语音识别、图像分类和自然语言理解的主要基准进行的实验表明,与主流方法相比,取得了新的最先进或具有竞争力的性能。模型和代码可在www.github.com/pytorch/fairseq/tree/master/examples/data2vec上找到。
这个模型是由edugp和patrickvonplaten贡献的。sayakpaul和Rocketknight1为 TensorFlow 中的视觉贡献了 Data2Vec。
原始代码(用于 NLP 和语音)可以在这里找到。视觉的原始代码可以在这里找到。
使用提示
- Data2VecAudio、Data2VecText 和 Data2VecVision 都是使用相同的自监督学习方法进行训练的。
- 对于 Data2VecAudio,预处理与 Wav2Vec2Model 相同,包括特征提取。
- 对于 Data2VecText,预处理与 RobertaModel 相同,包括标记化。
- 对于 Data2VecVision,预处理与 BeitModel 相同,包括特征提取。
资源
官方 Hugging Face 和社区(由🌎表示)资源列表,帮助您开始使用 Data2Vec。
图像分类
- Data2VecVisionForImageClassification 由此示例脚本和笔记本支持。
- 要在自定义数据集上微调 TFData2VecVisionForImageClassification,请参阅此笔记本。
Data2VecText 文档资源
- 文本分类任务指南
- 标记分类任务指南
- 问答任务指南
- 因果语言建模任务指南
- 掩码语言建模任务指南
- 多项选择任务指南
Data2VecAudio 文档资源
- 音频分类任务指南
- 自动语音识别任务指南
Data2VecVision 文档资源
- 图像分类
- 语义分割
如果您有兴趣提交资源以包含在此处,请随时打开一个 Pull Request,我们将对其进行审查!资源应该展示一些新内容,而不是重复现有资源。
Data2VecTextConfig
class transformers.Data2VecTextConfig
( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 position_embedding_type = 'absolute' use_cache = True classifier_dropout = None **kwargs )
参数
vocab_size
(int
, 可选, 默认为 30522) — DATA2VEC 模型的词汇量。定义了在调用Data2VecModel
时可以表示的不同标记数量。hidden_size
(int
, 可选, 默认为 768) — 编码器层和池化层的维度。num_hidden_layers
(int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。intermediate_size
(int
, 可选, 默认为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。hidden_act
(str
或Callable
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。hidden_dropout_prob
(float
, 可选, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢失概率。attention_probs_dropout_prob
(float
, 可选, 默认为 0.1) — 注意力概率的丢失比率。max_position_embeddings
(int
, 可选, 默认为 512) — 此模型可能会使用的最大序列长度。通常将其设置为较大的值以防万一(例如 512、1024 或 2048)。type_vocab_size
(int
, 可选, 默认为 2) — 在调用Data2VecModel
时传递的token_type_ids
的词汇量。initializer_range
(float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。position_embedding_type
(str
, 可选, 默认为"absolute"
) — 位置嵌入的类型。选择"absolute"
之一。有关"relative_key"
的更多信息,请参阅使用相对位置表示的自注意力(Shaw 等人)。有关"relative_key_query"
的更多信息,请参阅使用更好的相对位置嵌入改进 Transformer 模型(Huang 等人)中的方法 4。is_decoder
(bool
, 可选, 默认为False
) — 模型是否用作解码器。如果为False
,则模型用作编码器。use_cache
(bool
, 可选, 默认为True
) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在config.is_decoder=True
时相关。classifier_dropout
(float
, optional) — 分类头的 dropout 比率。
这是用于存储 Data2VecTextModel 和 Data2VecTextModel 配置的配置类。根据指定的参数实例化一个 Data2VecText 模型,定义模型架构。使用默认值实例化配置将产生类似于 Data2VecText facebook/data2vec-text-base 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import Data2VecTextConfig, Data2VecTextModel >>> # Initializing a Data2VecText facebook/data2vec-text-base style configuration >>> configuration = Data2VecTextConfig() >>> # Initializing a model (with random weights) from the facebook/data2vec-text-base style configuration >>> model = Data2VecTextModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
Data2VecAudioConfig
class transformers.Data2VecAudioConfig
( vocab_size = 32 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout = 0.1 activation_dropout = 0.1 attention_dropout = 0.1 feat_proj_dropout = 0.0 final_dropout = 0.1 layerdrop = 0.1 initializer_range = 0.02 layer_norm_eps = 1e-05 feat_extract_activation = 'gelu' conv_dim = (512, 512, 512, 512, 512, 512, 512) conv_stride = (5, 2, 2, 2, 2, 2, 2) conv_kernel = (10, 3, 3, 3, 3, 2, 2) conv_bias = False num_conv_pos_embedding_groups = 16 conv_pos_kernel_size = 19 num_conv_pos_embeddings = 5 mask_time_prob = 0.05 mask_time_length = 10 mask_time_min_masks = 2 mask_feature_prob = 0.0 mask_feature_length = 10 mask_feature_min_masks = 0 ctc_loss_reduction = 'sum' ctc_zero_infinity = False use_weighted_layer_sum = False classifier_proj_size = 256 tdnn_dim = (512, 512, 512, 512, 1500) tdnn_kernel = (5, 3, 3, 1, 1) tdnn_dilation = (1, 2, 3, 1, 1) xvector_output_dim = 512 pad_token_id = 0 bos_token_id = 1 eos_token_id = 2 add_adapter = False adapter_kernel_size = 3 adapter_stride = 2 num_adapter_layers = 3 output_hidden_size = None **kwargs )
参数
vocab_size
(int
, optional, defaults to 32) — Data2VecAudio 模型的词汇表大小。定义了在调用 Data2VecAudioModel 或TFData2VecAudioModel
时可以表示的不同标记数量。模型的词汇表大小。定义了传递给 Data2VecAudioModel 的 inputs_ids 可以表示的不同标记数量。hidden_size
(int
, optional, defaults to 768) — 编码器层和池化器层的维度。num_hidden_layers
(int
, optional, defaults to 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, defaults to 12) — Transformer 编码器中每个注意力层的注意力头数量。intermediate_size
(int
, optional, defaults to 3072) — Transformer 编码器中“中间”(即前馈)层的维度。hidden_act
(str
orfunction
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。hidden_dropout
(float
, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。activation_dropout
(float
, optional, defaults to 0.1) — 全连接层内激活的 dropout 比率。attention_dropout
(float
, optional, defaults to 0.1) — 注意力概率的 dropout 比率。final_dropout
(float
, optional, defaults to 0.1) — Data2VecAudioForCTC 的最终投影层的 dropout 概率。layerdrop
(float
, optional, defaults to 0.1) — LayerDrop 概率。更多细节请参阅 LayerDrop 论文)。initializer_range
(float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。feat_proj_dropout
(float
, optional, defaults to 0.0) — 特征编码器输出的 dropout 概率。feat_extract_activation
(str,
optional, defaults to
“gelu”) -- 特征提取器中 1D 卷积层的非线性激活函数(函数或字符串)。如果是字符串,支持
“gelu”、
“relu”、
“selu”和
“gelu_new”`。conv_dim
(Tuple[int]
orList[int]
, optional, defaults to(512, 512, 512, 512, 512, 512, 512)
) — 定义特征编码器中每个 1D 卷积层的输入和输出通道数的整数元组。conv_dim的长度定义了 1D 卷积层的数量。conv_stride
(Tuple[int]
orList[int]
, optional, defaults to(5, 2, 2, 2, 2, 2, 2)
) — 定义特征编码器中每个 1D 卷积层的步幅的整数元组。conv_stride的长度定义了卷积层的数量,并且必须与conv_dim的长度匹配。conv_kernel
(Tuple[int]
orList[int]
, optional, defaults to(10, 3, 3, 3, 3, 3, 3)
) — 定义特征编码器中每个 1D 卷积层的内核大小的整数元组。conv_kernel的长度定义了卷积层的数量,并且必须与conv_dim的长度匹配。conv_bias
(bool
, optional, defaults toFalse
) — 1D 卷积层是否有偏置。num_conv_pos_embeddings
(int
, optional, defaults to 128) — 卷积位置嵌入的数量。定义了 1D 卷积位置嵌入层的内核大小。num_conv_pos_embedding_groups
(int
, optional, defaults to 16) — 1D 卷积位置嵌入层的组数。mask_time_prob
(float
, optional, defaults to 0.05) — 沿时间轴的所有特征向量中将被掩盖的百分比(介于 0 和 1 之间)。掩码过程在轴上生成”mask_time_problen(time_axis)/mask_time_length”个独立的掩码。如果从每个特征向量被选择为要掩盖的向量跨度的起始的概率推理, mask_time_prob *应该是prob_vector_start*mask_time_length
。请注意,重叠可能会降低mask_time_length
(int
, optional, defaults to 10) — 沿时间轴的向量跨度长度。mask_time_min_masks
(int
, optional, defaults to 2), — 沿时间轴生成的长度为mask_feature_length
的掩码的最小数量,每个时间步,与mask_feature_prob
无关。仅在”mask_time_prob*len(time_axis)/mask_time_length < mask_time_min_masks”时相关mask_feature_prob
(float
, optional, defaults to 0.0) — 沿特征轴的所有特征向量中将被掩盖的百分比(介于 0 和 1 之间)。掩码过程在轴上生成”mask_feature_problen(feature_axis)/mask_time_length”个独立的掩码。如果从每个特征向量被选择为要掩盖的向量跨度的起始的概率推理, mask_feature_prob *应该是prob_vector_start*mask_feature_length
。请注意,重叠可能会降低掩盖向量的实际百分比。仅在apply_spec_augment 为 True
时相关。mask_feature_length
(int
, optional, defaults to 10) — 沿特征轴的向量跨度长度。mask_feature_min_masks
(int
, optional, defaults to 0), — 沿特征轴生成的长度为mask_feature_length
的掩码的最小数量,每个时间步,与mask_feature_prob
无关。仅在”mask_feature_prob*len(feature_axis)/mask_feature_length < mask_feature_min_masks”时相关ctc_loss_reduction
(str
, optional, defaults to"sum"
) — 指定应用于torch.nn.CTCLoss
输出的减少方式。仅在训练 Data2VecAudioForCTC 实例时相关。ctc_zero_infinity
(bool
, optional, defaults toFalse
) — 是否将torch.nn.CTCLoss
的无限损失和相关梯度置零。当输入太短无法与目标对齐时,主要会出现无限损失。仅在训练 Data2VecAudioForCTC 实例时相关。use_weighted_layer_sum
(bool
, optional, defaults toFalse
) — 是否使用带有学习权重的层输出的加权平均。仅在使用 Data2VecAudioForSequenceClassification 实例时相关。classifier_proj_size
(int
, optional, defaults to 256) — 分类前的投影维度,用于标记均值池化。tdnn_dim
(Tuple[int]
orList[int]
, optional, defaults to(512, 512, 512, 512, 1500)
) — 一个整数元组,定义XVector模型中TDNN模块中每个 1D 卷积层的输出通道数。tdnn_dim的长度定义了TDNN层数。tdnn_kernel
(Tuple[int]
orList[int]
, optional, defaults to(5, 3, 3, 1, 1)
) — 一个整数元组,定义XVector模型中TDNN模块中每个 1D 卷积层的核大小。tdnn_kernel的长度必须与tdnn_dim的长度相匹配。tdnn_dilation
(Tuple[int]
orList[int]
, optional, defaults to(1, 2, 3, 1, 1)
) — 一个整数元组,定义XVector模型中TDNN模块中每个 1D 卷积层的扩张因子。tdnn_dilation的长度必须与tdnn_dim的长度相匹配。xvector_output_dim
(int
, optional, defaults to 512) — XVector嵌入向量的维度。add_adapter
(bool
, optional, defaults toFalse
) — 是否在 Data2VecAudio 编码器顶部堆叠卷积网络。对于启动 Data2VecAudio 用于 SpeechEncoderDecoder 模型非常有用。adapter_kernel_size
(int
, optional, defaults to 3) — 适配器网络中卷积层的核大小。仅在add_adapter
为 True 时相关。adapter_stride
(int
, optional, defaults to 2) — 适配器网络中卷积层的步幅。仅在add_adapter
为 True 时相关。num_adapter_layers
(int
, optional, defaults to 3) — 适配器网络中应使用的卷积层数量。仅在add_adapter
为 True 时相关。output_hidden_size
(int
, optional) — 编码器输出层的维度。如果未定义,则默认为hidden-size。仅在add_adapter
为 True 时相关。
这是用于存储 Data2VecAudioModel 配置的配置类。它用于根据指定的参数实例化一个 Data2VecAudio 模型,定义模型架构。使用默认值实例化配置将产生类似于 Data2VecAudio facebook/data2vec-audio-base-960h架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import Data2VecAudioConfig, Data2VecAudioModel >>> # Initializing a Data2VecAudio facebook/data2vec-audio-base-960h style configuration >>> configuration = Data2VecAudioConfig() >>> # Initializing a model (with random weights) from the facebook/data2vec-audio-base-960h style configuration >>> model = Data2VecAudioModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
Data2VecVisionConfig
class transformers.Data2VecVisionConfig
( hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 layer_norm_eps = 1e-12 image_size = 224 patch_size = 16 num_channels = 3 use_mask_token = False use_absolute_position_embeddings = False use_relative_position_bias = False use_shared_relative_position_bias = False layer_scale_init_value = 0.1 drop_path_rate = 0.1 use_mean_pooling = True out_indices = [3, 5, 7, 11] pool_scales = [1, 2, 3, 6] use_auxiliary_head = True auxiliary_loss_weight = 0.4 auxiliary_channels = 256 auxiliary_num_convs = 1 auxiliary_concat_input = False semantic_loss_ignore_index = 255 **kwargs )
参数
hidden_size
(int
, optional, defaults to 768) — 编码器层和池化层的维度。num_hidden_layers
(int
, optional, defaults to 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, optional, defaults to 12) — Transformer 编码器中每个注意力层的注意力头数。intermediate_size
(int
, optional, defaults to 3072) — Transformer 编码器中“中间”(即前馈)层的维度。hidden_act
(str
orfunction
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。hidden_dropout_prob
(float
, optional, defaults to 0.0) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。attention_probs_dropout_prob
(float
, optional, defaults to 0.0) — 注意力概率的丢弃比率。initializer_range
(float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。image_size
(int
, optional, defaults to 224) — 每个图像的大小(分辨率)。patch_size
(int
, optional, defaults to 16) — 每个补丁的大小(分辨率)。num_channels
(int
, optional, defaults to 3) — 输入通道的数量。use_mask_token
(bool
, optional, defaults toFalse
) — 是否在掩蔽图像建模中使用掩蔽标记。use_absolute_position_embeddings
(bool
, optional, defaults toFalse
) — 是否使用类似 BERT 的绝对位置嵌入。use_relative_position_bias
(bool
, optional, defaults toFalse
) — 是否在自注意力层中使用 T5 风格的相对位置嵌入。use_shared_relative_position_bias
(bool
, optional, defaults toFalse
) — 是否在 Transformer 的所有自注意力层中使用相同的相对位置嵌入。layer_scale_init_value
(float
, optional, defaults to 0.1) — 自注意力层中使用的比例。基础为 0.1,大型为 1e-5。设置为 0 以禁用层比例。drop_path_rate
(float
, optional, defaults to 0.1) — 每个样本的随机深度率(当应用于残差层的主路径时)。use_mean_pooling
(bool
, optional, defaults toTrue
) — 是否对补丁的最终隐藏状态进行平均池化,而不是使用 CLS 标记的最终隐藏状态后应用分类头。out_indices
(List[int]
, optional, defaults to[3, 5, 7, 11]
) — 用于语义分割的特征图的索引。pool_scales
(Tuple[int]
, optional, defaults to[1, 2, 3, 6]
) — 应用于最后特征图的池化金字塔模块中使用的池化比例。use_auxiliary_head
(bool
, optional, defaults toTrue
) — 是否在训练期间使用辅助头。auxiliary_loss_weight
(float
, optional, defaults to 0.4) — 辅助头的交叉熵损失的权重。auxiliary_channels
(int
, optional, defaults to 256) — 辅助头中要使用的通道数。auxiliary_num_convs
(int
, optional, defaults to 1) — 辅助头中要使用的卷积层数量。auxiliary_concat_input
(bool
, optional, defaults toFalse
) — 是否在分类层之前将辅助头的输出与输入连接起来。semantic_loss_ignore_index
(int
, optional, defaults to 255) — 语义分割模型损失函数中被忽略的索引。
这是存储 Data2VecVisionModel 配置的配置类。它用于根据指定的参数实例化一个 Data2VecVision 模型,定义模型架构。使用默认值实例化配置将产生类似于 Data2VecVision facebook/data2vec-vision-base架构的配置。
示例:
>>> from transformers import Data2VecVisionConfig, Data2VecVisionModel >>> # Initializing a Data2VecVision data2vec_vision-base-patch16-224-in22k style configuration >>> configuration = Data2VecVisionConfig() >>> # Initializing a model (with random weights) from the data2vec_vision-base-patch16-224-in22k style configuration >>> model = Data2VecVisionModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
PytorchHide Pytorch 内容
Transformers 4.37 中文文档(八十五)(5)https://developer.aliyun.com/article/1563264