Transformers 4.37 中文文档(三十)(1)https://developer.aliyun.com/article/1564671
DPRReader
class transformers.DPRReader
( config: DPRConfig )
参数
config
(DPRConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
裸 DPRReader 变压器输出跨度预测。
此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。
forward
( input_ids: Optional = None attention_mask: Optional = None inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.dpr.modeling_dpr.DPRReaderOutput or tuple(torch.FloatTensor)
参数
input_ids
(形状为(n_passages, sequence_length)
的Tuple[torch.LongTensor]
)— 词汇表中输入序列标记的索引。它必须是一个序列三元组,包括 1)问题、2)段落标题和 3)段落文本。为了匹配预训练,DPR 的input_ids
序列应该以[CLS]和[SEP]的格式进行格式化:[CLS] <问题标记 id> [SEP] <标题 id> [SEP] <文本 id>
DPR 是一个具有绝对位置嵌入的模型,因此通常建议在右侧而不是左侧填充输入。
可以使用 DPRReaderTokenizer 获取索引。有关更多详细信息,请参阅此类文档。
什么是输入 ID?attention_mask
(形状为(n_passages, sequence_length)
的torch.FloatTensor
,可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]
中:
- 1 表示
未被掩盖
的标记, - 0 表示
被掩盖
的标记。
- 什么是注意力掩码?
inputs_embeds
(形状为(n_passages, sequence_length, hidden_size)
的torch.FloatTensor
,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想要更多控制如何将input_ids
索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。output_attentions
(bool
,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions
。output_hidden_states
(bool
,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states
。return_dict
(bool
,可选)— 是否返回 ModelOutput 而不是普通元组。
返回
transformers.models.dpr.modeling_dpr.DPRReaderOutput 或torch.FloatTensor
元组
一个 transformers.models.dpr.modeling_dpr.DPRReaderOutput 或一个torch.FloatTensor
元组(如果传递return_dict=False
或config.return_dict=False
)包含各种元素,取决于配置(DPRConfig)和输入。
start_logits
(形状为(n_passages, sequence_length)
的torch.FloatTensor
) — 每个段落跨度的开始索引的 logits。end_logits
(形状为(n_passages, sequence_length)
的torch.FloatTensor
) — 每个段落跨度的结束索引的 logits。relevance_logits
(形状为(n_passages, )
的torch.FloatTensor
) — DPRReader 的 QA 分类器的输出,对应于每个段落回答问题的分数,与所有其他段落进行比较。hidden_states
(tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于嵌入的输出 + 一个用于每一层的输出)。
模型在每一层输出的隐藏状态加上初始嵌入输出。attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。
注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
DPRReader 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import DPRReader, DPRReaderTokenizer >>> tokenizer = DPRReaderTokenizer.from_pretrained("facebook/dpr-reader-single-nq-base") >>> model = DPRReader.from_pretrained("facebook/dpr-reader-single-nq-base") >>> encoded_inputs = tokenizer( ... questions=["What is love ?"], ... titles=["Haddaway"], ... texts=["'What Is Love' is a song recorded by the artist Haddaway"], ... return_tensors="pt", ... ) >>> outputs = model(**encoded_inputs) >>> start_logits = outputs.start_logits >>> end_logits = outputs.end_logits >>> relevance_logits = outputs.relevance_logits
TensorFlow 隐藏 TensorFlow 内容
TFDPRContextEncoder
class transformers.TFDPRContextEncoder
( config: DPRConfig *args **kwargs )
参数
config
(DPRConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 DPRContextEncoder 变压器输出池化器输出作为上下文表示。
这个模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
这个模型也是一个 Tensorflow tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有信息。
transformers
中的 TensorFlow 模型和层接受两种格式的输入:
- 将所有输入作为关键字参数(类似于 PyTorch 模型),或
- 将所有输入作为列表、元组或字典的第一个位置参数。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用model.fit()
等方法时,您应该可以“轻松使用” - 只需以model.fit()
支持的任何格式传递您的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 Keras Functional
API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:
- 一个仅包含
input_ids
的单个张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含一个或多个输入张量,按照文档字符串中给定的顺序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您不需要担心这些内容,因为您可以像对待任何其他 Python 函数一样传递输入!
call
( input_ids: TFModelInputType | None = None attention_mask: tf.Tensor | None = None token_type_ids: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → export const metadata = 'undefined';transformers.models.dpr.modeling_tf_dpr.TFDPRContextEncoderOutput or tuple(tf.Tensor)
参数
input_ids
(Numpy array
或tf.Tensor
of shape(batch_size, sequence_length)
) — 输入序列标记在词汇表中的索引。为了匹配预训练,DPR 输入序列应该按照以下格式进行格式化:[CLS] 和 [SEP] 标记。
(a) 对于序列对(例如标题+文本对):
返回
transformers.models.dpr.modeling_tf_dpr.TFDPRContextEncoderOutput
或 tuple(tf.Tensor)
一个transformers.models.dpr.modeling_tf_dpr.TFDPRContextEncoderOutput
或一个tf.Tensor
元组(如果传递return_dict=False
或config.return_dict=False
)包含根据配置(DPRConfig)和输入的不同元素。
pooler_output
(tf.Tensor
of shape(batch_size, embeddings_size)
) — DPR 编码器输出与上下文表示相对应的pooler_output。序列的第一个标记(分类标记)的最后一层隐藏状态进一步由线性层处理。此输出用于嵌入上下文以进行最近邻查询与问题嵌入。hidden_states
(tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入输出,一个用于每一层的输出)。
模型在每一层输出的隐藏状态以及初始嵌入输出。attentions
(tuple(tf.Tensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每一层一个)。
在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。
TFDPRContextEncoder 的前向方法,覆盖了__call__
特殊方法。
尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个函数,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import TFDPRContextEncoder, DPRContextEncoderTokenizer >>> tokenizer = DPRContextEncoderTokenizer.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base") >>> model = TFDPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base", from_pt=True) >>> input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="tf")["input_ids"] >>> embeddings = model(input_ids).pooler_output
TFDPRQuestionEncoder
class transformers.TFDPRQuestionEncoder
( config: DPRConfig *args **kwargs )
参数
config
(DPRConfig) - 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 DPRQuestionEncoder 变压器输出池化器输出作为问题表示。
此模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存,调整输入嵌入,修剪头等)。
此模型还是一个 Tensorflow tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档,了解与一般用法和行为相关的所有事项。
transformers
中的 TensorFlow 模型和层接受两种格式的输入:
- 将所有输入作为关键字参数(类似于 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
第二种格式得到支持的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于这种支持,在使用诸如model.fit()
之类的方法时,对您来说应该“只需工作” - 只需以model.fit()
支持的任何格式传递您的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 Keras Functional
API 创建自己的层或模型时,有三种可能性可以用来收集所有输入张量在第一个位置参数中:
- 一个仅包含
input_ids
的单个张量,没有其他内容:model(input_ids)
- 一个长度不定的列表,其中包含一个或多个按照文档字符串中给定的顺序的输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call
( input_ids: TFModelInputType | None = None attention_mask: tf.Tensor | None = None token_type_ids: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → export const metadata = 'undefined';transformers.models.dpr.modeling_tf_dpr.TFDPRQuestionEncoderOutput or tuple(tf.Tensor)
参数
input_ids
(形状为(batch_size, sequence_length)
的Numpy 数组
或tf.Tensor
) - 词汇表中输入序列标记的索引。为了匹配预训练,DPR 输入序列应按照以下格式进行格式化,包括[CLS]和[SEP]标记:
(a)对于序列对(例如一对标题+文本):
返回
transformers.models.dpr.modeling_tf_dpr.TFDPRQuestionEncoderOutput
或tuple(tf.Tensor)
transformers.models.dpr.modeling_tf_dpr.TFDPRQuestionEncoderOutput
或tf.Tensor
元组(如果传递了return_dict=False
或config.return_dict=False
时)包含各种元素,具体取决于配置(DPRConfig)和输入。
pooler_output
(形状为(batch_size, embeddings_size)
的tf.Tensor
) - DPR 编码器输出pooler_output对应于问题表示。序列的第一个标记(分类标记)的最后一层隐藏状态,进一步由线性层处理。此输出用于嵌入问题以进行具有上下文嵌入的最近邻查询。hidden_states
(tuple(tf.Tensor)
, optional, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出处的隐藏状态加上初始嵌入输出。attentions
(tuple(tf.Tensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每个层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFDPRQuestionEncoder 的前向方法,覆盖__call__
特殊方法。
尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者会负责运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import TFDPRQuestionEncoder, DPRQuestionEncoderTokenizer >>> tokenizer = DPRQuestionEncoderTokenizer.from_pretrained("facebook/dpr-question_encoder-single-nq-base") >>> model = TFDPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base", from_pt=True) >>> input_ids = tokenizer("Hello, is my dog cute ?", return_tensors="tf")["input_ids"] >>> embeddings = model(input_ids).pooler_output
TFDPRReader
class transformers.TFDPRReader
( config: DPRConfig *args **kwargs )
参数
config
(DPRConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 DPRReader 变压器输出跨度预测。
此模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型还是一个 Tensorflow tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有信息。
transformers
中的 TensorFlow 模型和层接受两种格式的输入:
- 将所有输入作为关键字参数(类似于 PyTorch 模型),或
- 将所有输入作为列表、元组或字典的第一个位置参数。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有此支持,当使用model.fit()
等方法时,应该“只需工作” - 只需以model.fit()
支持的任何格式传递输入和标签!但是,如果要在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctional
API 创建自己的层或模型时,有三种可能性可用于收集所有输入张量在第一个位置参数中:
- 仅包含
input_ids
的单个张量,没有其他内容:model(input_ids)
- 一个长度可变的列表,其中包含按照文档字符串中给定的顺序的一个或多个输入张量:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一个字典,其中包含一个或多个与文档字符串中给定的输入名称相关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call
( input_ids: TFModelInputType | None = None attention_mask: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → export const metadata = 'undefined';transformers.models.dpr.modeling_tf_dpr.TFDPRReaderOutput or tuple(tf.Tensor)
参数
input_ids
(形状为(n_passages, sequence_length)
的Numpy
数组或tf.Tensor
)- 词汇表中输入序列标记的索引。它必须是一个序列三元组,包括 1)问题、2)段落标题和 3)段落文本。为了匹配预训练,DPRinput_ids
序列应该使用[CLS]和[SEP]格式化:[CLS] <问题标记 id> [SEP] <标题 id> [SEP] <文本 id>
DPR 是一个带有绝对位置嵌入的模型,因此通常建议在右侧而不是左侧填充输入。
可以使用 DPRReaderTokenizer 获取索引。有关更多详细信息,请参阅此类文档。attention_mask
(形状为(n_passages, sequence_length)
的Numpy
数组或tf.Tensor
,可选)- 避免在填充标记索引上执行注意力的掩码。选择的掩码值在[0, 1]
中:
- 对于未被
masked
的标记为 1, - 对于被
masked
的标记为 0。
- 什么是注意力掩码?
inputs_embeds
(形状为(n_passages, sequence_length, hidden_size)
的Numpy
数组或tf.Tensor
,可选)- 可选地,您可以直接传递嵌入表示,而不是传递input_ids
。如果您想要更多控制如何将input_ids
索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。output_hidden_states
(bool
,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数仅在急切模式下使用,在图模式下将使用配置中的值。return_dict
(bool
,可选)- 是否返回 ModelOutput 而不是普通元组。此参数可以在急切模式下使用,在图模式下该值将始终设置为 True。training
(bool
,可选,默认为False
)- 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。
返回
transformers.models.dpr.modeling_tf_dpr.TFDPRReaderOutput
或tuple(tf.Tensor)
一个transformers.models.dpr.modeling_tf_dpr.TFDPRReaderOutput
或一组tf.Tensor
(如果传递return_dict=False
或config.return_dict=False
)包括根据配置(DPRConfig)和输入的不同元素。
start_logits
(形状为(n_passages, sequence_length)
的tf.Tensor
)- 每个段落跨度的开始索引的 logits。end_logits
(形状为(n_passages, sequence_length)
的tf.Tensor
)- 每个段落跨度的结束索引的 logits。relevance_logits
(形状为(n_passages, )
的tf.Tensor
)- DPRReader 的 QA 分类器的输出,对应于每个段落回答问题的分数,与所有其他段落进行比较。hidden_states
(tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回)- 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于嵌入的输出,一个用于每一层的输出)。
模型在每一层输出的隐藏状态加上初始嵌入输出。attentions
(tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
或config.output_attentions=True
时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
TFDPRReader 的前向方法覆盖了__call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module
实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则会默默地忽略它们。
示例:
>>> from transformers import TFDPRReader, DPRReaderTokenizer >>> tokenizer = DPRReaderTokenizer.from_pretrained("facebook/dpr-reader-single-nq-base") >>> model = TFDPRReader.from_pretrained("facebook/dpr-reader-single-nq-base", from_pt=True) >>> encoded_inputs = tokenizer( ... questions=["What is love ?"], ... titles=["Haddaway"], ... texts=["'What Is Love' is a song recorded by the artist Haddaway"], ... return_tensors="tf", ... ) >>> outputs = model(encoded_inputs) >>> start_logits = outputs.start_logits >>> end_logits = outputs.end_logits >>> relevance_logits = outputs.relevance_logits
ELECTRA
原文链接:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/electra
概述
ELECTRA 模型是在论文ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators中提出的。ELECTRA 是一种新的预训练方法,训练两个 transformer 模型:生成器和鉴别器。生成器的作用是替换序列中的标记,因此被训练为掩码语言模型。我们感兴趣的鉴别器试图识别生成器在序列中替换的标记。
该论文的摘要如下:
掩码语言建模(MLM)预训练方法,如 BERT,通过用[MASK]替换一些标记来破坏输入,然后训练模型以重建原始标记。虽然它们在转移到下游 NLP 任务时产生良好的结果,但通常需要大量计算才能有效。作为替代方案,我们提出了一种更节约样本的预训练任务,称为替换标记检测。我们的方法不是掩盖输入,而是通过用从小型生成器网络中采样的可信替代品替换一些标记来破坏输入。然后,我们训练一个鉴别模型,该模型预测破坏输入中的每个标记是否被生成器样本替换。通过彻底的实验,我们证明这个新的预训练任务比 MLM 更有效,因为任务定义在所有输入标记上,而不仅仅是被掩盖的小子集。因此,我们的方法学习到的上下文表示大大优于在相同模型大小、数据和计算条件下学习到的 BERT。对于小模型,收益尤为明显;例如,我们在一个 GPU 上训练了 4 天的模型,在 GLUE 自然语言理解基准测试中胜过了使用 30 倍计算量训练的 GPT。我们的方法在规模上也表现良好,在使用不到他们计算量的情况下,与 RoBERTa 和 XLNet 表现相当,并且在使用相同计算量时胜过它们。
这个模型是由lysandre贡献的。原始代码可以在这里找到。
使用提示
- ELECTRA 是预训练方法,因此对基础模型 BERT 几乎没有进行任何更改。唯一的变化是嵌入大小和隐藏大小的分离:嵌入大小通常较小,而隐藏大小较大。使用额外的投影层(线性)将嵌入从其嵌入大小投影到隐藏大小。在嵌入大小与隐藏大小相同时,不使用投影层。
- ELECTRA 是一个使用另一个(较小)掩码语言模型预训练的 transformer 模型。输入文本被该语言模型损坏,该语言模型接受一个随机掩码的输入文本,并输出一个文本,其中 ELECTRA 必须预测哪个标记是原始的,哪个被替换了。就像 GAN 训练一样,小语言模型经过几步训练(但目标是原始文本,而不是像传统 GAN 设置中那样愚弄 ELECTRA 模型),然后 ELECTRA 模型经过几步训练。
- 使用Google Research 的实现保存的 ELECTRA 检查点包含生成器和鉴别器。转换脚本要求用户命名要导出的模型以正确的架构。一旦转换为 HuggingFace 格式,这些检查点可以加载到所有可用的 ELECTRA 模型中。这意味着鉴别器可以加载到 ElectraForMaskedLM 模型中,生成器可以加载到 ElectraForPreTraining 模型中(分类头将被随机初始化,因为在生成器中不存在)。
资源
- 文本分类任务指南
- 令牌分类任务指南
- 问答任务指南
- 因果语言建模任务指南
- 掩码语言建模任务指南
- 多项选择任务指南
ElectraConfig
class transformers.ElectraConfig
( vocab_size = 30522 embedding_size = 128 hidden_size = 256 num_hidden_layers = 12 num_attention_heads = 4 intermediate_size = 1024 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 summary_type = 'first' summary_use_proj = True summary_activation = 'gelu' summary_last_dropout = 0.1 pad_token_id = 0 position_embedding_type = 'absolute' use_cache = True classifier_dropout = None **kwargs )
参数
vocab_size
(int
, 可选, 默认为 30522) — ELECTRA 模型的词汇表大小。定义了在调用 ElectraModel 或 TFElectraModel 时可以表示的不同令牌数量。embedding_size
(int
, 可选, 默认为 128) — 编码器层和池化层的维度。hidden_size
(int
, 可选, 默认为 256) — 编码器层和池化层的维度。num_hidden_layers
(int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, 可选, 默认为 4) — Transformer 编码器中每个注意力层的注意力头数量。intermediate_size
(int
, 可选, 默认为 1024) — Transformer 编码器中“中间”(即前馈)层的维度。hidden_act
(str
或Callable
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
,"relu"
,"silu"
和"gelu_new"
。hidden_dropout_prob
(float
, 可选, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。attention_probs_dropout_prob
(float
, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。max_position_embeddings
(int
, 可选, 默认为 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如 512 或 1024 或 2048)。type_vocab_size
(int
, 可选, 默认为 2) — 在调用 ElectraModel 或 TFElectraModel 时传递的token_type_ids
的词汇表大小。initializer_range
(float
, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。summary_type
(str
, 可选, 默认为"first"
) — 在进行序列摘要时使用的参数。用于序列分类和多项选择模型。必须是以下选项之一:
"last"
: 获取最后一个令牌的隐藏状态(类似于 XLNet)。"first"
: 获取第一个标记的隐藏状态(类似于 BERT)。"mean"
: 获取所有标记的隐藏状态的平均值。"cls_index"
: 提供一个分类标记位置的张量(类似于 GPT/GPT-2)。"attn"
: 现在未实现,使用多头注意力。
summary_use_proj
(bool
, optional, defaults toTrue
) — 在进行序列摘要时使用的参数。用于序列分类和多选模型。
是否在向量提取后添加投影。summary_activation
(str
, optional) — 在进行序列摘要时使用的参数。用于序列分类和多选模型。
将"gelu"
传递给输出以获得 gelu 激活,任何其他值将导致无激活。summary_last_dropout
(float
, optional, defaults to 0.0) — 在进行序列摘要时使用的参数。用于序列分类和多选模型。
在投影和激活之后使用的丢失比率。position_embedding_type
(str
, optional, defaults to"absolute"
) — 位置嵌入的类型。选择"absolute"
、"relative_key"
、"relative_key_query"
中的一个。对于位置嵌入,请使用"absolute"
。有关"relative_key"
的更多信息,请参考Self-Attention with Relative Position Representations (Shaw et al.)。有关"relative_key_query"
的更多信息,请参考Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的 Method 4。use_cache
(bool
, optional, defaults toTrue
) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在config.is_decoder=True
时相关。classifier_dropout
(float
, optional) — 分类头的丢失比率。
这是用于存储 ElectraModel 或 TFElectraModel 配置的配置类。它用于根据指定的参数实例化 ELECTRA 模型,定义模型架构。使用默认值实例化配置将产生类似于ELECTRA google/electra-small-discriminator架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import ElectraConfig, ElectraModel >>> # Initializing a ELECTRA electra-base-uncased style configuration >>> configuration = ElectraConfig() >>> # Initializing a model (with random weights) from the electra-base-uncased style configuration >>> model = ElectraModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
Transformers 4.37 中文文档(三十)(3)https://developer.aliyun.com/article/1564674