Transformers 4.37 中文文档（四十六）（1）-阿里云开发者社区

原文：huggingface.co/docs/transformers

MPNet

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/mpnet

概述

MPNet 模型由 Kaitao Song，Xu Tan，Tao Qin，Jianfeng Lu，Tie-Yan Liu 在MPNet: Masked and Permuted Pre-training for Language Understanding中提出。

MPNet 采用一种新颖的预训练方法，称为掩码和置换语言建模，以继承掩码语言建模和置换语言建模在自然语言理解方面的优势。

该论文的摘要如下：

BERT 采用了掩码语言建模（MLM）进行预训练，是最成功的预训练模型之一。由于 BERT 忽略了预测标记之间的依赖关系，XLNet 引入了置换语言建模（PLM）进行预训练以解决这个问题。然而，XLNet 没有利用句子的完整位置信息，因此在预训练和微调之间存在位置差异。在本文中，我们提出了 MPNet，一种新颖的预训练方法，继承了 BERT 和 XLNet 的优势，并避免了它们的局限性。MPNet 通过置换语言建模（与 BERT 中的 MLM 相比）利用了预测标记之间的依赖关系，并将辅助位置信息作为输入，使模型看到完整的句子，从而减少位置差异（与 XLNet 中的 PLM 相比）。我们在大规模数据集（超过 160GB 文本语料库）上对 MPNet 进行预训练，并在各种下游任务（GLUE，SQuAD 等）上进行微调。实验结果表明，MPNet 在这些任务上的表现远远优于 MLM 和 PLM，并在相同的模型设置下与先前最先进的预训练方法（例如 BERT，XLNet，RoBERTa）相比取得了更好的结果。

原始代码可以在这里找到。

使用提示

MPNet 没有token_type_ids，您不需要指示哪个标记属于哪个段落。只需用分隔标记tokenizer.sep_token（或[sep]）分隔您的段落。

资源

文本分类任务指南
标记分类任务指南
问答任务指南
掩码语言建模任务指南
多项选择任务指南

MPNetConfig

`class transformers.MPNetConfig`

<来源>

( vocab_size = 30527 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 initializer_range = 0.02 layer_norm_eps = 1e-12 relative_attention_num_buckets = 32 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 **kwargs )

参数

vocab_size（int，可选，默认为 30527）— MPNet 模型的词汇表大小。定义了在调用 MPNetModel 或 TFMPNetModel 时可以表示的不同标记的数量。
hidden_size（int，可选，默认为 768）— 编码器层和池化层的维度。
num_hidden_layers（int，可选，默认为 12）— Transformer 编码器中的隐藏层数。
num_attention_heads（int，可选，默认为 12）— Transformer 编码器中每个注意力层的注意力头数。
intermediate_size（int，可选，默认为 3072）— Transformer 编码器中“中间”（通常称为前馈）层的维度。
hidden_act（str或Callable，可选，默认为"gelu"）— 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持"gelu"，"relu"，"silu"和"gelu_new"。
hidden_dropout_prob（float，可选，默认为 0.1）— 嵌入层、编码器和池化器中所有全连接层的丢弃概率。
attention_probs_dropout_prob (float, optional, 默认为 0.1) — 注意力概率的丢失比率。
max_position_embeddings (int, optional, 默认为 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一（例如，512 或 1024 或 2048）。
initializer_range (float, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, 默认为 1e-12) — 层归一化层使用的 epsilon。
relative_attention_num_buckets (int, optional, 默认为 32) — 每个注意力层使用的桶数。

这是用于存储 MPNetModel 或 TFMPNetModel 配置的配置类。根据指定的参数实例化 MPNet 模型，定义模型架构。使用默认值实例化配置将产生类似于 MPNet microsoft/mpnet-base 架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

示例：

>>> from transformers import MPNetModel, MPNetConfig
>>> # Initializing a MPNet mpnet-base style configuration
>>> configuration = MPNetConfig()
>>> # Initializing a model from the mpnet-base style configuration
>>> model = MPNetModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

MPNetTokenizer

`class transformers.MPNetTokenizer`

<来源>

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '[UNK]' pad_token = '<pad>' mask_token = '<mask>' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

vocab_file (str) — 词汇文件的路径。
do_lower_case (bool, optional, 默认为 True) — 在标记化时是否将输入转换为小写。
do_basic_tokenize (bool, optional, 默认为 True) — 是否在 WordPiece 之前进行基本标记化。
never_split (Iterable, optional) — 在标记化期间永远不会拆分的标记集合。仅在 do_basic_tokenize=True 时有效。
bos_token (str, optional, 默认为 "") — 在预训练期间使用的序列开始标记。可用作序列分类器标记。
构建序列时使用特殊标记时，这不是用于序列开头的标记。使用的标记是 cls_token。
eos_token (str, optional, 默认为 "") — 序列结束标记。
构建序列时使用特殊标记时，这不是用于序列结尾的标记。使用的标记是 sep_token。
sep_token (str, optional, 默认为 "") — 分隔符标记，在从多个序列构建序列时使用，例如用于序列分类的两个序列或用于文本和问题的问题回答。它也用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, optional, 默认为 "") — 在进行序列分类（对整个序列而不是每个标记进行分类）时使用的分类器标记。在使用特殊标记构建序列时，它是序列的第一个标记。
unk_token (str, optional, 默认为 "[UNK]") — 未知标记。词汇表中不存在的标记无法转换为 ID，而是设置为此标记。
pad_token (str, optional, 默认为 "") — 用于填充的标记，例如在批处理不同长度的序列时使用。
mask_token (str, optional, 默认为 "") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否标记化中文字符。
这可能应该在日语中停用（请参阅此问题）。
strip_accents (bool, 可选) — 是否去除所有重音符号。如果未指定此选项，则将由 lowercase 的值确定（与原始 BERT 中相同）。

此标记器继承自 BertTokenizer，其中包含大部分方法。用户应参考超类以获取有关方法的更多信息。

`build_inputs_with_special_tokens`

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表
token_ids_1 (List[int], 可选) — 第二个序列对的可选 ID 列表。

List[int]

带有适当特殊标记的输入 ID 列表。

通过连接和添加特殊标记，从序列或序列对构建用于序列分类任务的模型输入。MPNet 序列的格式如下：

单个序列： X
序列对： A B

`get_special_tokens_mask`

<来源>

( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], 可选) — 第二个序列对的可选 ID 列表。
already_has_special_tokens (bool, 可选, 默认为 False) — 如果标记列表已经格式化为模型的特殊标记，则设置为 True

List[int]

一个整数列表，范围为 [0, 1]：1 表示特殊标记，0 表示序列标记。

从没有添加特殊标记的标记列表中检索序列 ID。在使用标记器的 prepare_for_model 方法添加特殊标记时调用此方法。

`create_token_type_ids_from_sequences`

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], 可选) — 第二个序列对的可选 ID 列表。

List[int]

零列表。

从传递的两个序列创建一个用于序列对分类任务的掩码。MPNet 不使用标记类型 ID，因此返回一个零列表。

`save_vocabulary`

<来源>

( save_directory: str filename_prefix: Optional = None )

MPNetTokenizerFast

`class transformers.MPNetTokenizerFast`

<来源>

( vocab_file = None tokenizer_file = None do_lower_case = True bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '[UNK]' pad_token = '<pad>' mask_token = '<mask>' tokenize_chinese_chars = True strip_accents = None **kwargs )

参数

vocab_file (str) — 包含词汇表的文件。
do_lower_case (bool, 可选, 默认为 True) — 在标记化时是否将输入转换为小写。
bos_token (str, 可选, 默认为 "") — 在预训练期间使用的序列开始标记。可用作序列分类器标记。
在使用特殊标记构建序列时，这不是用于序列开始的标记。使用的标记是 cls_token。
eos_token (str, 可选, 默认为 "") — 序列结束标记。
在使用特殊标记构建序列时，这不是用于序列结尾的标记。使用的标记是 sep_token。
sep_token (str, optional, 默认为 "") — 分隔符标记，在构建来自多个序列的序列时使用，例如用于序列分类的两个序列或用于文本和问题的问题回答。它还用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, optional, 默认为 "") — 用于进行序列分类（对整个序列进行分类而不是每个标记分类）时使用的分类器标记。它是使用特殊标记构建的序列的第一个标记。
unk_token (str, optional, 默认为 "[UNK]") — 未知标记。词汇表中没有的标记无法转换为 ID，而是设置为此标记。
pad_token (str, optional, 默认为 "") — 用于填充的标记，例如在批处理不同长度的序列时。
mask_token (str, optional, 默认为 "") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
tokenize_chinese_chars (bool, optional, 默认为 True) — 是否对中文字符进行标记化。这可能应该在日语中停用（请参阅此问题）。
strip_accents (bool, optional) — 是否去除所有重音符号。如果未指定此选项，则将由lowercase的值确定（与原始 BERT 相同）。

构建一个“快速”MPNet 分词器（由 HuggingFace 的tokenizers库支持）。基于 WordPiece。

此分词器继承自 PreTrainedTokenizerFast，其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。

`create_token_type_ids_from_sequences`

<来源>

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 可选的第二个 ID 列表，用于序列对

List[int]

零列表。

从传递的两个序列创建一个用于序列对分类任务的掩码。MPNet 不使用标记类型 ID，因此返回一个零列表

PytorchHide Pytorch 内容

MPNetModel

`class transformers.MPNetModel`

<来源>

( config add_pooling_layer = True )

参数

config (MPNetConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。

裸 MPNet 模型变压器输出原始隐藏状态，没有特定的头部。

此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法（例如下载或保存，调整输入嵌入，修剪头等）。

此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None **kwargs ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）— 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的torch.FloatTensor，可选）— 避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值：

1 表示未被掩盖的标记，
0 表示被掩盖的标记。

什么是注意力掩码？
position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）— 输入序列标记的位置嵌入的位置索引。选择在范围[0, config.max_position_embeddings - 1]中。
什么是位置 ID？
head_mask（形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor，可选）— 用于使自注意力模块的选定头部失效的掩码。选择在[0, 1]中的掩码值：

1 表示头部未被掩盖，
0 表示头部被掩盖。

inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，这将非常有用。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回一个 ModelOutput 而不是一个普通元组。

transformers.modeling_outputs.BaseModelOutputWithPooling 或tuple(torch.FloatTensor)

transformers.modeling_outputs.BaseModelOutputWithPooling 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包含各种元素，取决于配置（MPNetConfig）和输入。

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor）— 模型最后一层的隐藏状态序列。
pooler_output（形状为(batch_size, hidden_size)的torch.FloatTensor）— 经过用于辅助预训练任务的层进一步处理后，序列第一个标记（分类标记）的最后一层隐藏状态。例如，对于 BERT 系列模型，这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层权重是从预训练期间的下一个句子预测（分类）目标中训练的。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

MPNetModel 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的配方需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, MPNetModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/mpnet-base")
>>> model = MPNetModel.from_pretrained("microsoft/mpnet-base")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state

MPNetForMaskedLM

`class transformers.MPNetForMaskedLM`

<来源>

( config )

`forward`

<来源>

( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息，请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID？
attention_mask (torch.FloatTensor，形状为(batch_size, sequence_length)，可选) — 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值在[0, 1]内：

1 表示未被掩码的标记，
0 表示被掩码的标记。

什么是注意力掩码？
position_ids (torch.LongTensor，形状为(batch_size, sequence_length)，可选) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]内选择。
什么是位置 ID？
head_mask (torch.FloatTensor，形状为(num_heads,)或(num_layers, num_heads)，可选) — 用于使自注意力模块的选定头部失效的掩码。选择的掩码值在[0, 1]内：

1 表示头部未被掩码，
0 表示头部被掩码。

inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor，形状为(batch_size, sequence_length)，可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]内（请参见input_ids文档字符串）。索引设置为-100的标记将被忽略（掩码），损失仅计算具有标签在[0, ..., config.vocab_size]内的标记

transformers.modeling_outputs.MaskedLMOutput 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.MaskedLMOutput 或一个torch.FloatTensor元组（如果传递了return_dict=False或当config.return_dict=False时）包含根据配置（MPNetConfig）和输入的各种元素。

loss（形状为(1,)的torch.FloatTensor，可选，当提供labels时返回）— 掩码语言建模（MLM）损失。
logits（形状为(batch_size, sequence_length, config.vocab_size)的torch.FloatTensor）— 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或当config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入的输出+每层的输出）。
模型在每一层输出处的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或当config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

MPNetForMaskedLM 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的方法需要在此函数内定义，但应该在此之后调用Module实例，而不是在此之后调用，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, MPNetForMaskedLM
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("microsoft/mpnet-base")
>>> model = MPNetForMaskedLM.from_pretrained("microsoft/mpnet-base")
>>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt")
>>> with torch.no_grad():
...     logits = model(**inputs).logits
>>> # retrieve index of [MASK]
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]
>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)
>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-[MASK] tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)
>>> outputs = model(**inputs, labels=labels)

Transformers 4.37 中文文档（四十六）（2）https://developer.aliyun.com/article/1565068

Transformers 4.37 中文文档（四十六）（1）

MPNet

概述

使用提示

资源

MPNetConfig

`class transformers.MPNetConfig`

MPNetTokenizer

`class transformers.MPNetTokenizer`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

MPNetTokenizerFast

`class transformers.MPNetTokenizerFast`

`create_token_type_ids_from_sequences`

MPNetModel

`class transformers.MPNetModel`

`forward`

MPNetForMaskedLM

`class transformers.MPNetForMaskedLM`

`forward`

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformers 4.37 中文文档（四十六）（1）

MPNet

概述

使用提示

资源

MPNetConfig

class transformers.MPNetConfig

MPNetTokenizer

class transformers.MPNetTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

MPNetTokenizerFast

class transformers.MPNetTokenizerFast

create_token_type_ids_from_sequences

MPNetModel

class transformers.MPNetModel

forward

MPNetForMaskedLM

class transformers.MPNetForMaskedLM

forward

热门文章

最新文章

相关课程

相关电子书

`class transformers.MPNetConfig`

`class transformers.MPNetTokenizer`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`class transformers.MPNetTokenizerFast`

`create_token_type_ids_from_sequences`

`class transformers.MPNetModel`

`forward`

`class transformers.MPNetForMaskedLM`

`forward`