Transformers 4.37 中文文档(二十八)(2)https://developer.aliyun.com/article/1563596
DeBERTa
原文:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/deberta
概述
DeBERTa 模型是由何鹏程、刘晓东、高建峰、陈伟柱在DeBERTa: 具有解耦注意力的解码增强 BERT中提出的,基于 2018 年发布的 Google 的 BERT 模型和 2019 年发布的 Facebook 的 RoBERTa 模型。
它在 RoBERTa 的基础上使用解耦注意力和增强的掩码解码器训练,使用 RoBERTa 一半的数据。
论文摘要如下:
最近,在预训练神经语言模型方面取得了显著进展,大大提高了许多自然语言处理(NLP)任务的性能。在本文中,我们提出了一种新的模型架构 DeBERTa(具有解耦注意力的解码增强 BERT),利用两种新技术改进了 BERT 和 RoBERTa 模型。第一种是解耦注意力机制,其中每个单词使用两个向量表示,分别编码其内容和位置,单词之间的注意力权重是通过解耦矩阵在它们的内容和相对位置上计算的。其次,使用增强的掩码解码器来替换输出 softmax 层,以预测模型预训练的掩码标记。我们展示了这两种技术显著提高了模型预训练的效率和下游任务的性能。与 RoBERTa-Large 相比,DeBERTa 模型在一半训练数据上训练,对各种 NLP 任务表现出更好的一致性,MNLI 提高了+0.9%(90.2% vs. 91.1%),SQuAD v2.0 提高了+2.3%(88.4% vs. 90.7%),RACE 提高了+3.6%(83.2% vs. 86.8%)。DeBERTa 的代码和预训练模型将在github.com/microsoft/DeBERTa
上公开提供。
这个模型是由DeBERTa贡献的。这个模型 TF 2.0 实现是由kamalkraj贡献的。原始代码可以在这里找到。
资源
列出了官方 Hugging Face 和社区(由🌎表示)资源的清单,以帮助您开始使用 DeBERTa。如果您有兴趣提交资源以包含在此处,请随时打开一个 Pull Request,我们将进行审查!资源最好展示一些新内容,而不是重复现有资源。
文本分类
- 一篇关于如何使用 DeepSpeed 加速大型模型训练的博客文章,使用 DeBERTa。
- 一篇关于如何使用机器学习提升客户服务的博客文章,使用 DeBERTa。
- DebertaForSequenceClassification 由这个示例脚本和笔记本支持。
- TFDebertaForSequenceClassification 由这个示例脚本和笔记本支持。
- 文本分类任务指南
标记分类
- DebertaForTokenClassification 可以通过这个 示例脚本 和 笔记本 支持。
- TFDebertaForTokenClassification 可以通过这个 示例脚本 和 笔记本 支持。
- 🤗 Hugging Face 课程的 Token classification 章节。
- Byte-Pair Encoding tokenization 章节。
- Token classification 任务指南
填充-遮蔽
- DebertaForMaskedLM 可以通过这个 示例脚本 和 笔记本 支持。
- TFDebertaForMaskedLM 可以通过这个 示例脚本 和 笔记本 支持。
- 🤗 Hugging Face 课程的 Masked language modeling 章节。
- 遮蔽语言建模任务指南
问答
- DebertaForQuestionAnswering 可以通过这个 示例脚本 和 笔记本 支持。
- TFDebertaForQuestionAnswering 可以通过这个 示例脚本 和 笔记本 支持。
- 🤗 Hugging Face 课程的 问答 章节。
- 问答任务指南
DebertaConfig
class transformers.DebertaConfig
( vocab_size = 50265 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 0 initializer_range = 0.02 layer_norm_eps = 1e-07 relative_attention = False max_relative_positions = -1 pad_token_id = 0 position_biased_input = True pos_att_type = None pooler_dropout = 0 pooler_hidden_act = 'gelu' **kwargs )
参数
vocab_size
(int
, 可选, 默认为 30522) — DeBERTa 模型的词汇表大小。定义了在调用 DebertaModel 或 TFDebertaModel 时可以表示的不同 token 数量。hidden_size
(int
, 可选, 默认为 768) — 编码器层和池化层的维度。num_hidden_layers
(int
, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。num_attention_heads
(int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。intermediate_size
(int
, optional, defaults to 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。hidden_act
(str
orCallable
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"
、"relu"
、"silu"
、"gelu"
、"tanh"
、"gelu_fast"
、"mish"
、"linear"
、"sigmoid"
和"gelu_new"
。hidden_dropout_prob
(float
, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。attention_probs_dropout_prob
(float
, optional, defaults to 0.1) — 注意力概率的 dropout 比率。max_position_embeddings
(int
, optional, defaults to 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。type_vocab_size
(int
, optional, defaults to 2) — 在调用 DebertaModel 或 TFDebertaModel 时传递的token_type_ids
的词汇表大小。initializer_range
(float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。layer_norm_eps
(float
, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。relative_attention
(bool
, optional, defaults toFalse
) — 是否使用相对位置编码。max_relative_positions
(int
, optional, defaults to 1) — 相对位置范围[-max_position_embeddings, max_position_embeddings]
。使用与max_position_embeddings
相同的值。pad_token_id
(int
, optional, defaults to 0) — 用于填充 input_ids 的值。position_biased_input
(bool
, optional, defaults toTrue
) — 是否将绝对位置嵌入添加到内容嵌入中。pos_att_type
(List[str]
, optional) — 相对位置注意力的类型,可以是["p2c", "c2p"]
的组合,例如["p2c"]
、["p2c", "c2p"]
。layer_norm_eps
(float
, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。
这是用于存储 DebertaModel 或 TFDebertaModel 配置的配置类。它用于根据指定的参数实例化一个 DeBERTa 模型,定义模型架构。使用默认值实例化配置将产生类似于 DeBERTa microsoft/deberta-base架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
示例:
>>> from transformers import DebertaConfig, DebertaModel >>> # Initializing a DeBERTa microsoft/deberta-base style configuration >>> configuration = DebertaConfig() >>> # Initializing a model (with random weights) from the microsoft/deberta-base style configuration >>> model = DebertaModel(configuration) >>> # Accessing the model configuration >>> configuration = model.config
DebertaTokenizer
class transformers.DebertaTokenizer
( vocab_file merges_file errors = 'replace' bos_token = '[CLS]' eos_token = '[SEP]' sep_token = '[SEP]' cls_token = '[CLS]' unk_token = '[UNK]' pad_token = '[PAD]' mask_token = '[MASK]' add_prefix_space = False add_bos_token = False **kwargs )
参数
vocab_file
(str
) — 词汇表文件的路径。merges_file
(str
) — 合并文件的路径。errors
(str
, optional, defaults to"replace"
) — 解码字节为 UTF-8 时要遵循的范例。有关更多信息,请参阅bytes.decode。bos_token
(str
, optional, defaults to"[CLS]"
) — 序列开始标记。eos_token
(str
, optional, defaults to"[SEP]"
) — 序列结束标记。sep_token
(str
, 可选, 默认为"[SEP]"
) — 用于从多个序列构建序列时使用的分隔符标记,例如用于序列分类的两个序列或用于文本和问题的问题回答。它也用作使用特殊标记构建的序列的最后一个标记。cls_token
(str
, 可选, 默认为"[CLS]"
) — 用于序列分类时使用的分类器标记(对整个序列进行分类,而不是对每个标记进行分类)。当使用特殊标记构建序列时,它是序列的第一个标记。unk_token
(str
, 可选, 默认为"[UNK]"
) — 未知标记。词汇表中没有的标记无法转换为 ID,而是设置为此标记。pad_token
(str
, 可选, 默认为"[PAD]"
) — 用于填充的标记,例如在批处理不同长度的序列时使用。mask_token
(str
, 可选, 默认为"[MASK]"
) — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。add_prefix_space
(bool
, 可选, 默认为False
) — 是否在输入前添加一个初始空格。这允许将前导单词视为任何其他单词。(Deberta 分词器通过前面的空格检测单词的开头)。add_bos_token
(bool
,optional,默认为False
)–是否向输入中添加首字母<|endoftext|>。这样就可以像对待其他单词一样对待前导词。
构建一个 DeBERTa 分词器。基于字节级字节对编码。
这个分词器已经训练过,将空格视为标记的一部分(有点像 sentencepiece),所以一个单词会
在句子开头(无空格)或不在句子开头时,将被编码为不同的方式:
>>> from transformers import DebertaTokenizer >>> tokenizer = DebertaTokenizer.from_pretrained("microsoft/deberta-base") >>> tokenizer("Hello world")["input_ids"] [1, 31414, 232, 2] >>> tokenizer(" Hello world")["input_ids"] [1, 20920, 232, 2]
您可以通过在实例化此分词器时或在对某些文本调用它时传递 add_prefix_space=True
来避免这种行为,但由于模型不是以这种方式进行预训练的,可能会导致性能下降。
当与 is_split_into_words=True
一起使用时,此分词器将在每个单词之前添加一个空格(甚至第一个单词)。
这个分词器继承自 PreTrainedTokenizer,其中包含大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
函数
( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]
参数
token_ids_0
(List[int]
) — 将添加特殊标记的 ID 列表。token_ids_1
(List[int]
, 可选) — 第二个序列的 ID 列表(可选)。
返回
List[int]
带有适当特殊标记的 input IDs 列表。
通过连接和添加特殊标记从序列或序列对构建用于序列分类任务的模型输入。DeBERTa 序列的格式如下:
- 单个序列:[CLS] X [SEP]
- 序列对:[CLS] A [SEP] B [SEP]
get_special_tokens_mask
函数
( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';List[int]
参数
token_ids_0
(List[int]
) — ID 列表。token_ids_1
(List[int]
, 可选) — 第二个序列对的 ID 列表(可选)。already_has_special_tokens
(bool
, 可选, 默认为False
) — 标记列表是否已经格式化为模型的特殊标记。
返回
List[int]
一个整数列表,范围为[0, 1]:1 表示特殊标记,0 表示序列标记。
从没有添加特殊标记的标记列表中检索序列 ID。当使用分词器的 prepare_for_model
或 encode_plus
方法添加特殊标记时,将调用此方法。
create_token_type_ids_from_sequences
函数
( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]
参数
token_ids_0
(List[int]
) — ID 列表。token_ids_1
(List[int]
, optional) — 序列对的可选第二个 ID 列表。
返回
List[int]
根据给定序列的 token 类型 ID 列表。
从传递的两个序列创建一个用于序列对分类任务的掩码。DeBERTa
序列对掩码的格式如下:
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 | first sequence | second sequence |
如果 token_ids_1
为 None
,则此方法仅返回掩码的第一部分(0)。
save_vocabulary
( save_directory: str filename_prefix: Optional = None )
DebertaTokenizerFast
class transformers.DebertaTokenizerFast
( vocab_file = None merges_file = None tokenizer_file = None errors = 'replace' bos_token = '[CLS]' eos_token = '[SEP]' sep_token = '[SEP]' cls_token = '[CLS]' unk_token = '[UNK]' pad_token = '[PAD]' mask_token = '[MASK]' add_prefix_space = False **kwargs )
参数
vocab_file
(str
, optional) — 词汇文件的路径。merges_file
(str
, optional) — 合并文件的路径。tokenizer_file
(str
, optional) — 要使用的分词器文件的路径,而不是词汇文件。errors
(str
, optional, defaults to"replace"
) — 解码字节为 UTF-8 时要遵循的范例。有关更多信息,请参阅 bytes.decode。bos_token
(str
, optional, defaults to"[CLS]"
) — 序列开始标记。eos_token
(str
, optional, defaults to"[SEP]"
) — 序列结束标记。sep_token
(str
, optional, defaults to"[SEP]"
) — 分隔符标记,在从多个序列构建序列时使用,例如用于序列分类的两个序列或用于文本和问题的问题回答。它还用作使用特殊标记构建的序列的最后一个标记。cls_token
(str
, optional, defaults to"[CLS]"
) — 分类器标记,用于进行序列分类(对整个序列进行分类,而不是每个标记进行分类)。在使用特殊标记构建时,它是序列的第一个标记。unk_token
(str
, optional, defaults to"[UNK]"
) — 未知标记。词汇表中不存在的标记无法转换为 ID,而是设置为此标记。pad_token
(str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在批处理不同长度的序列时使用。mask_token
(str
, optional, defaults to"[MASK]"
) — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。add_prefix_space
(bool
, optional, defaults toFalse
) — 是否将初始空格添加到输入。这允许将前导单词视为任何其他单词。(Deberta 分词器通过前面的空格检测单词的开头)。
构建一个“快速” DeBERTa 分词器(由 HuggingFace 的 tokenizers 库支持)。基于字节级字节对编码。
此分词器经过训练,将空格视为标记的一部分(有点像 sentencepiece),因此一个单词将
在句子开头(无空格)或不在句子开头时,将被编码为不同的方式:
>>> from transformers import DebertaTokenizerFast >>> tokenizer = DebertaTokenizerFast.from_pretrained("microsoft/deberta-base") >>> tokenizer("Hello world")["input_ids"] [1, 31414, 232, 2] >>> tokenizer(" Hello world")["input_ids"] [1, 20920, 232, 2]
您可以通过在实例化此分词器时传递 add_prefix_space=True
来避免该行为,但由于模型不是以这种方式进行预训练的,因此可能会导致性能下降。
当与 is_split_into_words=True
一起使用时,需要使用 add_prefix_space=True
实例化此分词器。
此分词器继承自 PreTrainedTokenizerFast,其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]
参数
token_ids_0
(List[int]
) — 要添加特殊标记的 ID 列表。token_ids_1
(List[int]
, optional) — 可选的第二个序列对应的 ID 列表。
返回
List[int]
具有适当特殊标记的 input IDs 列表。
通过连接和添加特殊标记,从序列或序列对构建模型输入,用于序列分类任务。DeBERTa 序列的格式如下:
- 单个序列:[CLS] X [SEP]
- 序列对:[CLS] A [SEP] B [SEP]
create_token_type_ids_from_sequences
( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]
参数
token_ids_0
(List[int]
) — ID 列表。token_ids_1
(List[int]
, optional) — 可选的第二个序列对应的 ID 列表。
返回
List[int]
根据给定序列的 token type IDs 列表。
从传递的两个序列创建一个用于序列对分类任务的掩码。一个 DeBERTa
序列对掩码的格式如下:
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 | first sequence | second sequence |
如果token_ids_1
为None
,此方法只返回掩码的第一部分(0s)。
PytorchHide Pytorch 内容
DebertaModel
class transformers.DebertaModel
( config )
参数
config
(DebertaConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。
裸的 DeBERTa 模型变压器,输出原始隐藏状态,没有特定的头部。DeBERTa 模型是由 Pengcheng He,Xiaodong Liu,Jianfeng Gao,Weizhu Chen 在DeBERTa: Decoding-enhanced BERT with Disentangled Attention中提出的,它建立在 BERT/RoBERTa 之上,具有两个改进,即解耦的注意力和增强的掩码解码器。通过这两个改进,它在 80GB 的预训练数据上胜过 BERT/RoBERTa 的大多数任务。
此模型也是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有信息。
forward
( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutput or tuple(torch.FloatTensor)
参数
input_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是 input IDs?attention_mask
(torch.FloatTensor
,形状为(batch_size, sequence_length)
,optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]
之间:
- 1 表示
未被掩码
的标记, - 0 表示
被掩码
的标记。
- 什么是注意力掩码?
token_type_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
,optional) — 段标记索引,指示输入的第一部分和第二部分。索引在[0, 1]
中选择:
- 0 对应于句子 A标记,
- 1 对应于句子 B标记。
- 什么是 token type IDs?
position_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
,可选的) — 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]
中选择。
什么是位置 ID?inputs_embeds
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选的) — 可选地,您可以直接传递一个嵌入表示,而不是传递input_ids
。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。output_attentions
(bool
, 可选的) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
, 可选的) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
, 可选的) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.BaseModelOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutput 或一个torch.FloatTensor
元组(如果传递return_dict=False
或当config.return_dict=False
时)包含各种元素,取决于配置(DebertaConfig)和输入。
last_hidden_state
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的隐藏状态的序列。hidden_states
(tuple(torch.FloatTensor)
, 可选的,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型有嵌入层,则为嵌入的输出+每一层的输出)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。attentions
(tuple(torch.FloatTensor)
,可选的,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。
在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。
DebertaModel 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在这个函数内定义,但应该在此之后调用Module
实例,而不是在此之后调用,因为前者负责运行前处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, DebertaModel >>> import torch >>> tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-base") >>> model = DebertaModel.from_pretrained("microsoft/deberta-base") >>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt") >>> outputs = model(**inputs) >>> last_hidden_states = outputs.last_hidden_state
DebertaPreTrainedModel
class transformers.DebertaPreTrainedModel
( config: PretrainedConfig *inputs **kwargs )
一个处理权重初始化和下载和加载预训练模型的简单接口的抽象类。
DebertaForMaskedLM
class transformers.DebertaForMaskedLM
( config )
参数
config
(DebertaConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。
在顶部带有语言建模
头的 DeBERTa 模型。DeBERTa 模型由何鹏程、刘晓东、高建峰、陈伟铸在DeBERTa: Decoding-enhanced BERT with Disentangled Attention中提出。它在 BERT/RoBERTa 的基础上进行了两项改进,即解耦注意力和增强掩码解码器。通过这两项改进,它在 80GB 预训练数据上优于 BERT/RoBERTa 的大多数任务。
此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward
( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)
参数
input_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
)— 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call
()。
什么是输入 ID?attention_mask
(torch.FloatTensor
,形状为(batch_size, sequence_length)
,可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]
:
- 1 代表
not masked
的标记。 - 0 代表
masked
的标记。
- 什么是注意力掩码?
token_type_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
,可选)— 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]
:
- 0 对应于句子 A标记,
- 1 对应于句子 B标记。
- 什么是标记类型 ID?
position_ids
(torch.LongTensor
,形状为(batch_size, sequence_length)
,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]
。
什么是位置 ID?inputs_embeds
(torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想要更多控制如何将input_ids索引转换为关联向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。output_attentions
(bool
,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。output_hidden_states
(bool
,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。return_dict
(bool
,可选)— 是否返回 ModelOutput 而不是普通元组。labels
(torch.LongTensor
of shape(batch_size, sequence_length)
, 可选的) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
内(参见input_ids
文档字符串)。索引设置为-100
的标记将被忽略(掩码),损失仅计算具有标签在[0, ..., config.vocab_size]
中的标记。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MaskedLMOutput 或一个torch.FloatTensor
元组(如果传递return_dict=False
或当config.return_dict=False
时)包含各种元素,取决于配置(DebertaConfig)和输入。
loss
(torch.FloatTensor
of shape(1,)
, 可选的,当提供labels
时返回) — 掩码语言建模(MLM)损失。logits
(torch.FloatTensor
of shape(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。hidden_states
(tuple(torch.FloatTensor)
, 可选的,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(如果模型具有嵌入层,则为嵌入输出的输出+每层的输出)。
模型在每一层输出的隐藏状态加上可选的初始嵌入输出。attentions
(tuple(torch.FloatTensor)
, 可选的,当传递output_attentions=True
或当config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
DebertaForMaskedLM 的前向方法,覆盖了__call__
特殊方法。
虽然前向传递的步骤需要在这个函数内定义,但应该在此之后调用Module
实例,而不是在此之后调用,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, DebertaForMaskedLM >>> import torch >>> tokenizer = AutoTokenizer.from_pretrained("lsanochkin/deberta-large-feedback") >>> model = DebertaForMaskedLM.from_pretrained("lsanochkin/deberta-large-feedback") >>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt") >>> with torch.no_grad(): ... logits = model(**inputs).logits >>> # retrieve index of [MASK] >>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0] >>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1) >>> tokenizer.decode(predicted_token_id) ' Paris' >>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"] >>> # mask labels of non-[MASK] tokens >>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100) >>> outputs = model(**inputs, labels=labels) >>> round(outputs.loss.item(), 2) 0.54
Transformers 4.37 中文文档(二十八)(4)https://developer.aliyun.com/article/1563598