Transformers 4.37 中文文档（二十二）（1）-阿里云开发者社区

原文：huggingface.co/docs/transformers

BARThez

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/barthez

概述

BARThez 模型是由 Moussa Kamal Eddine、Antoine J.-P. Tixier 和 Michalis Vazirgiannis 于 2020 年 10 月 23 日提出的BARThez: a Skilled Pretrained French Sequence-to-Sequence Model。

论文摘要：

归纳传递学习，通过自监督学习实现，已经席卷了整个自然语言处理（NLP）领域，像 BERT 和 BART 这样的模型在无数自然语言理解任务上取得了新的最先进水平。尽管有一些显著的例外，但大多数可用的模型和研究都是针对英语进行的。在这项工作中，我们介绍了 BARThez，这是法语语言的第一个 BART 模型（据我们所知）。BARThez 在过去研究中从一个非常大的单语法语语料库上进行了预训练，我们对其进行了调整以适应 BART 的扰动方案。与已经存在的基于 BERT 的法语语言模型（如 CamemBERT 和 FlauBERT）不同，BARThez 特别适用于生成任务，因为它的编码器和解码器都经过了预训练。除了 FLUE 基准测试中的判别任务，我们还在一个新的摘要数据集 OrangeSum 上评估 BARThez，我们在本文中发布了这个数据集。我们还继续在 BARThez 的语料库上对已经预训练的多语言 BART 进行预训练，并展示了由此产生的模型，我们称之为 mBARTHez，比普通的 BARThez 提供了显著的提升，并且与 CamemBERT 和 FlauBERT 相媲美或者表现更好。

这个模型是由moussakam贡献的。作者的代码可以在这里找到。

BARThez 的实现与 BART 相同，除了标记化。有关配置类及其参数的信息，请参考 BART 文档。BARThez 特定的标记器如下所述。

资源

BARThez 可以像 BART 一样在序列到序列任务上进行微调，查看：examples/pytorch/summarization/。

BarthezTokenizer

`class transformers.BarthezTokenizer`

< source >

( vocab_file bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' sp_model_kwargs: Optional = None **kwargs )

参数

vocab_file (str) — 包含实例化标记器所需词汇表的SentencePiece文件（通常具有*.spm*扩展名）。
bos_token (str, 可选，默认为"") — 在预训练期间使用的序列开始标记。可以用作序列分类器标记。
在构建使用特殊标记的序列时，这不是用于序列开头的标记。使用的标记是cls_token。
~~eos_token (str, 可选，默认为"~~") — 序列结束标记。
在构建使用特殊标记的序列时，这不是用于序列结尾的标记。使用的标记是sep_token。
sep_token (str, 可选，默认为"") — 分隔符标记，用于从多个序列构建序列，例如用于序列分类的两个序列或用于文本和问题的问题回答。它也用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, 可选，默认为""~~) — 在进行序列分类（对整个序列而不是每个标记进行分类）时使用的分类器标记。当使用特殊标记构建序列时，它是序列的第一个标记。~~
~~unk_token (str, 可选，默认为"") — 未知标记。词汇表中没有的标记无法转换为 ID，而是设置为此标记。~~
~~pad_token (str, optional, 默认为 "") — 用于填充的标记，例如在批处理不同长度的序列时。~~
~~mask_token (str, optional, 默认为 "") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。~~
~~sp_model_kwargs (dict, optional) — 将传递给SentencePieceProcessor.__init__()方法。SentencePiece 的 Python 包装器可用于设置：~~

~~enable_sampling: 启用子词正则化。~~
~~nbest_size: unigram 采样参数。对于 BPE-Dropout 无效。~~

~~nbest_size = {0,1}: 不执行采样。~~
~~nbest_size > 1: 从 nbest_size 结果中进行采样。~~
~~nbest_size < 0: 假设 nbest_size 为无限，并使用前向过滤和后向采样算法从所有假设（格）中进行采样。~~

~~alpha: 用于 unigram 采样的平滑参数，以及 BPE-dropout 的合并操作的丢弃概率。~~

~~sp_model (SentencePieceProcessor) — 用于每次转换（字符串、标记和 ID）的SentencePiece处理器。~~

~~改编自 CamembertTokenizer 和 BartTokenizer。构建一个 BARThez 标记器。基于SentencePiece。~~

~~此标记器继承自 PreTrainedTokenizer，其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。~~

`build_inputs_with_special_tokens`

~~< source >~~

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

~~token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表。~~
~~token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。~~

~~List[int]~~

~~具有适当特殊标记的 input IDs 列表。~~

~~通过连接和添加特殊标记从序列或序列对构建用于序列分类任务的模型输入。BARThez 序列具有以下格式：~~

~~单个序列: X~~
~~一对序列: A~~ B

`convert_tokens_to_string`

< source >

( tokens )

将一系列标记（字符串）转换为单个字符串。

`create_token_type_ids_from_sequences`

< source >

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。

List[int]

零的列表。

从传递的两个序列创建一个用于序列对分类任务的掩码。

`get_special_tokens_mask`

< source >

( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。
already_has_special_tokens (bool, optional, 默认为 False) — 标记列表是否已经使用特殊标记格式化为模型。

List[int]

一个整数列表，范围为[0, 1]：特殊标记为 1，序列标记为 0。

从没有添加特殊标记的标记列表中检索序列 ID。在使用标记器的prepare_for_model方法添加特殊标记时调用此方法。

BarthezTokenizerFast

`class transformers.BarthezTokenizerFast`

< source >

( vocab_file = None tokenizer_file = None bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' **kwargs )

参数

vocab_file (str) — 包含实例化分词器所需词汇表的SentencePiece文件（通常具有*.spm*扩展名）。
bos_token (str, optional, defaults to "") — 在预训练期间使用的序列开头标记。可用作序列分类器标记。
在使用特殊标记构建序列时，这不是用于序列开头的标记。用于开头的标记是cls_token。
~~eos_token (str, optional, defaults to "~~") — 序列结束标记。
在使用特殊标记构建序列时，这不是用于序列结尾的标记。用于结尾的标记是sep_token。
sep_token (str, optional, defaults to "") — 分隔符标记，在从多个序列构建序列时使用，例如用于序列分类的两个序列或用于文本和问题的问题回答。它还用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, optional, defaults to ""~~) — 在进行序列分类（整个序列的分类而不是每个标记的分类）时使用的分类器标记。当使用特殊标记构建序列时，它是序列的第一个标记。~~
~~unk_token (str, optional, defaults to "") — 未知标记。词汇表中不存在的标记无法转换为 ID，而是设置为此标记。~~
~~pad_token (str, optional, defaults to "") — 用于填充的标记，例如在批处理不同长度的序列时使用。~~
~~mask_token (str, optional, defaults to "") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。~~
~~additional_special_tokens (List[str], optional, defaults to ["NOTUSED", "NOTUSED"]) — 分词器使用的其他特殊标记。~~

~~改编自 CamembertTokenizer 和 BartTokenizer。构建一个“快速”BARThez 分词器。基于SentencePiece。~~

~~此分词器继承自 PreTrainedTokenizerFast，其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。~~

`build_inputs_with_special_tokens`

~~< source >~~

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

~~token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表。~~
~~token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。~~

~~List[int]~~

~~带有适当特殊标记的输入 ID 列表。~~

~~通过连接和添加特殊标记构建用于序列分类任务的序列或序列对的模型输入。BARThez 序列具有以下格式：~~

~~单个序列： X~~
~~序列对： A~~ B

`create_token_type_ids_from_sequences`

< source >

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。

List[int]

零的列表。

从传递的两个序列创建一个用于序列对分类任务的掩码。

BARTpho

原始文本: huggingface.co/docs/transformers/v4.37.2/en/model_doc/bartpho

概述

BARTpho 模型是由 Nguyen Luong Tran, Duong Minh Le 和 Dat Quoc Nguyen 在《BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese》中提出的。

论文摘要如下：

我们提供了两个版本的 BARTpho — BARTpho_word 和 BARTpho_syllable — 这是为越南语预训练的首个公开大规模单语序列到序列模型。我们的 BARTpho 使用了 BART 序列到序列去噪模型的“large”架构和预训练方案，因此特别适用于生成式 NLP 任务。在越南语文本摘要的下游任务上的实验表明，在自动和人工评估中，我们的 BARTpho 优于强基线 mBART，并改进了最新技术。我们发布 BARTpho 以促进未来的生成式越南语 NLP 任务的研究和应用。

这个模型是由dqnguyen贡献的。原始代码可以在这里找到。

用法示例

>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> bartpho = AutoModel.from_pretrained("vinai/bartpho-syllable")
>>> tokenizer = AutoTokenizer.from_pretrained("vinai/bartpho-syllable")
>>> line = "Chúng tôi là những nghiên cứu viên."
>>> input_ids = tokenizer(line, return_tensors="pt")
>>> with torch.no_grad():
...     features = bartpho(**input_ids)  # Models outputs are now tuples
>>> # With TensorFlow 2.0+:
>>> from transformers import TFAutoModel
>>> bartpho = TFAutoModel.from_pretrained("vinai/bartpho-syllable")
>>> input_ids = tokenizer(line, return_tensors="tf")
>>> features = bartpho(**input_ids)

用法提示

与 mBART 一样，BARTpho 使用 BART 的“large”架构，并在编码器和解码器的顶部增加了一个额外的层归一化层。因此，在 BART 文档中的用法示例，在适应 BARTpho 时，应通过用 mBART 专用类替换 BART 专用类来进行调整。例如：

>>> from transformers import MBartForConditionalGeneration
>>> bartpho = MBartForConditionalGeneration.from_pretrained("vinai/bartpho-syllable")
>>> TXT = "Chúng tôi là <mask> nghiên cứu viên."
>>> input_ids = tokenizer([TXT], return_tensors="pt")["input_ids"]
>>> logits = bartpho(input_ids).logits
>>> masked_index = (input_ids[0] == tokenizer.mask_token_id).nonzero().item()
>>> probs = logits[0, masked_index].softmax(dim=0)
>>> values, predictions = probs.topk(5)
>>> print(tokenizer.decode(predictions).split())

这个实现仅用于标记化：“monolingual_vocab_file”包含从多语言 XLM-RoBERTa 的预训练 SentencePiece 模型“vocab_file”中提取的越南语专用类型。其他语言，如果使用这个预训练的多语言 SentencePiece 模型“vocab_file”进行子词分割，可以重用 BartphoTokenizer 与自己的语言专用“monolingual_vocab_file”。

BartphoTokenizer

`class transformers.BartphoTokenizer`

< source >

( vocab_file monolingual_vocab_file bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' sp_model_kwargs: Optional = None **kwargs )

参数

vocab_file (str) — 词汇文件的路径。这个词汇是来自多语言 XLM-RoBERTa 的预训练 SentencePiece 模型，也被 mBART 使用，包含 250K 种类型。
monolingual_vocab_file (str) — 单语词汇文件的路径。这个单语词汇包含从 250K 种类型的多语言词汇vocab_file中提取的越南语专用类型。
bos_token (str, 可选, 默认为 "") — 在预训练期间使用的序列开始标记。可以用作序列分类器标记。
在构建序列时使用特殊标记时，这不是用于序列开头的标记。使用的标记是cls_token。
~~eos_token (str, 可选, 默认为 "~~") — 序列结束标记。
在构建序列时使用特殊标记时，这不是用于序列结尾的标记。使用的标记是sep_token。
sep_token (str, 可选, 默认为 "") — 分隔符标记，用于从多个序列构建序列，例如用于序列分类的两个序列或用于文本和问题的问题回答。它也用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, 可选, 默认为 ""~~) — 用于进行序列分类（对整个序列而不是每个标记进行分类）时使用的分类器标记。在使用特殊标记构建序列时，它是序列的第一个标记。~~
~~unk_token (str, 可选, 默认为 "") — 未知标记。词汇中不存在的标记无法转换为 ID，而是设置为此标记。~~
~~pad_token（str，可选，默认为""）- 用于填充的标记，例如在批处理不同长度的序列时。~~
~~mask_token（str，可选，默认为""）- 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。~~
~~sp_model_kwargs（dict，可选）- 将传递给SentencePieceProcessor.__init__()方法。SentencePiece 的 Python 包装器可用于设置：~~

~~enable_sampling：启用子词正则化。~~
~~nbest_size：unigram 的抽样参数。对于 BPE-Dropout 无效。~~

~~nbest_size = {0,1}：不执行抽样。~~
~~nbest_size > 1：从 nbest_size 结果中抽样。~~
~~nbest_size < 0: 假设 nbest_size 是无限的，并使用前向过滤和后向抽样算法从所有假设（格子）中抽样。~~

~~alpha：unigram 抽样的平滑参数，以及 BPE-dropout 合并操作的丢失概率。~~

~~sp_model（SentencePieceProcessor）- 用于每次转换（字符串、标记和 ID）的SentencePiece处理器。~~

~~改编自 XLMRobertaTokenizer。基于SentencePiece。~~

~~此标记器继承自 PreTrainedTokenizer，其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。~~

`build_inputs_with_special_tokens`

~~<来源>~~

( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]

参数

~~token_ids_0（List[int]）- 将添加特殊标记的 ID 列表。~~
~~token_ids_1（List[int]，可选）- 序列对的可选第二个 ID 列表。~~

~~List[int]~~

~~具有适当特殊标记的 input IDs 列表。~~

~~通过连接和添加特殊标记构建用于序列分类任务的序列或序列对的模型输入。BARTPho 序列的格式如下：~~

~~单个序列： X~~
~~序列对： A~~ B

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Transformers 4.37 中文文档（二十二）（1）

BARThez

概述

资源

BarthezTokenizer

class transformers.BarthezTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

BarthezTokenizerFast

class transformers.BarthezTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

BARTpho

概述

用法示例

用法提示

BartphoTokenizer

class transformers.BartphoTokenizer

build_inputs_with_special_tokens

convert_tokens_to_string

create_token_type_ids_from_sequences

get_special_tokens_mask

BERT

概述

使用提示

资源

BertConfig

class transformers.BertConfig

BertTokenizer

class transformers.BertTokenizer

build_inputs_with_special_tokens

get_special_tokens_mask

create_token_type_ids_from_sequences

save_vocabulary

BertTokenizerFast

class transformers.BertTokenizerFast

build_inputs_with_special_tokens

create_token_type_ids_from_sequences

TFBertTokenizer

class transformers.TFBertTokenizer

from_pretrained

from_tokenizer

BERT 特定的输出

class transformers.models.bert.modeling_bert.BertForPreTrainingOutput

class transformers.models.bert.modeling_tf_bert.TFBertForPreTrainingOutput

class transformers.models.bert.modeling_flax_bert.FlaxBertForPreTrainingOutput

replace

BertModel

class transformers.BertModel

forward

热门文章

最新文章

相关课程

相关电子书

`class transformers.BarthezTokenizer`

`build_inputs_with_special_tokens`

`convert_tokens_to_string`

`create_token_type_ids_from_sequences`

`get_special_tokens_mask`

`class transformers.BarthezTokenizerFast`

`build_inputs_with_special_tokens`

`create_token_type_ids_from_sequences`

`class transformers.BartphoTokenizer`

`build_inputs_with_special_tokens`

`convert_tokens_to_string`

`create_token_type_ids_from_sequences`

`get_special_tokens_mask`

`class transformers.BertConfig`

`class transformers.BertTokenizer`

`build_inputs_with_special_tokens`

`get_special_tokens_mask`

`create_token_type_ids_from_sequences`

`save_vocabulary`

`class transformers.BertTokenizerFast`

`build_inputs_with_special_tokens`

`create_token_type_ids_from_sequences`

`class transformers.TFBertTokenizer`

`from_pretrained`

`from_tokenizer`

`class transformers.models.bert.modeling_bert.BertForPreTrainingOutput`

`class transformers.models.bert.modeling_tf_bert.TFBertForPreTrainingOutput`

`class transformers.models.bert.modeling_flax_bert.FlaxBertForPreTrainingOutput`

`replace`

`class transformers.BertModel`

`forward`