Transformers 4.37 中文文档（五十三）（5）-阿里云开发者社区

Transformers 4.37 中文文档（五十三）（4）https://developer.aliyun.com/article/1565360

TFRagSequenceForGeneration

`class transformers.TFRagSequenceForGeneration`

( config: Optional[PretrainedConfig] = None question_encoder: Optional[TFPreTrainedModel] = None generator: Optional[TFPreTrainedModel] = None retriever: Optional[RagRetriever] = None **kwargs )

参数

config (RagConfig) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。
question_encoder (TFPreTrainedModel) — 与retriever封装的 faiss 索引兼容的编码器模型。
generator (TFPreTrainedModel) — 用作 RAG 架构中生成器的序列到序列模型。
retriever (RagRetriever) — 一个检索器类，封装了一个 faiss 索引，用于获取当前输入的上下文文档。

TFRagSequenceForGeneration 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

TF RAG-sequence 模型实现。它在前向传递中执行 RAG-sequence 特定的边际化。

RAG 是一个序列到序列模型，封装了两个核心组件：一个问题编码器和一个生成器。在前向传递过程中，我们使用问题编码器对输入进行编码，并将其传递给检索器以提取相关的上下文文档。然后将文档添加到输入中。这样的上下文化输入被传递给生成器。

问题编码器可以是任何自动编码模型，最好是 TFDPRQuestionEncoder，生成器可以是任何序列到序列模型，最好是 TFBartForConditionalGeneration。

该模型可以使用 RagRetriever 进行端到端生成，也可以与检索器的输出组合在多个步骤中使用—查看更多详细信息的示例。该模型兼容任何自动编码模型作为question_encoder，兼容任何带有语言模型头的序列到序列模型作为generator。已经测试过使用 TFDPRQuestionEncoder 作为question_encoder和 TFBartForConditionalGeneration 作为generator。

这个模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

这个模型也是一个 Tensorflow tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。

该模型目前处于开发状态，现在仅完全支持即时模式，并且可能无法以 SavedModel 格式导出。

`call`

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: np.ndarray | tf.Tensor | None = None past_key_values: Optional[Tuple[Tuple[Union[np.ndarray, tf.Tensor]]]] = None doc_scores: np.ndarray | tf.Tensor | None = None context_input_ids: np.ndarray | tf.Tensor | None = None context_attention_mask: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None output_retrieved: Optional[bool] = None n_docs: Optional[int] = None exclude_bos_score: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None reduce_loss: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False **kwargs ) → export const metadata = 'undefined';transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput or tuple(tf.Tensor)

参数

input_ids (tf.Tensor的形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。RagConfig 用于初始化模型，指定要使用的生成器，还指定兼容的生成器分词器。使用该分词器类获取这些索引。
attention_mask (tf.Tensor的形状为(batch_size, sequence_length)，可选) — 避免对填充标记索引执行注意力的掩码。选择在[0, 1]中的掩码值:

对于未被masked的标记为 1，
对于被masked的标记为 0。

什么是注意力掩码?
encoder_outputs (tuple(tuple(tf.Tensor), 可选) — 元组包括(generator_enc_last_hidden_state, 可选: generator_enc_hidden_states, 可选: generator_enc_attentions)。形状为(batch_size, n_docs * sequence_length, hidden_size)的generator_enc_last_hidden_state是生成器编码器最后一层的隐藏状态序列。
在解码期间，由(TFRagModel)模型使用。
decoder_input_ids (tf.Tensor的形状为(batch_size, target_sequence_length)，可选) — 用于生成任务。默认为None，根据您使用的 RAG 实例的生成器模型的说明构建。
decoder_attention_mask (torch.BoolTensor的形状为(batch_size, target_sequence_length)，可选) — 默认行为: 生成一个忽略decoder_input_ids中填充标记的张量。因果掩码也将默认使用。
past_key_values (tuple(tuple(tf.Tensor))) — 元组包括 RAG 模型的encoder_outputs（参见encoder_outputs）和底层生成器的past_key_values两个元素。可用于加速解码。在解码期间，past_key_values在(RagTokenForGeneration)模型中使用。
doc_scores (tf.Tensor的形状为(batch_size, config.n_docs)) — 每个检索文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的得分。如果模型未初始化为retriever，则必须在前向传递中提供doc_scores。doc_scores可以通过question_encoder_last_hidden_state和retrieved_doc_embeds计算，详细信息请参见示例。
context_input_ids (tf.Tensor的形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回) — 从检索到的文档和问题编码器input_ids后处理得到的输入 ID。
如果模型未初始化为retriever，则必须在前向传递中提供context_input_ids。context_input_ids由__call__()返回。context_attention_mask (tf.Tensor的形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回): 从检索到的文档和问题编码器input_ids后处理得到的注意力掩码。
如果模型未使用retriever初始化，则必须在前向传递中提供context_attention_mask。context_attention_mask由__call__()返回。
use_cache (bool, optional, 默认为True) — 如果设置为True，则返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的张量下的hidden_states。
output_retrieved(bool, optional) — 是否返回retrieved_doc_embeds、retrieved_doc_ids、context_input_ids和context_attention_mask。有关更多详细信息，请参见返回的张量。
return_dict (bool, optional) — 是否返回TFRetrievAugLMOutput而不是普通元组。
n_docs (int, optional, 默认为`config.n_docs“) — 要检索的文档数量和/或要生成答案的文档数量。
exclude_bos_score (bool, optional) — 仅在传递labels时相关。如果为True，则在计算损失时忽略 BOS 标记的分数。
labels (tf.Tensor or np.ndarray of shape (batch_size, sequence_length), optional) — 根据 Rag-Sequence 模型公式计算交叉熵分类损失的标签。有关 Rag-Sequence 公式的详细信息，请参见arxiv.org/pdf/2005.11401.pdf第 2.1 节。索引应在[0, ..., config.vocab_size - 1]范围内。
reduce_loss (bool, optional) — 仅在传递labels时相关。如果为True，则使用tf.Tensor.sum操作减少 NLL 损失。
kwargs (Dict[str, any], optional, 默认为*{}) — 遗留字典，模型可以使用generate()*函数所需。

transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput或tuple(tf.Tensor)

一个transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput或一个tf.Tensor元组（如果传递了return_dict=False或当config.return_dict=False时）包含根据配置（RagConfig）和输入的各种元素。

loss (tf.Tensor of shape (1,), optional, 当提供labels时返回) — 语言建模损失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数。该分数可能针对每个词汇标记在所有文档上进行边缘化。
past_key_values (List[tf.Tensor], optional, returned when use_cache=True is passed or when config.use_cache=True) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预先计算的隐藏状态（解码器中的键和值在注意力块中）的tf.Tensor，可用于加速顺序解码（请参见past_key_values输入）。
doc_scores (tf.Tensor of shape (batch_size, config.n_docs)) — 检索到的文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的分数。
retrieved_doc_embeds (tf.Tensor of shape (batch_size, config.n_docs, hidden_size), optional, returned when output_retrieved=True) — 检索器检索到的嵌入文档。与question_encoder_last_hidden_state一起用于计算doc_scores。
retrieved_doc_ids (tf.Tensor (int32) of shape (batch_size, config.n_docs), optional, returned when output_retrieved=True) — 由检索器检索的嵌入文档的索引。
context_input_ids（tf.Tensor（int32）形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回）— 从检索到的文档和问题编码器 input_ids 后处理得到的输入 id。
context_attention_mask（tf.Tensor（int32）形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回）— 从检索到的文档和问题编码器input_ids后处理得到的注意力掩码。
question_encoder_last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）— 问题编码器最后一层的隐藏状态序列模型的池化输出。
question_enc_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
问题编码器在每一层的输出加上初始嵌入输出的隐藏状态。
question_enc_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
问题编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
generator_enc_last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）— 模型生成器编码器最后一层的隐藏状态序列。
generator_enc_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
生成器编码器在每一层的输出加上初始嵌入输出的隐藏状态。
generator_enc_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
生成器编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
generator_dec_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
生成器解码器在每一层的输出加上初始嵌入输出的隐藏状态。
generator_dec_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
生成器解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

TFRagSequenceForGeneration 的前向方法，覆盖了__call__特殊方法。

示例：

>>> from transformers import AutoTokenizer, RagRetriever, TFRagSequenceForGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/rag-sequence-nq")
>>> retriever = RagRetriever.from_pretrained(
...     "facebook/rag-sequence-nq", index_name="exact", use_dummy_dataset=True
... )
>>> # initialize with RagRetriever to do everything in one forward call
>>> model = TFRagSequenceForGeneration.from_pretrained(
...     "facebook/rag-sequence-nq", retriever=retriever, from_pt=True
... )
>>> input_dict = tokenizer.prepare_seq2seq_batch(
...     "How many people live in Paris?", "In Paris, there are 10 million people.", return_tensors="tf"
... )
>>> outputs = model(input_dict, output_retrieved=True)
>>> # or use retriever separately
>>> # 1\. Encode
>>> input_ids = input_dict["input_ids"]
>>> question_hidden_states = model.question_encoder(input_ids)[0]
>>> # 2\. Retrieve
>>> docs_dict = retriever(input_ids.numpy(), question_hidden_states.numpy(), return_tensors="tf")
>>> doc_scores = tf.squeeze(
...     tf.matmul(
...         tf.expand_dims(question_hidden_states, axis=1), docs_dict["retrieved_doc_embeds"], transpose_b=True
...     ),
...     axis=1,
... )
>>> # 3\. Forward to generator
>>> outputs = model(
...     inputs=None,
...     context_input_ids=docs_dict["context_input_ids"],
...     context_attention_mask=docs_dict["context_attention_mask"],
...     doc_scores=doc_scores,
...     decoder_input_ids=input_dict["labels"],
... )
>>> # or directly generate
>>> generated = model.generate(
...     context_input_ids=docs_dict["context_input_ids"],
...     context_attention_mask=docs_dict["context_attention_mask"],
...     doc_scores=doc_scores,
... )
>>> generated_string = tokenizer.batch_decode(generated, skip_special_tokens=True)

`generate`

<来源>

( input_ids: TFModelInputType | None = None attention_mask: tf.Tensor | None = None context_input_ids = None context_attention_mask = None doc_scores = None do_deduplication = None num_return_sequences = None num_beams = None n_docs = None **model_kwargs ) → export const metadata = 'undefined';tf.Tensor of shape (batch_size * num_return_sequences, sequence_length)

参数

input_ids (tf.Tensor，形状为(batch_size, sequence_length)，可选) — 用作生成提示的序列。如果未传递input_ids，则必须提供context_input_ids。
attention_mask (tf.Tensor，形状为(batch_size, sequence_length)，可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]范围内：- 1 表示未屏蔽的标记，- 0 表示已屏蔽的标记。什么是注意力掩码？
context_input_ids (tf.Tensor，形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回) — 从检索文档和问题编码器 input_ids 后处理得到的输入 ID。
context_attention_mask (tf.Tensor，形状为(batch_size * config.n_docs, config.max_combined_length)，可选，当output_retrieved=True时返回) — 从检索文档和问题编码器 input_ids 后处理得到的注意力掩码。如果模型未使用retriever初始化或未提供input_ids，则必须在前向传递中提供context_input_ids和context_attention_mask。它们由__call__()返回。
doc_scores (tf.Tensor，形状为(batch_size, config.n_docs)) — 检索文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的得分。如果模型未使用retriever初始化或未提供input_ids，则必须在前向传递中提供doc_scores。doc_scores由__call__()返回。
do_deduplication (bool, 可选) — 是否对给定输入的不同上下文文档生成进行去重。如果在使用分布式后端进行训练时，必须将其设置为False。
num_return_sequences(int, 可选，默认为 1) — 每个批次元素的独立计算返回序列的数量。请注意，这不是我们传递给generator的generate()函数的值，其中我们将num_return_sequences设置为num_beams。
num_beams (int, 可选, 默认为 1) — Beam 搜索的数量。1 表示没有 beam 搜索。
n_docs (int，可选，默认为config.n_docs) — 要检索的文档数量和/或要为其生成答案的文档数量。
kwargs (Dict[str, Any]，可选) — 额外的 kwargs 将传递给 generate()

tf.Tensor，形状为(batch_size * num_return_sequences, sequence_length)

生成的序列。第二维（序列长度）要么等于max_length，要么如果所有批次由于eos_token_id而提前完成，则要短。

实现了 RAG 序列“彻底”解码。阅读 generate()文档以获取有关如何设置其他生成输入参数的更多信息

TFRagTokenForGeneration

`class transformers.TFRagTokenForGeneration`

<来源>

( config: Optional[PretrainedConfig] = None question_encoder: Optional[TFPreTrainedModel] = None generator: Optional[TFPreTrainedModel] = None retriever: Optional[RagRetriever] = None **kwargs )

参数

config（RagConfig） — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。
question_encoder（TFPreTrainedModel 的前向方法覆盖了__call__特殊方法。

TF RAG-token 模型实现。它在前向传递中执行 RAG-token 特定的边际化。

RAG 是一个序列到序列模型，封装了两个核心组件：问题编码器和生成器。在前向传递过程中，我们使用问题编码器对输入进行编码，并将其传递给检索器以提取相关的上下文文档。然后将文档添加到输入之前。这样上下文化的输入被传递给生成器。

问题编码器可以是任何自编码模型，最好是 TFDPRQuestionEncoder，生成器可以是任何seq2seq模型，最好是 TFBartForConditionalGeneration。

该模型可以使用 RagRetriever 进行初始化以进行端到端生成，或者与检索器的输出组合在多个步骤中使用—请参阅示例以获取更多详细信息。该模型与自编码模型兼容，如question_encoder，以及具有语言模型头部的seq2seq模型，如generator。已经测试了将 TFDPRQuestionEncoder 用作question_encoder和 TFBartForConditionalGeneration 用作generator。

此模型继承自 TFPreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（例如下载或保存、调整输入嵌入、修剪头等）。

此模型还是一个 Tensorflow tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型，并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。

该模型目前处于开发状态，因为它现在仅在急切模式下完全支持，并且可能无法以 SavedModel 格式导出。

`call`

<来源>

( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: np.ndarray | tf.Tensor | None = None past_key_values: Tuple[Tuple[Union[np.ndarray, tf.Tensor]]] | None = None doc_scores: np.ndarray | tf.Tensor | None = None context_input_ids: np.ndarray | tf.Tensor | None = None context_attention_mask: np.ndarray | tf.Tensor | None = None use_cache: bool | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None output_retrieved: bool | None = None n_docs: int | None = None do_marginalize: bool | None = None labels: np.ndarray | tf.Tensor | None = None reduce_loss: bool | None = None return_dict: bool | None = None training: bool = False **kwargs ) → export const metadata = 'undefined';transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput or tuple(tf.Tensor)

参数

input_ids（形状为(batch_size, sequence_length)的tf.Tensor）- 词汇表中输入序列标记的索引。RagConfig 用于初始化模型，指定要使用的生成器，还指定了兼容的生成器分词器。使用该分词器类来获取这些索引。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor，可选）- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间：

对于未被masked的标记，值为 1。
对于被masked的标记，值为 0。

什么是注意力掩码？
encoder_outputs (tuple(tuple(tf.Tensor)，可选) — 元组包括（generator_enc_last_hidden_state，可选：generator_enc_hidden_states，可选：generator_enc_attentions）。形状为(batch_size, n_docs * sequence_length, hidden_size)的generator_enc_last_hidden_state是生成器编码器最后一层的隐藏状态序列。
在解码期间由（TFRagModel）模型使用。
decoder_input_ids (tf.Tensor，形状为(batch_size, target_sequence_length)，可选) — 用于生成任务。默认为None，根据您使用的 RAG 实例的生成器模型的说明构建。
decoder_attention_mask (torch.BoolTensor，形状为(batch_size, target_sequence_length)，可选) — 默认行为：生成一个张量，忽略decoder_input_ids中的填充标记。默认情况下还将使用因果掩码。
past_key_values (tuple(tuple(tf.Tensor))) — 元组包括两个元素：RAG 模型的encoder_outputs（参见encoder_outputs）和基础生成器的past_key_values。可用于加速解码。在解码期间，past_key_values在（RagTokenForGeneration）模型中使用。
doc_scores (tf.Tensor，形状为(batch_size, config.n_docs)) — 每个检索文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的得分。如果模型未使用retriever初始化，则必须在前向传递中提供doc_scores。doc_scores可以通过question_encoder_last_hidden_state和retrieved_doc_embeds计算，有关更多信息，请参见示例。
context_input_ids (tf.Tensor，形状为(batch_size * config.n_docs, config.max_combined_length)，可选，在output_retrieved=True时返回） — 从检索文档和问题编码器input_ids后处理的输入 ID。
如果模型未使用retriever初始化，则必须在前向传递中提供context_input_ids。context_input_ids由__call__()返回。context_attention_mask（形状为(batch_size * config.n_docs, config.max_combined_length)的tf.Tensor，可选，在output_retrieved=True时返回）：从检索文档和问题编码器input_ids后处理的注意力掩码。
如果模型未使用retriever初始化，则必须在前向传递中提供context_attention_mask。context_attention_mask由__call__()返回。
use_cache (bool，可选，默认为True) — 如果设置为True，将返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量中的attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的张量中的hidden_states。
output_retrieved(bool, 可选) — 是否返回retrieved_doc_embeds、retrieved_doc_ids、context_input_ids和context_attention_mask。有关更多详细信息，请参见返回的张量。
return_dict (bool，可选) — 是否返回TFRetrievAugLMOutput而不是普通元组。
n_docs (int, optional, 默认为`config.n_docs“) — 要检索的文档数量和/或要生成答案的文档数量。
do_marginalize (bool，可选) — 如果为True，通过使用torch.nn.functional.log_softmax将对数归一化到所有文档上。
labels (tf.Tensor or np.ndarray of shape (batch_size, sequence_length), optional) — 根据 Rag-Token 模型公式计算交叉熵分类损失的标签。有关 Rag-Token 公式的详细信息，请参阅arxiv.org/pdf/2005.11401.pdf第 2.1 节。索引应在[0, ..., config.vocab_size - 1]范围内。
reduce_loss (bool, optional) — 仅在传递labels时相关。如果为True，则使用tf.Tensor.sum操作减少 NLL 损失。
kwargs (Dict[str, any], optional, 默认为*{}) — 旧字典，模型可以使用generate()*函数所需。

transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput或tuple(tf.Tensor)

一个transformers.models.rag.modeling_tf_rag.TFRetrievAugLMMarginOutput或一个tf.Tensor元组（如果传递return_dict=False或config.return_dict=False）包含根据配置（RagConfig）和输入的各种元素。

loss (tf.Tensor of shape (1,), optional, 当提供labels时返回) — 语言建模损失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数。该分数可能针对每个词汇标记在所有文档上进行边缘化。
past_key_values (List[tf.Tensor], optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含可以用于加速顺序解码的解码器的预计算隐藏状态（注意块中的键和值）（参见past_key_values输入）。
doc_scores (tf.Tensor of shape (batch_size, config.n_docs)) — 每个检索到的文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的得分。
retrieved_doc_embeds (tf.Tensor of shape (batch_size, config.n_docs, hidden_size), optional, 当output_retrieved=True时返回) — 检索器检索到的嵌入文档。与question_encoder_last_hidden_state一起用于计算doc_scores。
retrieved_doc_ids (tf.Tensor (int32) of shape (batch_size, config.n_docs), optional, 当output_retrieved=True时返回) — 检索器检索到的嵌入文档的索引。
context_input_ids (tf.Tensor(int32) of shape (batch_size * config.n_docs, config.max_combined_length), optional, 当output_retrieved=True时返回) — 从检索到的文档和问题编码器输入 ids 后处理得到的输入 ids。
context_attention_mask (tf.Tensor (int32) of shape (batch_size * config.n_docs, config.max_combined_length), optional, 当output_retrieved=True时返回) — 从检索到的文档和问题编码器input_ids后处理得到的注意力掩码。
question_encoder_last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 模型问题编码器输出的最后一层的隐藏状态序列。
question_enc_hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
问题编码器在每一层输出的隐藏状态加上初始嵌入输出。
question_enc_attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
问题编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
generator_enc_last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor，可选）— 模型生成器编码器最后一层的隐藏状态序列。
generator_enc_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或当config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
生成器编码器在每一层的隐藏状态加上初始嵌入输出。
generator_enc_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或当config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
生成器编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
generator_dec_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或当config.output_hidden_states=True时返回）— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出，一个用于每一层的输出）。
生成器解码器在每一层的隐藏状态加上初始嵌入输出。
generator_dec_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或当config.output_attentions=True时返回）— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
生成器解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

TFRagTokenForGeneration 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是这个，因为前者会负责运行前处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, RagRetriever, TFRagTokenForGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/rag-token-nq")
>>> retriever = RagRetriever.from_pretrained(
...     "facebook/rag-token-nq", index_name="exact", use_dummy_dataset=True
... )
>>> # initialize with RagRetriever to do everything in one forward call
>>> model = TFRagTokenForGeneration.from_pretrained("facebook/rag-token-nq", retriever=retriever, from_pt=True)
>>> input_dict = tokenizer.prepare_seq2seq_batch(
...     "How many people live in Paris?", "In Paris, there are 10 million people.", return_tensors="tf"
... )
>>> outputs = model(input_dict, output_retrieved=True)
>>> # or use retriever separately
>>> # 1\. Encode
>>> input_ids = input_dict["input_ids"]
>>> question_hidden_states = model.question_encoder(input_ids)[0]
>>> # 2\. Retrieve
>>> docs_dict = retriever(input_ids.numpy(), question_hidden_states.numpy(), return_tensors="tf")
>>> doc_scores = tf.squeeze(
...     tf.matmul(
...         tf.expand_dims(question_hidden_states, axis=1), docs_dict["retrieved_doc_embeds"], transpose_b=True
...     ),
...     axis=1,
... )
>>> # 3\. Forward to generator
>>> outputs = model(
...     inputs=None,
...     context_input_ids=docs_dict["context_input_ids"],
...     context_attention_mask=docs_dict["context_attention_mask"],
...     doc_scores=doc_scores,
...     decoder_input_ids=input_dict["labels"],
... )
>>> # or directly generate
>>> generated = model.generate(
...     context_input_ids=docs_dict["context_input_ids"],
...     context_attention_mask=docs_dict["context_attention_mask"],
...     doc_scores=doc_scores,
... )
>>> generated_string = tokenizer.batch_decode(generated, skip_special_tokens=True)

`generate`

<来源>

( input_ids: TFModelInputType | None = None attention_mask: tf.Tensor | None = None context_input_ids = None context_attention_mask = None doc_scores = None n_docs = None generation_config = None logits_processor = [] **kwargs ) → export const metadata = 'undefined';tf.Tensor of shape (batch_size * num_return_sequences, sequence_length)

参数

input_ids（形状为(batch_size, sequence_length)的tf.Tensor，可选）— 用作生成提示的序列。如果未传递input_ids，则必须提供context_input_ids。
attention_mask（形状为(batch_size, sequence_length)的tf.Tensor，可选）— 避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]中：

对于未被masked的标记，值为 1，
对于被masked的标记，值为 0。

什么是注意力掩码？
context_input_ids（形状为(batch_size * config.n_docs, config.max_combined_length)的tf.Tensor，可选，当output_retrieved=True时返回）— 从检索到的文档和问题编码器input_ids后处理得到的输入 ID。
如果模型未使用retriever进行初始化，则必须在前向传递中提供context_input_ids。context_input_ids由__call__()返回。
context_attention_mask（形状为(batch_size * config.n_docs, config.max_combined_length)的tf.Tensor，可选，当output_retrieved=True时返回）— 从检索到的文档和问题编码器input_ids后处理得到的注意力掩码。
如果模型未使用retriever进行初始化，则必须在前向传递中提供context_input_ids。context_input_ids由__call__()返回。
doc_scores（形状为(batch_size, config.n_docs)的tf.Tensor）- 每个检索文档嵌入（参见retrieved_doc_embeds）与question_encoder_last_hidden_state之间的得分。
如果模型未使用retriever初始化，则必须提供context_input_ids进行前向传递。context_input_ids由__call__()返回。
n_docs（int，可选，默认为config.n_docs）- 要检索的文档数量和/或要为其生成答案的文档数量。
generation_config（~generation.GenerationConfig，可选）- 用作生成调用的基本参数化的生成配置。传递给生成匹配generation_config属性的**kwargs将覆盖它们。如果未提供generation_config，将使用默认值，其加载优先级如下：1）从generation_config.json模型文件中，如果存在；2）从模型配置中。请注意，未指定的参数将继承 GenerationConfig 的默认值，应检查其文档以参数化生成。
logits_processor（TFLogitsProcessorList，可选）- 自定义 logits 处理器，补充从参数和模型配置构建的默认 logits 处理器。如果传递的 logit 处理器已经使用参数或模型配置创建，则会抛出错误。
kwargs（Dict[str, Any]，可选）- generate_config的特定于模型的参数化和/或将转发到模型的forward函数的其他模型特定 kwargs。

tf.Tensor的形状为(batch_size * num_return_sequences, sequence_length)

生成的序列。第二维（sequence_length）要么等于max_length，要么如果所有批次由于eos_token_id而提前完成，则要短。

实现 TFRAG 令牌解码。

context_input_ids = None context_attention_mask = None doc_scores = None n_docs = None generation_config = None logits_processor = [] **kwargs ) → export const metadata = ‘undefined’;tf.Tensor of shape (batch_size * num_return_sequences, sequence_length)

参数
+   `input_ids`（形状为`(batch_size, sequence_length)`的`tf.Tensor`，*可选*）— 用作生成提示的序列。如果未传递`input_ids`，则必须提供`context_input_ids`。
+   `attention_mask`（形状为`(batch_size, sequence_length)`的`tf.Tensor`，*可选*）— 避免在填充标记索引上执行注意力的掩码。掩码值选在`[0, 1]`中：
    +   对于未被`masked`的标记，值为 1，
    +   对于被`masked`的标记，值为 0。
    什么是注意力掩码？
+   `context_input_ids`（形状为`(batch_size * config.n_docs, config.max_combined_length)`的`tf.Tensor`，*可选*，当*output_retrieved=True*时返回）— 从检索到的文档和问题编码器`input_ids`后处理得到的输入 ID。
    如果模型未使用`retriever`进行初始化，则必须在前向传递中提供`context_input_ids`。`context_input_ids`由`__call__()`返回。
+   `context_attention_mask`（形状为`(batch_size * config.n_docs, config.max_combined_length)`的`tf.Tensor`，*可选*，当*output_retrieved=True*时返回）— 从检索到的文档和问题编码器`input_ids`后处理得到的注意力掩码。
    如果模型未使用`retriever`进行初始化，则必须在前向传递中提供`context_input_ids`。`context_input_ids`由`__call__()`返回。
+   `doc_scores`（形状为`(batch_size, config.n_docs)`的`tf.Tensor`）- 每个检索文档嵌入（参见`retrieved_doc_embeds`）与`question_encoder_last_hidden_state`之间的得分。
    如果模型未使用`retriever`初始化，则必须提供`context_input_ids`进行前向传递。`context_input_ids`由`__call__()`返回。
+   `n_docs`（`int`，*可选*，默认为`config.n_docs`）- 要检索的文档数量和/或要为其生成答案的文档数量。
+   `generation_config`（`~generation.GenerationConfig`，*可选*）- 用作生成调用的基本参数化的生成配置。传递给生成匹配`generation_config`属性的`**kwargs`将覆盖它们。如果未提供`generation_config`，将使用默认值，其加载优先级如下：1）从`generation_config.json`模型文件中，如果存在；2）从模型配置中。请注意，未指定的参数将继承 GenerationConfig 的默认值，应检查其文档以参数化生成。
+   `logits_processor`（`TFLogitsProcessorList`，*可选*）- 自定义 logits 处理器，补充从参数和模型配置构建的默认 logits 处理器。如果传递的 logit 处理器已经使用参数或模型配置创建，则会抛出错误。
+   `kwargs`（`Dict[str, Any]`，*可选*）- `generate_config`的特定于模型的参数化和/或将转发到模型的`forward`函数的其他模型特定 kwargs。
返回
`tf.Tensor`的形状为`(batch_size * num_return_sequences, sequence_length)`
生成的序列。第二维（sequence_length）要么等于`max_length`，要么如果所有批次由于`eos_token_id`而提前完成，则要短。
实现 TFRAG 令牌解码。

Transformers 4.37 中文文档（五十三）（5）

TFRagSequenceForGeneration

`class transformers.TFRagSequenceForGeneration`

`call`

`generate`

TFRagTokenForGeneration

`class transformers.TFRagTokenForGeneration`

`call`

`generate`

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformers 4.37 中文文档（五十三）（5）

TFRagSequenceForGeneration

class transformers.TFRagSequenceForGeneration

call

generate

TFRagTokenForGeneration

class transformers.TFRagTokenForGeneration

call

generate

热门文章

最新文章

相关课程

相关电子书

`class transformers.TFRagSequenceForGeneration`

`call`

`generate`

`class transformers.TFRagTokenForGeneration`

`call`

`generate`