Transformers 4.37 中文文档（十六）（3）-阿里云开发者社区

Transformers 4.37 中文文档（十六）（2）https://developer.aliyun.com/article/1564933

XVectorOutput

`class transformers.modeling_outputs.XVectorOutput`

( loss: Optional = None logits: FloatTensor = None embeddings: FloatTensor = None hidden_states: Optional = None attentions: Optional = None )

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 分类损失。
logits (torch.FloatTensor，形状为(batch_size, config.xvector_output_dim)) — AMSoftmax 之前的分类隐藏状态。
embeddings (torch.FloatTensor，形状为(batch_size, config.xvector_output_dim)) — 用于基于向量相似性检索的话语嵌入。
hidden_states (tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（一个用于嵌入的输出 + 一个用于每一层的输出）。
模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每一层一个）。
注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

Wav2Vec2ForXVector 的输出类型。

Seq2SeqTSModelOutput

`class transformers.modeling_outputs.Seq2SeqTSModelOutput`

<来源>

( last_hidden_state: FloatTensor = None past_key_values: Optional = None decoder_hidden_states: Optional = None decoder_attentions: Optional = None cross_attentions: Optional = None encoder_last_hidden_state: Optional = None encoder_hidden_states: Optional = None encoder_attentions: Optional = None loc: Optional = None scale: Optional = None static_features: Optional = None )

参数

last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)) — 模型解码器最后一层的隐藏状态序列。
如果使用了past_key_values，则只输出形状为(batch_size, 1, hidden_size)的序列的最后隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
decoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor元组（如果模型有嵌入层，则为嵌入层的输出+每层的输出）的形状为(batch_size, sequence_length, hidden_size)。
解码器在每一层输出的隐藏状态以及可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。
解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。
解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor元组（如果模型有嵌入层，则为嵌入层的输出+每层的输出）的形状为(batch_size, sequence_length, hidden_size)。
编码器在每一层输出的隐藏状态以及可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。
编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
loc (torch.FloatTensor of shape (batch_size,) or (batch_size, input_size), optional) — 每个时间序列上下文窗口的偏移值，用于给模型输入相同数量级的输入，然后用于将其偏移回原始数量级。
scale (torch.FloatTensor of shape (batch_size,) or (batch_size, input_size), optional) — 每个时间序列上下文窗口的缩放值，用于给模型输入相同数量级的输入，然后用于将其重新缩放回原始数量级。
static_features (torch.FloatTensor of shape (batch_size, feature size), optional) — 每个时间序列在批处理中的静态特征，在推断时复制到协变量中。

时间序列模型编码器输出的基类，还包含可以加速顺序解码的预计算隐藏状态。

Seq2SeqTSPredictionOutput

`class transformers.modeling_outputs.Seq2SeqTSPredictionOutput`

<来源>

( loss: Optional = None params: Optional = None past_key_values: Optional = None decoder_hidden_states: Optional = None decoder_attentions: Optional = None cross_attentions: Optional = None encoder_last_hidden_state: Optional = None encoder_hidden_states: Optional = None encoder_attentions: Optional = None loc: Optional = None scale: Optional = None static_features: Optional = None )

参数

loss (torch.FloatTensor of shape (1,), optional, 当提供future_values时返回) — 分布损失。
params (torch.FloatTensor of shape (batch_size, num_samples, num_params)) — 所选分布的参数。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组。
解码器每一层的输出隐藏状态加上初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组。
解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组。
解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，optional) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组。
编码器每一层的输出隐藏状态加上初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组。
编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
loc (torch.FloatTensor，形状为(batch_size,)或(batch_size, input_size)，optional) — 每个时间序列上下文窗口的偏移值，用于给模型输入相同数量级的值，然后用于将其偏移回原始数量级。
scale (torch.FloatTensor，形状为(batch_size,)或(batch_size, input_size)，optional) — 每个时间序列上下文窗口的缩放值，用于给模型输入相同数量级的值，然后用于将其重新缩放回原始数量级。
static_features (torch.FloatTensor，形状为(batch_size, feature size)，optional) — 每个时间序列批次的静态特征，在推断时复制到协变量中。

时间序列模型解码器输出的基类，还包含损失以及所选分布的参数。

SampleTSPredictionOutput

`class transformers.modeling_outputs.SampleTSPredictionOutput`

<来源>

( sequences: FloatTensor = None )

参数

sequences (torch.FloatTensor，形状为(batch_size, num_samples, prediction_length)或(batch_size, num_samples, prediction_length, input_size)) — 从选择的分布中抽样的值。

时间序列模型预测输出的基类，包含从选择的分布中抽样的值。

TFBaseModelOutput

`class transformers.modeling_tf_outputs.TFBaseModelOutput`

<来源>

( last_hidden_state: tf.Tensor = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。
hidden_states (tuple(tf.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入输出 + 一个用于每一层的输出）。
模型每一层的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每一层一个）。
注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

模型输出的基类，具有潜在的隐藏状态和注意力。

TFBaseModelOutputWithPooling

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling`

<来源>

( last_hidden_state: tf.Tensor = None pooler_output: tf.Tensor = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。
pooler_output (tf.Tensor，形状为(batch_size, hidden_size)) — 序列第一个标记（分类标记）的最后一层隐藏状态，进一步由线性层和 Tanh 激活函数处理。线性层的权重是在预训练期间从下一个句子预测（分类）目标中训练的。
这个输出通常不是输入语义内容的好摘要，通常最好对整个输入序列的隐藏状态进行平均或池化。
hidden_states (tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回） — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入输出 + 一个用于每一层的输出）。
模型每一层的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回） — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每一层一个）。
注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

模型输出的基类，还包含最后隐藏状态的汇聚。

TFBaseModelOutputWithPoolingAndCrossAttentions

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions`

<来源>

( last_hidden_state: tf.Tensor = None pooler_output: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None cross_attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。
pooler_output (tf.Tensor，形状为(batch_size, hidden_size)) — 序列第一个标记（分类标记）的最后一层隐藏状态，经过线性层和 Tanh 激活函数进一步处理。线性层的权重在预训练期间从下一个句子预测（分类）目标中训练。
该输出通常不是输入语义内容的良好摘要，通常最好对整个输入序列的隐藏状态序列进行平均或池化。
past_key_values (List[tf.Tensor], optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每一层的输出）。
模型每一层输出的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每一层一个）。
在自注意力头中使用注意力 softmax 后的注意力权重，用于计算加权平均值。
cross_attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每一层一个）。
在解码器的交叉注意力层中使用注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均值。

模型输出的基类，还包含最后隐藏状态的池化。

TFBaseModelOutputWithPast

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPast`

<来源>

( last_hidden_state: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的隐藏状态序列。
如果使用past_key_values，则只输出形状为(batch_size, 1, hidden_size)的序列的最后隐藏状态。
past_key_values (List[tf.Tensor], optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每一层的输出）。
模型每一层输出的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每一层一个）。
在自注意力头中使用注意力 softmax 后的注意力权重，用于计算加权平均值。

模型输出的基类，可能还包含过去的键/值（用于加速顺序解码）。

TFBaseModelOutputWithPastAndCrossAttentions

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions`

<来源>

( last_hidden_state: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None cross_attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor）- 模型最后一层的隐藏状态序列。
如果仅使用past_key_values，则输出序列的最后一个隐藏状态的形状为(batch_size, 1, hidden_size)。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states（tuple(tf.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每层的输出）。
模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。
cross_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
解码器的交叉注意力层的注意力权重，在注意力 softmax 后，用于计算交叉注意力头中的加权平均值。

模型输出的基类，可能还包含过去的键/值（用于加速顺序解码）。

TFSeq2SeqModelOutput

`class transformers.modeling_tf_outputs.TFSeq2SeqModelOutput`

<来源>

( last_hidden_state: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None decoder_hidden_states: Tuple[tf.Tensor] | None = None decoder_attentions: Tuple[tf.Tensor] | None = None cross_attentions: Tuple[tf.Tensor] | None = None encoder_last_hidden_state: tf.Tensor | None = None encoder_hidden_states: Tuple[tf.Tensor] | None = None encoder_attentions: Tuple[tf.Tensor] | None = None )

参数

last_hidden_state（形状为(batch_size, sequence_length, hidden_size)的tf.Tensor）- 模型解码器最后一层的隐藏状态序列。
如果仅使用past_key_values，则输出序列的最后一个隐藏状态的形状为(batch_size, 1, hidden_size)。
past_key_values（List[tf.Tensor]，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含解码器的预计算隐藏状态（注意力块中的键和值），可用于加速顺序解码。
decoder_hidden_states（tuple(tf.Tensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每层的输出）。
解码器在每一层输出的隐藏状态加上初始嵌入输出。
decoder_attentions（tuple(tf.Tensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每层一个）。
解码器的注意力权重，在注意力 softmax 后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
解码器的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (tf.Tensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(tf.Tensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。
模型编码器在每个层的输出以及初始嵌入输出的隐藏状态。
encoder_attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

模型编码器输出的基类，还包含：可以加速顺序解码的预先计算的隐藏状态。

TFCausalLMOutput

`class transformers.modeling_tf_outputs.TFCausalLMOutput`

<来源>

( loss: tf.Tensor | None = None logits: tf.Tensor = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

loss (tf.Tensor，形状为(n,)，可选, 当提供labels时返回，其中 n 是非掩码标签的数量) — 语言建模损失（用于下一个标记的预测）。
logits (tf.Tensor，形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(tf.Tensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。
模型在每个层的输出以及初始嵌入输出的隐藏状态。
attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

因果语言模型（或自回归）输出的基类。

TFCausalLMOutputWithCrossAttentions

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions`

<来源>

( loss: tf.Tensor | None = None logits: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None cross_attentions: Tuple[tf.Tensor] | None = None )

参数

loss (tf.Tensor，形状为(n,)，可选, 当提供labels时返回，其中 n 是非掩码标签的数量) — 语言建模损失（用于下一个标记的预测）。
logits (tf.Tensor，形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
hidden_states (tuple(tf.Tensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。
模型在每个层的输出以及初始嵌入输出的隐藏状态。
attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
注意力权重在注意力 SoftMax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
解码器交叉注意力层的注意力权重，在注意力 SoftMax 之后，用于计算交叉注意力头中的加权平均值。
past_key_values (List[tf.Tensor], 可选, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。

用于因果语言模型（或自回归）输出的基类。

TFCausalLMOutputWithPast

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithPast`

<来源>

( loss: tf.Tensor | None = None logits: tf.Tensor = None past_key_values: List[tf.Tensor] | None = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )

参数

loss (tf.Tensor of shape (n,), 可选, 其中 n 是非掩码标签的数量，当提供labels时返回) — 语言建模损失（用于下一个标记预测）。
logits (tf.Tensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头部的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values (List[tf.Tensor], 可选, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表，每个张量的形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head)。
包含预先计算的隐藏状态（注意力块中的键和值），可用于加速顺序解码。
hidden_states (tuple(tf.Tensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组（一个用于嵌入的输出 + 一个用于每个层的输出）。
每个层输出的模型隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组（每个层一个）。
注意力权重在注意力 SoftMax 之后，用于计算自注意力头中的加权平均值。

用于因果语言模型（或自回归）输出的基类。

Transformers 4.37 中文文档（十六）（4）https://developer.aliyun.com/article/1564935

Transformers 4.37 中文文档（十六）（3）

XVectorOutput

`class transformers.modeling_outputs.XVectorOutput`

Seq2SeqTSModelOutput

`class transformers.modeling_outputs.Seq2SeqTSModelOutput`

Seq2SeqTSPredictionOutput

`class transformers.modeling_outputs.Seq2SeqTSPredictionOutput`

SampleTSPredictionOutput

`class transformers.modeling_outputs.SampleTSPredictionOutput`

TFBaseModelOutput

`class transformers.modeling_tf_outputs.TFBaseModelOutput`

TFBaseModelOutputWithPooling

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling`

TFBaseModelOutputWithPoolingAndCrossAttentions

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions`

TFBaseModelOutputWithPast

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPast`

TFBaseModelOutputWithPastAndCrossAttentions

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions`

TFSeq2SeqModelOutput

`class transformers.modeling_tf_outputs.TFSeq2SeqModelOutput`

TFCausalLMOutput

`class transformers.modeling_tf_outputs.TFCausalLMOutput`

TFCausalLMOutputWithCrossAttentions

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions`

TFCausalLMOutputWithPast

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithPast`

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformers 4.37 中文文档（十六）（3）

XVectorOutput

class transformers.modeling_outputs.XVectorOutput

Seq2SeqTSModelOutput

class transformers.modeling_outputs.Seq2SeqTSModelOutput

Seq2SeqTSPredictionOutput

class transformers.modeling_outputs.Seq2SeqTSPredictionOutput

SampleTSPredictionOutput

class transformers.modeling_outputs.SampleTSPredictionOutput

TFBaseModelOutput

class transformers.modeling_tf_outputs.TFBaseModelOutput

TFBaseModelOutputWithPooling

class transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling

TFBaseModelOutputWithPoolingAndCrossAttentions

class transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions

TFBaseModelOutputWithPast

class transformers.modeling_tf_outputs.TFBaseModelOutputWithPast

TFBaseModelOutputWithPastAndCrossAttentions

class transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions

TFSeq2SeqModelOutput

class transformers.modeling_tf_outputs.TFSeq2SeqModelOutput

TFCausalLMOutput

class transformers.modeling_tf_outputs.TFCausalLMOutput

TFCausalLMOutputWithCrossAttentions

class transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions

TFCausalLMOutputWithPast

class transformers.modeling_tf_outputs.TFCausalLMOutputWithPast

热门文章

最新文章

相关课程

相关电子书

`class transformers.modeling_outputs.XVectorOutput`

`class transformers.modeling_outputs.Seq2SeqTSModelOutput`

`class transformers.modeling_outputs.Seq2SeqTSPredictionOutput`

`class transformers.modeling_outputs.SampleTSPredictionOutput`

`class transformers.modeling_tf_outputs.TFBaseModelOutput`

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling`

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPoolingAndCrossAttentions`

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPast`

`class transformers.modeling_tf_outputs.TFBaseModelOutputWithPastAndCrossAttentions`

`class transformers.modeling_tf_outputs.TFSeq2SeqModelOutput`

`class transformers.modeling_tf_outputs.TFCausalLMOutput`

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithCrossAttentions`

`class transformers.modeling_tf_outputs.TFCausalLMOutputWithPast`