Transformers 4.37 中文文档（九十八）（3）-阿里云开发者社区

Transformers 4.37 中文文档（九十八）（2）https://developer.aliyun.com/article/1563866

PatchTSTForRegression

`class transformers.PatchTSTForRegression`

( config: PatchTSTConfig )

参数

config（PatchTSTConfig](/docs/transformers/v4.37.2/en/main_classes/model#transformers.PreTrainedModel.from_pretrained)方法以加载模型权重。

用于回归模型的 PatchTST。此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存，调整输入嵌入，修剪头等）。

此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以了解所有与一般使用和行为相关的事项。

`forward`

<来源>

( past_values: Tensor target_values: Tensor = None past_observed_mask: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None return_dict: Optional = None )

参数

past_values (torch.Tensor of shape (bs, sequence_length, num_input_channels), required) — 输入模型的序列
target_values (torch.Tensor of shape (bs, num_input_channels)) — 与past_values相关联的目标值
past_observed_mask (torch.BoolTensor of shape (batch_size, sequence_length, num_input_channels), optional) — 布尔掩码，指示哪些past_values是观察到的，哪些是缺失的。掩码值选在[0, 1]之间：

1 表示观察到的值，
0 表示缺失的值（即被零替换的 NaN）。

output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态
output_attentions (bool, optional) — 是否返回所有层的输出注意力
return_dict (bool, optional) — 是否返回一个ModelOutput而不是一个普通的元组。

示例：

>>> from transformers import PatchTSTConfig, PatchTSTForRegression
>>> # Regression task with 6 input channels and regress 2 targets
>>> model = PatchTSTForRegression.from_pretrained("namctin/patchtst_etth1_regression")
>>> # during inference, one only provides past values, the model outputs future values
>>> past_values = torch.randn(20, 512, 6)
>>> outputs = model(past_values=past_values)
>>> regression_outputs = outputs.regression_outputs

时间序列 Transformer

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/time_series_transformer

概述

时间序列 Transformer 模型是用于时间序列预测的基本编码器-解码器 Transformer。此模型由kashif贡献。

使用提示

与库中其他模型类似，TimeSeriesTransformerModel 是没有顶部头部的原始 Transformer，而 TimeSeriesTransformerForPrediction 在前者的顶部添加了一个分布头部，可用于时间序列预测。请注意，这是一种所谓的概率预测模型，而不是点预测模型。这意味着模型学习一个分布，可以从中进行采样。该模型不直接输出值。
TimeSeriesTransformerForPrediction 由 2 个模块组成：编码器，接受时间序列值的context_length作为输入（称为past_values），解码器，预测未来的prediction_length时间序列值（称为future_values）。在训练过程中，需要向模型提供（past_values和future_values）的配对数据。
除了原始的（past_values和future_values）之外，通常还向模型提供其他特征。这些可以是以下内容：

past_time_features：模型将添加到past_values的时间特征。这些作为 Transformer 编码器的“位置编码”。例如，“月份的日期”，“年份的月份”等作为标量值（然后堆叠在一起形成向量）。例如，如果给定的时间序列值是在 8 月 11 日获得的，则可以将[11, 8]作为时间特征向量（11 代表“月份的日期”，8 代表“年份的月份”）。
future_time_features：模型将添加到future_values的时间特征。这些作为 Transformer 解码器的“位置编码”。例如，“月份的日期”，“年份的月份”等作为标量值（然后堆叠在一起形成向量）。例如，如果给定的时间序列值是在 8 月 11 日获得的，则可以将[11, 8]作为时间特征向量（11 代表“月份的日期”，8 代表“年份的月份”）。
static_categorical_features：随时间保持不变的分类特征（即所有past_values和future_values具有相同的值）。一个例子是标识给定时间序列的商店 ID 或地区 ID。请注意，这些特征需要对所有数据点（包括未来的数据点）都是已知的。
static_real_features：随时间保持不变的实值特征（即所有past_values和future_values具有相同的值）。一个例子是产品的图像表示，您拥有该产品的时间序列值（比如关于鞋子销售的时间序列的 ResNet 嵌入的“鞋子”图片）。请注意，这些特征需要对所有数据点（包括未来的数据点）都是已知的。

该模型使用“teacher-forcing”进行训练，类似于 Transformer 用于机器翻译的训练方式。这意味着在训练过程中，将future_values向右移动一个位置作为解码器的输入，前面加上past_values的最后一个值。在每个时间步骤，模型需要预测下一个目标。因此，训练的设置类似于用于语言的 GPT 模型，只是没有decoder_start_token_id的概念（我们只使用上下文的最后一个值作为解码器的初始输入）。
在推断时，我们将past_values的最终值作为输入传递给解码器。接下来，我们可以从模型中进行采样，以在下一个时间步骤进行预测，然后将其馈送给解码器以进行下一个预测（也称为自回归生成）。

资源

一系列官方 Hugging Face 和社区（由🌎表示）资源，可帮助您入门。如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审查！资源应该展示一些新内容，而不是重复现有资源。

在 HuggingFace 博客中查看时间序列 Transformer 博文：使用🤗 Transformers 进行概率时间序列预测

TimeSeriesTransformerConfig

`class transformers.TimeSeriesTransformerConfig`

< source >

( prediction_length: Optional = None context_length: Optional = None distribution_output: str = 'student_t' loss: str = 'nll' input_size: int = 1 lags_sequence: List = [1, 2, 3, 4, 5, 6, 7] scaling: Union = 'mean' num_dynamic_real_features: int = 0 num_static_categorical_features: int = 0 num_static_real_features: int = 0 num_time_features: int = 0 cardinality: Optional = None embedding_dimension: Optional = None encoder_ffn_dim: int = 32 decoder_ffn_dim: int = 32 encoder_attention_heads: int = 2 decoder_attention_heads: int = 2 encoder_layers: int = 2 decoder_layers: int = 2 is_encoder_decoder: bool = True activation_function: str = 'gelu' d_model: int = 64 dropout: float = 0.1 encoder_layerdrop: float = 0.1 decoder_layerdrop: float = 0.1 attention_dropout: float = 0.1 activation_dropout: float = 0.1 num_parallel_samples: int = 100 init_std: float = 0.02 use_cache = True **kwargs )

参数

prediction_length (int) — 解码器的预测长度。换句话说，模型的预测范围。此值通常由数据集决定，我们建议适当设置。
context_length (int, 可选, 默认为prediction_length) — 编码器的上下文长度。如果为None，上下文长度将与prediction_length相同。
distribution_output (string, 可选, 默认为"student_t") — 模型的分布发射头。可以是"student_t"、“normal”或“negative_binomial”之一。
loss (string, 可选, 默认为"nll") — 与distribution_output头对应的模型损失函数。对于参数分布，它是负对数似然（nll）- 目前是唯一支持的损失函数。
input_size (int, 可选, 默认为 1) — 目标变量的大小，默认情况下对于单变量目标为 1。对于多变量目标，将大于 1。
scaling (string或bool, 可选, 默认为"mean") — 是否通过"mean"缩放器、“std”缩放器或如果为None则不进行缩放来缩放输入目标。如果为True，则缩放器设置为"mean"。
lags_sequence (list[int], 可选, 默认为[1, 2, 3, 4, 5, 6, 7]) — 输入时间序列的滞后作为协变量的滞后，通常由数据的频率决定。默认为[1, 2, 3, 4, 5, 6, 7]，但我们建议根据数据集适当地进行更改。
num_time_features (int, 可选, 默认为 0) — 输入时间序列中的时间特征数量。
num_dynamic_real_features (int, 可选, 默认为 0) — 动态实值特征的数量。
num_static_categorical_features (int, 可选, 默认为 0) — 静态分类特征的数量。
num_static_real_features (int, 可选, 默认为 0) — 静态实值特征的数量。
cardinality (list[int], 可选) — 每个静态分类特征的基数（不同值的数量）。应该是一个整数列表，长度与num_static_categorical_features相同。如果num_static_categorical_features大于 0，则不能为None。
embedding_dimension (list[int], 可选) — 每个静态分类特征的嵌入维度。应该是一个整数列表，长度与num_static_categorical_features相同。如果num_static_categorical_features大于 0，则不能为None。
d_model (int, 可选, 默认为 64) — Transformer 层的维度。
encoder_layers (int, 可选, 默认为 2) — 编码器层数。
decoder_layers (int, 可选, 默认为 2) — 解码器层数。
encoder_attention_heads (int, 可选, 默认为 2) — Transformer 编码器中每个注意力层的注意力头数。
decoder_attention_heads (int, optional, defaults to 2) — Transformer 解码器中每个注意力层的注意力头数。
encoder_ffn_dim (int, optional, defaults to 32) — 编码器中“中间”（通常称为前馈）层的维度。
decoder_ffn_dim (int, optional, defaults to 32) — 解码器中“中间”（通常称为前馈）层的维度。
activation_function (str or function, optional, defaults to "gelu") — 编码器和解码器中的非线性激活函数（函数或字符串）。如果是字符串，支持"gelu"和"relu"。
dropout (float, optional, defaults to 0.1) — 编码器和解码器中所有全连接层的 dropout 概率。
encoder_layerdrop (float, optional, defaults to 0.1) — 每个编码器层的注意力和全连接层的 dropout 概率。
decoder_layerdrop (float, optional, defaults to 0.1) — 每个解码器层的注意力和全连接层的 dropout 概率。
attention_dropout (float, optional, defaults to 0.1) — 注意力概率的 dropout 概率。
activation_dropout (float, optional, defaults to 0.1) — 在前馈网络的两个层之间使用的 dropout 概率。
num_parallel_samples (int, optional, defaults to 100) — 每个推理时间步生成的并行样本数。
init_std (float, optional, defaults to 0.02) — 截断正态权重初始化分布的标准差。
use_cache (bool, optional, defaults to True) — 是否使用过去的键/值注意力（如果适用于模型）以加速解码。
示例 —

这是用于存储 TimeSeriesTransformerModel 配置的配置类。根据指定的参数实例化一个时间序列 Transformer 模型，定义模型架构。使用默认值实例化配置将产生类似于 Time Series Transformer huggingface/time-series-transformer-tourism-monthly架构的配置。

继承自 PretrainedConfig 的配置对象可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

>>> from transformers import TimeSeriesTransformerConfig, TimeSeriesTransformerModel
>>> # Initializing a Time Series Transformer configuration with 12 time steps for prediction
>>> configuration = TimeSeriesTransformerConfig(prediction_length=12)
>>> # Randomly initializing a model (with random weights) from the configuration
>>> model = TimeSeriesTransformerModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

TimeSeriesTransformerModel

`class transformers.TimeSeriesTransformerModel`

< source >

( config: TimeSeriesTransformerConfig )

参数

config (TimeSeriesTransformerConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，只会加载配置。查看 from_pretrained()方法以加载模型权重。

裸的时间序列 Transformer 模型，在顶部没有特定的头输出原始隐藏状态。此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

这个模型也是 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

`forward`

<来源>

( past_values: Tensor past_time_features: Tensor past_observed_mask: Tensor static_categorical_features: Optional = None static_real_features: Optional = None future_values: Optional = None future_time_features: Optional = None decoder_attention_mask: Optional = None head_mask: Optional = None decoder_head_mask: Optional = None cross_attn_head_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None use_cache: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.Seq2SeqTSModelOutput or tuple(torch.FloatTensor)

参数

past_values（形状为(batch_size, sequence_length)或(batch_size, sequence_length, input_size)的torch.FloatTensor）- 时间序列的过去值，作为上下文以预测未来。这个张量的序列大小必须大于模型的context_length，因为模型将使用更大的大小来构建滞后特征，即从过去添加的额外值，以充当“额外上下文”。
这里的sequence_length等于config.context_length + max(config.lags_sequence)，如果没有配置lags_sequence，则等于config.context_length + 7（因为默认情况下，config.lags_sequence中最大的回溯索引是 7）。属性_past_length返回过去的实际长度。
past_values 是 Transformer 编码器的输入（可选的附加特征，如static_categorical_features、static_real_features、past_time_features和 lags）。
可选地，缺失值需要用零替换，并通过past_observed_mask指示。
对于多变量时间序列，input_size > 1 维是必需的，并且对应于每个时间步中时间序列中的变量数。
past_time_features（形状为(batch_size, sequence_length, num_features)的torch.FloatTensor）- 模型内部将添加到past_values中的必需时间特征。这些可能是像“年份的月份”、“月份的日期”等编码为向量（例如傅立叶特征）的东西。这些也可以是所谓的“年龄”特征，基本上帮助模型知道时间序列处于“生活中的哪个时刻”。年龄特征对于远处的过去时间步具有较小的值，并且随着我们接近当前时间步而单调增加。假期特征也是时间特征的一个很好的例子。
这些特征作为输入的“位置编码”。因此，与像 BERT 这样的模型不同，BERT 的位置编码是从头开始内部作为模型的参数学习的，时间序列 Transformer 需要提供额外的时间特征。时间序列 Transformer 仅为static_categorical_features学习额外的嵌入。
额外的动态实数协变量可以连接到这个张量中，但这些特征必须在预测时已知。
这里的num_features等于config.num_time_features+config.num_dynamic_real_features。
past_observed_mask（形状为(batch_size, sequence_length)或(batch_size, sequence_length, input_size)的torch.BoolTensor，可选）- 用于指示哪些past_values是观察到的，哪些是缺失的布尔掩码。掩码值选择在[0, 1]中：

对于observed的值为 1，
对于missing的值（即用零替换的 NaN 值），为 0。

static_categorical_features（形状为(batch_size, number of static categorical features)的torch.LongTensor，可选）- 模型将学习一个嵌入，将其添加到时间序列值中的可选静态分类特征。
静态分类特征是所有时间步长上具有相同值的特征（随时间保持不变）。
静态分类特征的典型示例是时间序列 ID。
static_real_features（形状为(batch_size, number of static real features)的torch.FloatTensor，可选）- 模型将添加到时间序列值中的可选静态实数特征。
静态实数特征是所有时间步长上具有相同值的特征（随时间保持不变）。
静态实际特征的典型示例是促销信息。
future_values（形状为(batch_size, prediction_length)或(batch_size, prediction_length, input_size)的torch.FloatTensor，可选）— 时间序列的未来值，用作模型的标签。future_values是 Transformer 在训练期间需要学习输出的内容，给定past_values。
这里的序列长度等于prediction_length。
有关详细信息，请参阅演示笔记本和代码片段。
在训练期间，任何缺失值都需要用零替换，并通过future_observed_mask指示。
对于多变量时间序列，需要input_size > 1 维，并且对应于时间序列中每个时间步的变量数量。
future_time_features（形状为(batch_size, prediction_length, num_features)的torch.FloatTensor）— 预测窗口所需的时间特征，模型内部将这些特征添加到future_values中。这些特征可以是诸如“年份月份”、“每月日期”等的向量编码（例如傅立叶特征）。这些也可以是所谓的“年龄”特征，基本上帮助模型了解时间序列处于“生命周期的哪个阶段”。年龄特征对于遥远的过去时间步具有较小的值，并且随着我们接近当前时间步，值会单调增加。假期特征也是时间特征的一个很好的例子。
这些特征作为输入的“位置编码”。与 BERT 等模型不同，BERT 的位置编码是从头开始内部作为模型的参数学习的，时间序列 Transformer 需要提供额外的时间特征。时间序列 Transformer 仅为static_categorical_features学习额外的嵌入。
可以将额外的动态实际协变量连接到此张量中，但必须在预测时了解这些特征。
这里的num_features等于config.num_time_features+config.num_dynamic_real_features。
future_observed_mask（形状为(batch_size, sequence_length)或(batch_size, sequence_length, input_size)的torch.BoolTensor，可选）— 布尔蒙版，指示哪些future_values被观察到，哪些是缺失的。蒙版值选在[0, 1]范围内：

1 表示值被观察到，
对于值为missing（即被零替换的 NaN）的情况。

此蒙版用于过滤最终损失计算中的缺失值。
attention_mask（形状为(batch_size, sequence_length)的torch.Tensor，可选）— 用于避免在某些标记索引上执行注意力的蒙版。蒙版值选在[0, 1]范围内：

1 表示未被蒙版的标记，
0 表示被蒙版的标记。

什么是注意力蒙版？
decoder_attention_mask（形状为(batch_size, target_sequence_length)的torch.LongTensor，可选）— 用于避免在某些标记索引上执行注意力的蒙版。默认情况下，将使用因果蒙版，以确保模型只能查看以前的输入以预测未来。
head_mask（形状为(encoder_layers, encoder_attention_heads)的torch.Tensor，可选）— 用于使编码器中注意力模块的特定头部失效的蒙版。蒙版值选在[0, 1]范围内：

1 表示头部未被蒙版，
0 表示头部被蒙版。

decoder_head_mask（形状为(decoder_layers, decoder_attention_heads)的torch.Tensor，可选）— 用于使解码器中注意力模块的特定头部失效的蒙版。蒙版值选在[0, 1]范围内：

1 表示头部未被蒙版，
0 表示头部被蒙版。

cross_attn_head_mask（形状为(decoder_layers, decoder_attention_heads)的torch.Tensor，可选）— 用于使交叉注意力模块的特定头部失效的蒙版。蒙版值选在[0, 1]范围内：

1 表示头部未被蒙版，
0 表示头部被蒙版。

encoder_outputs (tuple(tuple(torch.FloatTensor), optional) — 元组包含last_hidden_state、hidden_states（可选）和attentions（可选）last_hidden_state的形状为(batch_size, sequence_length, hidden_size)（可选），是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回，类型为tuple(tuple(torch.FloatTensor))，长度为config.n_layers，每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
如果使用past_key_values，用户可以选择仅输入形状为(batch_size, 1)的最后一个decoder_input_ids（这些没有将其过去的键值状态提供给此模型）而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选） — 可选地，您可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
use_cache (bool, optional) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_outputs.Seq2SeqTSModelOutput 或 tuple(torch.FloatTensor)

transformers.modeling_outputs.Seq2SeqTSModelOutput 或一个torch.FloatTensor元组（如果传递return_dict=False或config.return_dict=False时）包含根据配置（TimeSeriesTransformerConfig）和输入的不同元素。

last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)) — 模型解码器最后一层的隐藏状态序列。
如果仅使用past_key_values，则输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, returned when use_cache=True is passed or when config.use_cache=True) — 当传递use_cache=True或config.use_cache=True时返回，类型为tuple(tuple(torch.FloatTensor))，长度为config.n_layers，每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码（参见past_key_values输入）。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入层的输出+每层的输出）。
解码器在每一层输出的隐藏状态加上可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor`, 可选) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型有嵌入层，则为嵌入层的输出+每层的输出）。
编码器在每一层输出的隐藏状态加上可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
loc (形状为(batch_size,)或(batch_size, input_size)的torch.FloatTensor`, 可选) — 每个时间序列的上下文窗口的偏移值，用于给模型输入相同数量级的输入，然后用于将其偏移回原始数量级。
scale (形状为(batch_size,)或(batch_size, input_size)的torch.FloatTensor`, 可选) — 每个时间序列的上下文窗口的缩放值，用于给模型输入相同数量级的输入，然后用于将其重新缩放回原始数量级。
static_features (形状为(batch_size, feature size)的torch.FloatTensor`, 可选) — 每个时间序列的静态特征，在推断时复制到协变量中。

TimeSeriesTransformerModel 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是这个，因为前者负责运行预处理和后处理步骤，而后者会默默地忽略它们。

示例：

>>> from huggingface_hub import hf_hub_download
>>> import torch
>>> from transformers import TimeSeriesTransformerModel
>>> file = hf_hub_download(
...     repo_id="hf-internal-testing/tourism-monthly-batch", filename="train-batch.pt", repo_type="dataset"
... )
>>> batch = torch.load(file)
>>> model = TimeSeriesTransformerModel.from_pretrained("huggingface/time-series-transformer-tourism-monthly")
>>> # during training, one provides both past and future values
>>> # as well as possible additional features
>>> outputs = model(
...     past_values=batch["past_values"],
...     past_time_features=batch["past_time_features"],
...     past_observed_mask=batch["past_observed_mask"],
...     static_categorical_features=batch["static_categorical_features"],
...     static_real_features=batch["static_real_features"],
...     future_values=batch["future_values"],
...     future_time_features=batch["future_time_features"],
... )
>>> last_hidden_state = outputs.last_hidden_state

Transformers 4.37 中文文档（九十八）（4）https://developer.aliyun.com/article/1563871

Transformers 4.37 中文文档（九十八）（3）

PatchTSTForRegression

`class transformers.PatchTSTForRegression`

`forward`

时间序列 Transformer

概述

使用提示

资源

TimeSeriesTransformerConfig

`class transformers.TimeSeriesTransformerConfig`

TimeSeriesTransformerModel

`class transformers.TimeSeriesTransformerModel`

`forward`

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Transformers 4.37 中文文档（九十八）（3）

PatchTSTForRegression

class transformers.PatchTSTForRegression

forward

时间序列 Transformer

概述

使用提示

资源

TimeSeriesTransformerConfig

class transformers.TimeSeriesTransformerConfig

TimeSeriesTransformerModel

class transformers.TimeSeriesTransformerModel

forward

热门文章

最新文章

相关电子书

`class transformers.PatchTSTForRegression`

`forward`

`class transformers.TimeSeriesTransformerConfig`

`class transformers.TimeSeriesTransformerModel`

`forward`