Transformers 4.37 中文文档（五十三）（1）-阿里云开发者社区

原文：huggingface.co/docs/transformers

Qwen2

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/qwen2

概述

Qwen2 是 Qwen 团队推出的大型语言模型新系列。之前，我们发布了 Qwen 系列，包括 Qwen-72B、Qwen-1.8B、Qwen-VL、Qwen-Audio 等。

模型详情

Qwen2 是一个包含不同模型大小的解码器语言模型的系列。对于每个大小，我们发布基础语言模型和对齐的聊天模型。它基于 Transformer 架构，具有 SwiGLU 激活、注意力 QKV 偏置、组查询注意力、滑动窗口注意力和全注意力混合等。此外，我们还有一个适应多种自然语言和代码的改进的分词器。

使用提示

Qwen2-7B-beta和Qwen2-7B-Chat-beta可以在Huggingface Hub上找到

接下来，我们演示如何使用Qwen2-7B-Chat-beta进行推断。请注意，我们已经使用 ChatML 格式进行对话，在此演示中，我们展示了如何利用apply_chat_template来实现这一目的。

>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto
>>> model = AutoModelForCausalLM.from_pretrained("Qwen2/Qwen2-7B-Chat-beta", device_map="auto")
>>> tokenizer = AutoTokenizer.from_pretrained("Qwen2/Qwen2-7B-Chat-beta")
>>> prompt = "Give me a short introduction to large language model."
>>> messages = [{"role": "user", "content": prompt}]
>>> text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
>>> model_inputs = tokenizer([text], return_tensors="pt").to(device)
>>> generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
>>> generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
>>> response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

Qwen2Config

`class transformers.Qwen2Config`

<来源>

( vocab_size = 151936 hidden_size = 4096 intermediate_size = 22016 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = 32 hidden_act = 'silu' max_position_embeddings = 32768 initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True tie_word_embeddings = False rope_theta = 10000.0 use_sliding_window = False sliding_window = 4096 max_window_layers = 28 attention_dropout = 0.0 **kwargs )

参数

vocab_size（int，可选，默认为 151936）— Qwen2 模型的词汇量。定义了在调用 Qwen2Model 时可以表示的不同标记的数量。
hidden_size（int，可选，默认为 4096）— 隐藏表示的维度。
intermediate_size（int，可选，默认为 22016）— MLP 表示的维度。
num_hidden_layers（int，可选，默认为 32）— Transformer 编码器中的隐藏层数量。
num_attention_heads（int，可选，默认为 32）— Transformer 编码器中每个注意力层的注意力头数。
num_key_value_heads（int，可选，默认为 32）— 这是应该用于实现 Grouped Query Attention 的 key_value 头的数量。如果num_key_value_heads=num_attention_heads，模型将使用 Multi Head Attention（MHA），如果num_key_value_heads=1，模型将使用 Multi Query Attention（MQA），否则将使用 GQA。将多头检查点转换为 GQA 检查点时，应通过均值池化构建每个组键和值头，以包含该组中所有原始头的平均值。有关更多详细信息，请查看此论文。如果未指定，将默认为32。
hidden_act（str或function，可选，默认为"silu") — 解码器中的非线性激活函数（函数或字符串）。
max_position_embeddings（int，可选，默认为 32768）— 该模型可能会使用的最大序列长度。
initializer_range（float，可选，默认为 0.02）— 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
rms_norm_eps（float，可选，默认为 1e-06）— rms 归一化层使用的 epsilon。
use_cache（bool，可选，默认为True）— 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅在config.is_decoder=True时相关。
tie_word_embeddings（bool，可选，默认为False）— 模型的输入和输出词嵌入是否应该绑定。
rope_theta（float，可选，默认为 10000.0）— RoPE 嵌入的基本周期。
use_sliding_window（bool，可选，默认为False）— 是否使用滑动窗口注意力。
sliding_window（int，可选，默认为 4096）— 滑动窗口注意力（SWA）窗口大小。如果未指定，将默认为4096。
max_window_layers (int, 可选, 默认为 28) — 使用 SWA（滑动窗口注意力）的层数。底层使用 SWA，而顶层使用完全注意力。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的丢弃比率。

这是配置类，用于存储 Qwen2Model 的配置。它用于根据指定的参数实例化一个 Qwen2 模型，定义模型架构。使用默认值实例化配置将产生类似于 Qwen2-7B-beta Qwen/Qwen2-7B-beta的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。

>>> from transformers import Qwen2Model, Qwen2Config
>>> # Initializing a Qwen2 style configuration
>>> configuration = Qwen2Config()
>>> # Initializing a model from the Qwen2-7B style configuration
>>> model = Qwen2Model(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config

Qwen2Tokenizer

`class transformers.Qwen2Tokenizer`

<来源>

( vocab_file merges_file errors = 'replace' unk_token = '<|endoftext|>' bos_token = None eos_token = '<|endoftext|>' pad_token = '<|endoftext|>' clean_up_tokenization_spaces = False split_special_tokens = False **kwargs )

参数

vocab_file (str) — 词汇文件的路径。
merges_file (str) — 合并文件的路径。
errors (str, 可选, 默认为"replace") — 解码字节为 UTF-8 时要遵循的范例。查看bytes.decode以获取更多信息。
unk_token（str，optional，默认为"<|endoftext|>"）–未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。
bos_token（str，可选）–序列标记的开头。不适用于此标记器。
eos_token（str，optional，默认为"<|endoftext|>"）–序列结束标记。
pad_token（str，optional，默认为"<|endoftext|>"）–用于填充的令牌，例如，在批处理不同长度的序列时。
clean_up_tokenization_spaces (bool, 可选, 默认为False) — 模型是否应清除在分词过程中拆分输入文本时添加的空格。对于这个分词器不适用，因为分词不会添加空格。
split_special_token（bool，optional，默认为False）–在标记化过程中是否应拆分特殊标记。默认行为是不拆分特殊标记。这意味着，如果<|endoftext|>是eos_token，则tokenizer.tokenize("<|endoftext|>") = ['<|endoftext|>']。否则，如果split_special_tokens=True，则tokenizer.tokenize("<|endoftext|>")将被赋予[''<'', ''|'', ''endo'', ''ft'', ''ext'', ''|'', ''>'']。这一论点目前只支持“慢速”标记化器。

构建一个 Qwen2 分词器。基于字节级字节对编码。

与 GPT2Tokenizer 相同，这个分词器已经训练过，将空格视为标记的一部分，因此一个单词会

在句子开头（无空格）或不在句子开头时，可能会以不同方式编码：

>>> from transformers import Qwen2Tokenizer
>>> tokenizer = Qwen2Tokenizer.from_pretrained("Qwen/Qwen-tokenizer")
>>> tokenizer("Hello world")["input_ids"]
[9707, 1879]
>>> tokenizer(" Hello world")["input_ids"]
[21927, 1879]

这是预期的。

您不应该使用 GPT2Tokenizer，因为其具有不同的 pretokenization 规则。

这个分词器继承自 PreTrainedTokenizer，其中包含大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。

`save_vocabulary`

<来源>

( save_directory: str filename_prefix: Optional = None )

Qwen2TokenizerFast

`class transformers.Qwen2TokenizerFast`

<来源>

( vocab_file = None merges_file = None tokenizer_file = None unk_token = '<|endoftext|>' bos_token = None eos_token = '<|endoftext|>' pad_token = '<|endoftext|>' **kwargs )

参数

vocab_file (str, 可选) — 词汇文件的路径。
merges_file (str, 可选) — 合并文件的路径。
tokenizer_file (str, 可选) — 包含加载分词器所需的所有内容的tokenizers文件的路径（通常具有.json 扩展名）。
unk_token（str，optional，默认为"<|endoftext|>"）–未知令牌。词汇表中没有的令牌无法转换为 ID，而是设置为该令牌。不适用于此标记器。
bos_token（str，可选）–序列标记的开头。不适用于此标记器。
eos_token（str，optional，默认为"<|endoftext|>"）–序列结束标记。
pad_token（str，optional，默认为"<|endoftext|>"）–用于填充的令牌，例如，在批处理不同长度的序列时。

构建一个“快速”Qwen2 分词器（由 HuggingFace 的tokenizers库支持）。基于字节级字节对编码。

与 GPT2Tokenizer 相同，这个分词器已经训练过，将空格视为标记的一部分，因此一个单词会

在句子开头（无空格）或不在句子开头时，可能会以不同方式编码：

>>> from transformers import Qwen2TokenizerFast
>>> tokenizer = Qwen2TokenizerFast.from_pretrained("Qwen/Qwen-tokenizer")
>>> tokenizer("Hello world")["input_ids"]
[9707, 1879]
>>> tokenizer(" Hello world")["input_ids"]
[21927, 1879]

这是预期的。

这个分词器继承自 PreTrainedTokenizerFast，其中包含大部分主要方法。用户应参考这个超类以获取有关这些方法的更多信息。

Qwen2Model

`class transformers.Qwen2Model`

<来源>

( config: Qwen2Config )

参数

config（Qwen2Config）—模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，只加载配置。查看 from_pretrained()方法以加载模型权重。config — Qwen2Config

裸 Qwen2 模型输出原始隐藏状态，没有特定的头部。此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入、修剪头等）。

此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块，并参考 PyTorch 文档以获取与一般用法和行为相关的所有事项。

由config.num_hidden_layers层组成的 Transformer 解码器。每一层都是一个Qwen2DecoderLayer。

`forward`

<来源>

( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）—词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的torch.Tensor，可选）—用于避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值：

1 表示未被“掩盖”的标记，
0 表示被“掩盖”的标记。

什么是注意力掩码？
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用past_key_values，可选择仅输入最后的decoder_input_ids（请参阅past_key_values）。
如果您想要更改填充行为，您应该阅读modeling_opt._prepare_decoder_attention_mask并根据您的需求进行修改。有关默认策略的更多信息，请参阅论文中的图表 1。

1 表示头部未被“掩盖”，
0 表示头部被“掩盖”。

position_ids（形状为(batch_size, sequence_length)的torch.LongTensor，可选）—每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]中选择。
什么是位置 ID？
past_key_values（Cache或tuple(tuple(torch.FloatTensor))，可选）—预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在先前解码阶段返回的past_key_values，当use_cache=True或config.use_cache=True时。允许两种格式：

一个 Cache 实例；
长度为config.n_layers的元组的元组（torch.FloatTensor），每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也被称为传统缓存格式。

模型将输出与输入相同的缓存格式。如果没有传递past_key_values，则将返回传统缓存格式。
如果使用past_key_values，用户可以选择仅输入最后的input_ids（即不将其过去的键值状态提供给此模型的那些）的形状为(batch_size, 1)的张量，而不是形状为(batch_size, sequence_length)的所有input_ids。
inputs_embeds（形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor，可选）— 可选择直接传递嵌入表示，而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量，而不是使用模型的内部嵌入查找矩阵，则这很有用。
use_cache（bool，可选）— 如果设置为True，将返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions（bool，可选）— 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states（bool，可选）— 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict（bool，可选）— 是否返回 ModelOutput 而不是普通元组。

Qwen2Model 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者会负责运行预处理和后处理步骤，而后者会默默地忽略它们。

Qwen2ForCausalLM

`class transformers.Qwen2ForCausalLM`

<来源>

( config )

`forward`

<来源>

( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)

参数

input_ids（形状为(batch_size, sequence_length)的torch.LongTensor）— 输入序列标记在词汇表中的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID？
attention_mask（形状为(batch_size, sequence_length)的torch.Tensor，可选）— 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间：

对于未被掩码的标记为 1，
对于被掩码的标记为 0。

什么是注意力掩码？
可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用past_key_values，可选择仅输入最后的decoder_input_ids（参见past_key_values）。
如果要更改填充行为，您应该阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息，请参阅论文中的图表 1。

1 表示头部未被masked，
0 表示头部被masked。

position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。
什么是位置 ID？
past_key_values (Cache或tuple(tuple(torch.FloatTensor)), optional) — 预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速顺序解码。这通常包括模型在解码的先前阶段返回的past_key_values，当use_cache=True或config.use_cache=True时。允许两种格式：

一个 Cache 实例；
长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也被称为传统缓存格式。

模型将输出与输入相同的缓存格式。如果没有传递past_key_values，将返回传统缓存格式。
如果使用了past_key_values，用户可以选择仅输入最后的input_ids（那些没有将其过去键值状态提供给此模型的）的形状为(batch_size, 1)的张量，而不是所有形状为(batch_size, sequence_length)的input_ids。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地，您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为关联向量，这将非常有用，而不是使用模型的内部嵌入查找矩阵。
use_cache (bool, optional) — 如果设置为True，将返回past_key_values键值状态，并可用于加速解码（参见past_key_values）。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。
参数 — labels (torch.LongTensor of shape (batch_size, sequence_length), optional): 用于计算掩码语言建模损失的标签。索引应该在[0, ..., config.vocab_size]或-100（参见input_ids文档）。索引设置为-100的标记将被忽略（掩码），损失仅计算具有标签在[0, ..., config.vocab_size]中的标记。

transformers.modeling_outputs.CausalLMOutputWithPast 或tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个torch.FloatTensor元组（如果传递了return_dict=False或config.return_dict=False）包含各种元素，取决于配置（Qwen2Config）和输入。

loss (torch.FloatTensor of shape (1,), optional, returned when labels is provided) — 语言建模损失（用于下一个标记预测）。
logits（形状为(batch_size, sequence_length, config.vocab_size)的torch.FloatTensor）- 语言建模头的预测分数（SoftMax 之前每个词汇标记的分数）。
past_key_values（tuple(tuple(torch.FloatTensor))，可选，当传递use_cache=True或config.use_cache=True时返回）- 长度为config.n_layers的tuple(torch.FloatTensor)元组，每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态（自注意力块中的键和值），可用于加速顺序解码（请参见past_key_values输入）。
hidden_states（tuple(torch.FloatTensor)，可选，当传递output_hidden_states=True或config.output_hidden_states=True时返回）- 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组（如果模型具有嵌入层，则为嵌入的输出+每个层的输出）。
模型在每个层的输出处的隐藏状态以及可选的初始嵌入输出。
attentions（tuple(torch.FloatTensor)，可选，当传递output_attentions=True或config.output_attentions=True时返回）- 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组（每层一个）。
在注意力 softmax 之后的注意力权重，用于计算自注意力头中的加权平均值。

Qwen2ForCausalLM 的前向方法，覆盖了__call__特殊方法。

虽然前向传递的步骤需要在此函数内定义，但应该在此之后调用Module实例，而不是在此处调用，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

示例：

>>> from transformers import AutoTokenizer, Qwen2ForCausalLM
>>> model = Qwen2ForCausalLM.from_pretrained(PATH_TO_CONVERTED_WEIGHTS)
>>> tokenizer = AutoTokenizer.from_pretrained(PATH_TO_CONVERTED_TOKENIZER)
>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")
>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."

Transformers 4.37 中文文档（五十三）（2）https://developer.aliyun.com/article/1565358

Transformers 4.37 中文文档（五十三）（1）

Qwen2

概述

模型详情

使用提示

Qwen2Config

`class transformers.Qwen2Config`

Qwen2Tokenizer

`class transformers.Qwen2Tokenizer`

`save_vocabulary`

Qwen2TokenizerFast

`class transformers.Qwen2TokenizerFast`

Qwen2Model

`class transformers.Qwen2Model`

`forward`

Qwen2ForCausalLM

`class transformers.Qwen2ForCausalLM`

`forward`

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Transformers 4.37 中文文档（五十三）（1）

Qwen2

概述

模型详情

使用提示

Qwen2Config

class transformers.Qwen2Config

Qwen2Tokenizer

class transformers.Qwen2Tokenizer

save_vocabulary

Qwen2TokenizerFast

class transformers.Qwen2TokenizerFast

Qwen2Model

class transformers.Qwen2Model

forward

Qwen2ForCausalLM

class transformers.Qwen2ForCausalLM

forward

热门文章

最新文章

相关电子书

`class transformers.Qwen2Config`

`class transformers.Qwen2Tokenizer`

`save_vocabulary`

`class transformers.Qwen2TokenizerFast`

`class transformers.Qwen2Model`

`forward`

`class transformers.Qwen2ForCausalLM`

`forward`