modelscope的QWenTokenizer 都可以调用哪些方法?
根据提供的知识库资料,QWenTokenizer
是 ModelScope 中通义千问(Qwen)模型的分词器组件,主要用于处理文本输入和输出的分词、编码与解码操作。以下是 QWenTokenizer
可调用的主要方法及其功能说明:
encode
方法text
:需要编码的文本字符串。add_special_tokens
(可选):是否在编码结果中添加特殊标记(如 [CLS]
或 [SEP]
)。tokenizer = QWenTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
encoded_input = tokenizer.encode("你好,世界!")
print(encoded_input) # 输出类似 [1546, 2345, 6789]
decode
方法token_ids
:需要解码的 token ID 列表。skip_special_tokens
(可选):是否跳过解码过程中的特殊标记。decoded_text = tokenizer.decode([1546, 2345, 6789])
print(decoded_text) # 输出 "你好,世界!"
__call__
方法text
:输入文本或文本列表。padding
(可选):是否对输入进行填充以保证长度一致。truncation
(可选):是否截断超过最大长度的输入。return_tensors
(可选):指定返回的张量类型(如 pt
表示 PyTorch 张量,tf
表示 TensorFlow 张量)。input_ids
和 attention_mask
等字段。inputs = tokenizer("你好,世界!", return_tensors="pt")
print(inputs["input_ids"]) # 输出类似 tensor([[1546, 2345, 6789]])
from_pretrained
方法pretrained_model_name_or_path
:预训练模型的名称或本地路径。QWenTokenizer
实例。tokenizer = QWenTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
save_pretrained
方法save_directory
:保存分词器的目标目录路径。tokenizer.save_pretrained("./saved_tokenizer")
add_tokens
:向分词器词汇表中添加新的 token。num_special_tokens_to_add
:返回分词器中特殊标记的数量。get_vocab
:获取分词器的完整词汇表。QWenTokenizer
版本与对应的 Qwen 模型版本一致,否则可能导致分词结果不匹配。batch_encode_plus
)以提高效率。encode
和 decode
方法时,需明确是否需要处理特殊标记(如 [PAD]
、[UNK]
等)。以上是 QWenTokenizer
的主要方法及其使用说明。如果您需要更详细的代码示例或特定场景的应用指导,请进一步说明需求。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352