modelscope的QWenTokenizer 都可以调用哪些方法?
根据提供的知识库资料,QWenTokenizer 是 ModelScope 中通义千问(Qwen)模型的分词器组件,主要用于处理文本输入和输出的分词、编码与解码操作。以下是 QWenTokenizer 可调用的主要方法及其功能说明:
encode 方法text:需要编码的文本字符串。add_special_tokens(可选):是否在编码结果中添加特殊标记(如 [CLS] 或 [SEP])。tokenizer = QWenTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
encoded_input = tokenizer.encode("你好,世界!")
print(encoded_input) # 输出类似 [1546, 2345, 6789]
decode 方法token_ids:需要解码的 token ID 列表。skip_special_tokens(可选):是否跳过解码过程中的特殊标记。decoded_text = tokenizer.decode([1546, 2345, 6789])
print(decoded_text) # 输出 "你好,世界!"
__call__ 方法text:输入文本或文本列表。padding(可选):是否对输入进行填充以保证长度一致。truncation(可选):是否截断超过最大长度的输入。return_tensors(可选):指定返回的张量类型(如 pt 表示 PyTorch 张量,tf 表示 TensorFlow 张量)。input_ids 和 attention_mask 等字段。inputs = tokenizer("你好,世界!", return_tensors="pt")
print(inputs["input_ids"]) # 输出类似 tensor([[1546, 2345, 6789]])
from_pretrained 方法pretrained_model_name_or_path:预训练模型的名称或本地路径。QWenTokenizer 实例。tokenizer = QWenTokenizer.from_pretrained("Qwen/Qwen-7B-Chat")
save_pretrained 方法save_directory:保存分词器的目标目录路径。tokenizer.save_pretrained("./saved_tokenizer")
add_tokens:向分词器词汇表中添加新的 token。num_special_tokens_to_add:返回分词器中特殊标记的数量。get_vocab:获取分词器的完整词汇表。QWenTokenizer 版本与对应的 Qwen 模型版本一致,否则可能导致分词结果不匹配。batch_encode_plus)以提高效率。encode 和 decode 方法时,需明确是否需要处理特殊标记(如 [PAD]、[UNK] 等)。以上是 QWenTokenizer 的主要方法及其使用说明。如果您需要更详细的代码示例或特定场景的应用指导,请进一步说明需求。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352