开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope的这个token是1个汉字算一个token么 ?

ModelScope的这个token是1个汉字算一个token么 ?

展开
收起
陈幕白 2023-12-14 07:51:34 394 0
3 条回答
写回答
取消 提交回答
  • 对于ModelScope中的token计数,1个汉字会被视为一个token。在自然语言处理任务中,token通常被定义为最小的有意义的单元,可以是一个字、一个词或者一个子词。

    如果您使用ModelScope进行文本生成任务,一个汉字将被视为一个token。但请注意,不同的模型和API可能会对token进行不同的计算方式,因此具体情况可能会有所不同。在使用具体的模型时,建议查阅相关文档或开发者指南以了解该模型对token的定义和计数方式。

    2023-12-14 20:27:54
    赞同 展开评论 打赏
  • 在自然语言处理中,一个“token”通常指的是文本中的单个有意义的单位。这可以是一个词、一个短语或一个符号等。Tokenization是将文本分割成这些单元的过程。

    对于ModelScope平台上的模型来说,它们对token的具体定义可能会根据模型的设计和实现而有所不同。有些模型可能使用中文分词工具进行预处理,这种情况下,一个汉字通常会被视为一个单独的token。然而,在其他情况下,特别是在一些基于英文的模型中,一个单词被视为一个token。

    2023-12-14 14:06:40
    赞同 展开评论 打赏
  • 有可能常用字合并的情况,model.chat中有tokenizer.decode或batch_decode可以查看 。此回答整理自钉群 “魔搭ModelScope开发者联盟群 ①”

    2023-12-14 10:39:08
    赞同 展开评论 打赏

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载