开发者社区 > 通义大模型 > 正文

大模型的token是怎么计算的?

已解决

大模型的token是怎么计算的?纯中文、纯英文、中英混合、数字混合都是怎么计算的,始终没找到一个清晰的计算方式说明。

展开
收起
html的七十二变 2024-09-24 11:08:01 888 0
1 条回答
写回答
取消 提交回答
  • 采纳回答

    大模型中Token的计算方法如下:

    纯中文文本Token计算

    • 估算比率:1个Token通常对应1.5-1.8个汉字。因此,若要估算中文文本的Token数量,可以将汉字总数乘以1.5至1.8。

    纯英文文本Token计算

    • 单词计数法:英文文本中,1个Token大致对应1个单词。
    • 字母计数法:另一种估算方式是将字母数量除以3至4,以此来近似Token数量,因英文单词长度不一,此法为粗略估算。

    中英混合与数字混合文本Token计算

    • 对于中英混合或包含数字的文本,虽然没有直接的转换公式,但可以分别对中文和英文部分应用上述估算方法,数字通常会被视作英文单词或单独Token处理,具体取决于模型对数字的处理规则。

    图片Token计算

    • 图片转换为Token的规则较为复杂,依据图像的分辨率按比例换算。例如,分辨率为512*512像素的图像约等于334个Token,且图像的长或宽非28的整数倍时,会向上取整至28的整数倍计算。一张图最少4个Token,最多可至特定模型允许的最大Token数,如qwen-vl-max系列模型可接受单张图片最大输入为16384个Token。

    请注意,不同模型有其特定的输入输出Token限制,务必参照具体模型的参数进行调整和计费。此外,标点符号和特殊字符在中英文中都会被视为独立的Token。

    2024-09-24 22:10:06
    赞同 210 展开评论 打赏
问答地址:

通义千问大模型家族全面升级更大参数规模模型首次面世,全新通义千问2.0版本欢迎体验。https://tongyi.aliyun.com/

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载