为了保证用户调用模型的公平性,通义千问对于普通用户设置了基础限流。限流是基于模型维度的,并且和调用用户的阿里云主账号相关联,按照该账号下所有API-KEY调用该模型的总和计算限流。如果超出调用限制,用户的API请求将会因为限流控制而失败,用户需要等待一段时间待满足限流条件后方能再次调用。通义千问大模型的并发限制具体情况如下:
qwen-long :调用频次 ≤ 100 QPM,每分钟不超过100次API调用; Token消耗暂无限制。
qwen-turbo :调用频次 ≤ 500 QPM,每分钟不超过500次API调用; Token消耗 ≤ 500,000 TPM,每分钟消耗的token数目不超过500,000。
qwen-turbo-0624、qwen-turbo-0206 :调用频次 ≤ 60 QPM,每分钟不超过60次API调用; Token消耗 ≤ 60,000 TPM,每分钟消耗的token数目不超过60,000。
qwen-plus :调用频次 ≤ 200 QPM,每分钟不超过200次API调用; Token消耗 ≤ 200,000 TPM,每分钟消耗的token数目不超过200,000。
qwen-plus-0624、qwen-plus-0206 :调用频次 ≤ 60 QPM,每分钟不超过60次API调用; Tok
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。