根据阿里云计费单元和基础限流的设定>,Qwen-Long模型服务对于调用频次的限制是每分钟不超过100次API调用,即100 QPM(Queries Per Minute),而对于响应时间并没有直接提及具体的性能标准。然而,您提到的Max模型响应时间超过一分钟的情况,并未在提供的参考资料中直接涉及。
通常情况下,模型响应时间受到多种因素影响,包括但不限于网络延迟、服务器负载、模型复杂度及输入数据大小等。虽然基础限流中未对Token消耗设置直接限制,长时间的响应可能与模型处理复杂度高、输入数据量大或是系统当前负载状况有关,而不直接等同于服务不正常。
若Max模型的响应时间远超预期,建议采取以下措施:
请注意,具体的服务水平协议(SLA)和性能标准可能需要参考阿里云官方的最新文档或直接与客服确认,以获得最准确的信息。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
基于通义系列大模型和开源大模型的一站式大模型服务平台,提供「生成式大模型的全流程应用工具」和「企业大模型的全链路训练工具」。为大模型,也为小应用。 阿里云百炼官网网址:https://www.aliyun.com/product/bailian