热门
ModelScope部署的Qwen1.5-110B-Chat-GPTQ-Int4,为啥推理异常慢?
Int4模型不能vllm加速,前面也有开发者遇到过量化模型推理比较慢的情况。 此回答整理自钉钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352