modelscope中,为什么量化后,使用原生torch推理,速度还更慢了?
这边测了Qwen1.5-1.8B-Chat-GPTQ-Int4和Qwen1.5-1.8B-Chat,推理时间差别不大,偶尔会有量化版本时间更长的情况。 awq量化,使用VLLM加速,https://github.com/modelscope/swift/blob/main/docs/source/LLM/Qwen1.5%E5%85%A8%E6%B5%81%E7%A8%8B%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352