ModelScope中,我用swift lora微调了一个qwen 14b模型,然后合并了原模型和微调部分,但部署的时候太耗费资源了,我想量化下这个模型,modelscope 有对应的方法和文档么
您好,ModelScope 是一个一站式的开源模型即服务共享平台。对于模型量化的需求,您可以采用 BitsAndBytes 方法来进行8bits量化。这种方法在量化后能基本保持性能无损,并且已经集成到了 transformers 库中。基于 BitsAndBytes,ModelScope 提供了在线量化和离线8bits模型两种方式。此外,为了进一步优化模型的部署效率,您还可以考虑使用低比特量化模型,例如 Yi-34B-Chat 的 4bit 量化版模型,这种模型可以在消费级显卡(如RTX3090)上直接使用。
目前千问有一个qwen.cpp可以做c++部署
https://github.com/QwenLM/qwen.cpp
——此回答整理自钉群:魔搭ModelScope开发者联盟群 ①