Qwen1.5-14b-chat模型微调完之后,想要合并和量化为gptq-int4模型,怎么设置可以实现合并¥量化后的ModelScope模型的group_size=64呢?
Qwen1.5-14b-chat模型微调后合并并量化为GPTQ-INT4模型,设置group_size=64,这通常涉及到模型的优化和部署配置。具体步骤通常包括模型的序列化、优化器状态的处理以及量化参数的设置。以下是一个大致的流程:
微调完成后,您需要保存模型的权重和配置,例如使用torch.save()函数保存模型状态。
使用特定的工具或库,如modelscope或paddledistil(针对PaddlePaddle框架),来进行模型的合并。
在量化过程中,设置group_size=64,这通常是在量化配置文件中指定的,比如在TensorRT的配置文件中,或者在量化库的API参数中。可参官方文档
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352