热门
用swift做对baichuan2 7b chat做modelscope awq的int4量化,特别容易爆显存,怎么解决?
与vllm预分配显存有关,gpu_memory_utilization, max_model_len这两个可以设置一下哈。此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
分批处理:
如果模型太大,无法一次性加载到GPU中,可以考虑将数据分批处理,每次只处理模型的一部分。梯度累积:
使用梯度累积技术,通过在多个小批量上累积梯度,然后一次性更新权重,这样可以减少每次迭代所需的显存。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352