热门
qwen/Qwen-72B-Chat部署ModelScope默认直接填满第一个GPU,导致内存溢出,这个有解决办法吗?
vllm 部署的话,有个参数可以设置,--tensor_parallel_size 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352