您好,我在使用GPU调用模型预估时,出现了显存溢出的报错:“CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 9.77 GiB total capacity; 8.05 GiB already allocated; 4.69 MiB free; 8.29 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF”,我本机一共4卡,请问如何使用多卡进行模型预估呢?
pipeline 推理的话可以修改 configuration.json 文件中 megatron 部分的 world_size 和 tensor_model_parallel_size 为实际并行卡数,之后直接使用 model card 中的 pipeline 示例代码即可,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
你好,需要确保你的模型可以在多GPU环境下运行。PyTorch可以通过DataParallel或DistributedDataParallel实现多GPU并行计算。