请教下llama2-70使用3090卡推理的话,大概需要几张卡,全参数微跳的话需要几张卡
要估计LLaMA-2 70B模型在NVIDIA GeForce RTX 3090显卡上推理所需的显卡数量,我们需要考虑以下因素:
显存占用:
模型并行性:
推理速度:
由于没有具体的实验数据或官方推荐配置可以参考,这里只能提供一个大致的估算:
假设你打算使用一张RTX 3090显卡进行推理,而该模型的显存占用超过了24GB(这是基于之前的一些经验法则),那么理论上你需要至少两张卡才能进行推理。
推理代码 (+4bit量化), 显存占用: 40G https://github.com/modelscope/swift/blob/main/examples/pytorch/llm/scripts/llama2_70b_chat/qlora_ddp_ds/sft.sh。此回答整理自钉钉群:魔搭ModelScope开发者联盟群 ①