ModelScope的Qwen1.5-14B-Chat需要多少大显存？

ModelScope的Qwen1.5-14B-Chat需要多少大显存？有2块4090，48G够吗? ValueError: The model's max seq len (32768) is larger than the maximum number of tokens that can be stored in KV cache (12896). Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine. 不敢调试

展开

收起

陈幕白 2024-02-26 21:21:53 2694 17

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
对于问题1，根据错误信息，ModelScope的Qwen1.5-14B-Chat模型需要的显存超过了KV缓存能够存储的最大token数（12896）。这意味着你需要增加GPU的内存利用率（gpu_memory_utilization）或者减少初始化引擎时的max_model_len。

对于问题2，你有两块4090显卡，每块拥有48GB的显存。这总共提供了96GB的显存。是否足够取决于模型的具体需求和你的用例。如果模型需要更多的显存来处理更长的序列或者更多的并行任务，那么可能还是不够。在这种情况下，你可能需要考虑以下几点：
- 增加GPU内存利用率：可以尝试提高gpu_memory_utilization的值，以便更充分地使用GPU显存。但请注意，过高的内存利用率可能会导致性能下降或稳定性问题。
- 减少序列长度：如果可能，减少模型处理的最大序列长度（max_model_len），这样可以降低显存的需求。
- 模型优化：考虑是否有可能对模型进行优化，比如使用模型剪枝、量化等技术来减少模型的大小和显存需求。
- 分布式训练：如果单张显卡的显存不足以支持模型，可以考虑使用分布式训练，将模型的不同部分放在不同的GPU上进行处理。
2024-02-27 13:09:35

赞同 35 展开评论打赏
顾九思

模型卡片代码，约57G，int8 18G ；你的显存也可以的, 你试试使用swift提供的vllm部署, 我帮你调试
https://github.com/modelscope/swift/blob/main/docs/source/LLM/VLLM%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E4%B8%8E%E9%83%A8%E7%BD%B2.md 这个vllm 也是对应的11.8 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-02-26 21:57:50

赞同 34 展开评论打赏