开发者社区 > ModelScope模型即服务 > 正文

ModelScope的Qwen1.5-14B-Chat需要多少大显存?

ModelScope的Qwen1.5-14B-Chat需要多少大显存?有2块4090,48G够吗? ValueError: The model's max seq len (32768) is larger than the maximum number of tokens that can be stored in KV cache (12896). Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine. 不敢调试

展开
收起
陈幕白 2024-02-26 21:21:53 2694 17
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    对于问题1,根据错误信息,ModelScope的Qwen1.5-14B-Chat模型需要的显存超过了KV缓存能够存储的最大token数(12896)。这意味着你需要增加GPU的内存利用率(gpu_memory_utilization)或者减少初始化引擎时的max_model_len

    对于问题2,你有两块4090显卡,每块拥有48GB的显存。这总共提供了96GB的显存。是否足够取决于模型的具体需求和你的用例。如果模型需要更多的显存来处理更长的序列或者更多的并行任务,那么可能还是不够。在这种情况下,你可能需要考虑以下几点:

    • 增加GPU内存利用率:可以尝试提高gpu_memory_utilization的值,以便更充分地使用GPU显存。但请注意,过高的内存利用率可能会导致性能下降或稳定性问题。
    • 减少序列长度:如果可能,减少模型处理的最大序列长度(max_model_len),这样可以降低显存的需求。
    • 模型优化:考虑是否有可能对模型进行优化,比如使用模型剪枝、量化等技术来减少模型的大小和显存需求。
    • 分布式训练:如果单张显卡的显存不足以支持模型,可以考虑使用分布式训练,将模型的不同部分放在不同的GPU上进行处理。
    2024-02-27 13:09:35
    赞同 35 展开评论 打赏
  • 模型卡片代码,约57G,int8 18G ;你的显存也可以的, 你试试使用swift提供的vllm部署, 我帮你调试
    https://github.com/modelscope/swift/blob/main/docs/source/LLM/VLLM%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E4%B8%8E%E9%83%A8%E7%BD%B2.md 这个vllm 也是 对应的11.8 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

    2024-02-26 21:57:50
    赞同 34 展开评论 打赏

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载