开发者社区 ModelScope模型即服务正文

ModelScope中，单张4090，跑qwen1.5-14b-awq，能支持多少并发？

展开

收起

小小爱吃香菜 2024-04-02 17:26:25 802 版权

阿里云 AI 助理回答

在ModelScope中，使用单张NVIDIA GeForce RTX 4090显卡运行 qwen1.5-14b-awq 模型时，支持的并发量主要取决于以下几个因素：

qwen1.5-14b 是一个参数量为140亿的大模型，经过AWQ（Activation-aware Weight Quantization）量化后，显存占用会显著降低。
根据知识库中的资源配置要求，qwen1.5-14b模型需要至少 V100（32 GB显存）/A10及以上显卡 运行训练或推理任务。RTX 4090拥有 24 GB GDDR6X 显存，理论上可以满足AWQ量化后的推理需求，但显存余量较小，可能限制高并发性能。

AWQ是一种高效的量化方法，能够在保持较高推理精度的同时，显著减少显存占用和计算开销。
经过AWQ量化后，qwen1.5-14b的显存占用通常可从原始FP16格式的约 28 GB 降低至 10-12 GB 左右（具体数值取决于实现细节）。

单张RTX 4090的显存为24 GB，假设AWQ量化后的qwen1.5-14b模型占用约 12 GB 显存，则剩余显存可用于支持多实例并发推理。
每个并发请求的显存需求包括：
- 模型权重：固定占用（约12 GB，所有并发共享）。
- 中间激活值：每个并发请求独立占用，通常为几百MB到1 GB不等，具体取决于输入序列长度。
假设每个并发请求的中间激活值占用 0.8 GB 显存，则剩余显存（24 GB - 12 GB = 12 GB）可支持的并发数为： [ \text{并发数} = \frac{\text{剩余显存}}{\text{每请求显存}} = \frac{12}{0.8} \approx 15 ]

硬件限制：RTX 4090的显存容量有限，若输入序列较长（如接近最大上下文长度32768 tokens），中间激活值的显存占用会增加，从而降低并发能力。
软件优化：通过以下方式可进一步提升并发能力：
- 使用更高效的量化方法（如GPTQ或混合精度推理）。
- 调整批处理大小（batch size）以平衡吞吐量和延迟。
- 启用流式输出（streaming output）以减少显存峰值占用。

在单张RTX 4090显卡上运行 qwen1.5-14b-awq 模型时，理论上可支持 约10-15个并发请求，具体数值取决于输入序列长度和中间激活值的显存占用情况。如果需要更高的并发能力，建议使用更高显存的GPU（如A100 40 GB或H100）或分布式部署方案。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问