开发者社区> 问答> 正文

LLM大语言模型有个100并发的34b模型的推理需求,不知道需要多大的GPU?

LLM大语言模型有个100并发的34b模型的推理需求,不知道需要多大的GPU?First token需要在2s内,部署的话应该是使用vLLM加速

展开
收起
三分钟热度的鱼 2024-03-20 14:28:26 543 0
2 条回答
写回答
取消 提交回答
  • 对于同时处理100个并发请求的大规模语言模型推理任务,尤其是340亿参数级别的模型,通常需要高性能的GPU集群支持。确切的GPU型号和数量取决于模型的优化程度、架构以及推理时延要求(例如First token在2秒内响应)。一般情况下,可能需要配备多个高端GPU,如NVIDIA A100或者H100等,并利用分布式推理框架以达到高并发和低延迟的要求。具体配置方案需结合阿里云的相关产品能力和实际测试效果来确定。

    2024-03-20 14:43:41
    赞同 展开评论 打赏
  • 与tokens数量有关系的,vllm性能细节不清楚,不好推荐。此回答整理自钉群“LLM大语言模型-阿里云支持”

    2024-03-20 14:41:23
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
DeepStream: GPU加速海量视频数据智能处理 立即下载
阿里巴巴高性能GPU架构与应用 立即下载
GPU在超大规模深度学习中的发展和应用 立即下载