LLM大语言模型有个100并发的34b模型的推理需求,不知道需要多大的GPU?First token需要在2s内,部署的话应该是使用vLLM加速
对于同时处理100个并发请求的大规模语言模型推理任务,尤其是340亿参数级别的模型,通常需要高性能的GPU集群支持。确切的GPU型号和数量取决于模型的优化程度、架构以及推理时延要求(例如First token在2秒内响应)。一般情况下,可能需要配备多个高端GPU,如NVIDIA A100或者H100等,并利用分布式推理框架以达到高并发和低延迟的要求。具体配置方案需结合阿里云的相关产品能力和实际测试效果来确定。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。