备案控制台

开发者社区问答正文

在LLM大语言模型deepgpu_llm 是按 batch=10000 的方式来推理的吗？

在LLM大语言模型如果输入 list 有 10000 个 sequence，deepgpu_llm 是按 batch=10000 的方式来推理的吗？

以 vllm 为例，
from vllm import LLM
llm = LLM(..., max_num_seqs=8) # BATCH
outputs = llm.generate(
prompts = [
"你好，我的名字叫",
"你好，你的名字叫",
"你好，他的名字叫",
],
sampling_params
)我希望测试不同 batch 下的性能，这跟输入文本应该是没有关系的。vllm 的也可以参考：https://github.com/vllm-project/vllm/issues/1576

展开

收起

三分钟热度的鱼 2024-04-17 18:32:03 138 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

model.generate([start_ids], generation_config) 模式下的deepgpu-llm是自动解析输入的batch，全部一起推理此回答整理自钉群“LLM大语言模型-阿里云支持”

2024-04-17 18:52:57

赞同展开评论

问答分类：

GPU云服务器

问答标签：

LLM大语言模型 LLM语言模型 LLM大语言模型推理 LLM大语言模型batch

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

使用阿里云ECS DeepGPU后，LLM微调训练场景和Stable Diffusion推理场景的性

125

1

0

在LangChain中，如何实例化一个大型语言模型（LLM）如GPT-4？

99

1

0

modelscope-funasr的LLM智能裁剪与LLM推理的文本内容不一致这种怎么解决？

151

1

0

LLM大语言模型的cuda版本是12.0有没有对应的安装包？

111

1

0

modelscope中，为什么说在llm推理的prefill阶段？

111

0

0

通义听悟应用是如何利用大规模语言模型（LLM）进行基础算法探索和应用落地的？

180

1

0

LLM大语言模型报了这么一个错误，是不是Qwen2的加载方式变了？

111

0

0

LLM大语言模型的Qwen2-72B用哪个版本的deepGPU呢？

132

1

0

modelscope-funasr的LLM推理提示这个是怎么回事？

86

0

0

大型语言模型（LLM）有什么特点？

148

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

阿里云云企业网CEN是什么？如何使用？

阿里云全球加速GA是什么？怎么使用？

相关文章

阿里云服务器按量付费优惠参考：GPU实例按量特惠0.9折，按量达标满50返50券介绍

裸机云与GPU性能深度解析：为何它是高性能计算的基石

解决方案体验 | 基于 GPU 云服务器微调 Qwen3 模型

阿里云无影GPU云电脑NVIDIA RTX 5880显卡收费价格表，1个月和一年费用

阿里云GPU服务器全解析：实例选型、收费标准与活动价格，超强算力与灵活购买

还有其他疑问?