开发者社区> 问答> 正文

在LLM大语言模型deepgpu_llm 是按 batch=10000 的方式来推理的吗?

在LLM大语言模型如果输入 list 有 10000 个 sequence,deepgpu_llm 是按 batch=10000 的方式来推理的吗?

以 vllm 为例,
from vllm import LLM
llm = LLM(..., max_num_seqs=8) # BATCH
outputs = llm.generate(
prompts = [
"你好,我的名字叫",
"你好,你的名字叫",
"你好,他的名字叫",
],
sampling_params
)我希望测试不同 batch 下的性能,这跟输入文本应该是没有关系的。vllm 的也可以参考:https://github.com/vllm-project/vllm/issues/1576

展开
收起
三分钟热度的鱼 2024-04-17 18:32:03 12 0
1 条回答
写回答
取消 提交回答
  • model.generate([start_ids], generation_config) 模式下的deepgpu-llm是自动解析输入的batch,全部一起推理 此回答整理自钉群“LLM大语言模型-阿里云支持”

    2024-04-17 18:52:57
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
PAI灵骏智算 构建全链路LLM服务的最佳实践 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载