在LLM大语言模型如果输入 list 有 10000 个 sequence,deepgpu_llm 是按 batch=10000 的方式来推理的吗?
以 vllm 为例,
from vllm import LLM
llm = LLM(..., max_num_seqs=8) # BATCH
outputs = llm.generate(
prompts = [
"你好,我的名字叫",
"你好,你的名字叫",
"你好,他的名字叫",
],
sampling_params
)我希望测试不同 batch 下的性能,这跟输入文本应该是没有关系的。vllm 的也可以参考:https://github.com/vllm-project/vllm/issues/1576
model.generate([start_ids], generation_config) 模式下的deepgpu-llm是自动解析输入的batch,全部一起推理 此回答整理自钉群“LLM大语言模型-阿里云支持”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。