机器学习PAI中vllm换成默认版本0.3.0,加上两条参数后可以正常调通了。
我想问一下,你们预期的qwen-7B模型,部署eas上加速推理后,RT最好能达到多少?
vllm主要的优势还是吞吐,而且卡型不同请求内容不同,RT时间也不太一样,可以参考下官方给的数据。 ,此回答整理自钉群“机器学习PAI交流群(答疑@值班)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。