备案控制台

开发者社区 ModelScope模型即服务正文

ModelScope部署的Qwen1.5-110B-Chat-GPTQ-Int4，为啥推理异常慢？

ModelScope部署的Qwen1.5-110B-Chat-GPTQ-Int4，为啥推理异常慢？

展开

收起

小小爱吃香菜 2024-05-21 21:46:16 273 版权

1 条回答

写回答

取消提交回答

为了利利

Int4模型不能vllm加速，前面也有开发者遇到过量化模型推理比较慢的情况。此回答整理自钉钉群“魔搭ModelScope开发者联盟群 ①”

2024-05-22 09:54:52

赞同展开评论

相关问答

千问Qwen3 32B大模型部署需要什么配置的GPU服务器？

670

1

0

请问MNN支持在高通或者MTK平台上部署大模型吗？

91

0

0

千问Qwen3 14B大模型部署最低配置GPU服务器要求？

738

1

0

Qwen3 32B,14B,8B大模型部署分别需要多少显存，GPU服务器如何选？

1710

1

0

千问大模型Qwen3-8B、4B、32B、235B、0.6B参数含义，需要什么配置的服务器部署？

446

1

0

部署大模型Qwen3 32B,14B,8B参数的大模型部署分别需要多少显存？

2042

1

0

阿里云部署DeepSeek 70B大模型配置推荐？

154

1

0

怎么使用vllm部署最新的qwen3的mbedding 和reranker模型呢

729

0

0

在GPU服务器上使用魔搭部署deepseek70b大模型时，有一个文件出现校验之类的错误？

146

0

0

您好，我在使用ModelScope的训练服务的时候，总是出现这个异常，请问这是什么问题？

125

0

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

cpu部署报错 Torch not compiled with CUDA enabled

如何下载modelscope模型？

从modelscope下载模型失败，怎么回事？

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？

展开全部

92_自我反思提示：输出迭代优化

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

通义DeepResearch全面开源！同步分享可落地的高阶Agent构建方法论

Ling-1T，智渊、思简

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

45_混合专家模型：MoE架构详解

51_安全性测试：提示注入与红队

展开全部

还有其他疑问?