备案控制台

开发者社区 ModelScope模型即服务正文

modelscope中，为什么量化后，使用原生torch推理，速度还更慢了？

modelscope中，为什么量化后，使用原生torch推理，速度还更慢了？

展开

收起

小小爱吃香菜 2024-03-19 16:15:15 412 版权

1 条回答

写回答

取消提交回答

为了利利

这边测了Qwen1.5-1.8B-Chat-GPTQ-Int4和Qwen1.5-1.8B-Chat，推理时间差别不大，偶尔会有量化版本时间更长的情况。 awq量化，使用VLLM加速，https://github.com/modelscope/swift/blob/main/docs/source/LLM/Qwen1.5%E5%85%A8%E6%B5%81%E7%A8%8B%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”

2024-03-19 16:51:36

赞同 1 展开评论

相关问答

modelscope-funasr目前开源的都是标点，它原始的torch还支持顺滑吗？

108

0

0

modelscope-funasr这个量化模型在哪里下载？

170

0

0

modelscope-funasr使用离线这个推理示例音频的时候，报了错误，是为什么？

129

1

0

modelscope-funasr的paraformer-zh模型现在推理输出，是带时间戳的吗？

350

1

0

modelscope-funasr这个是torch的版本的问题吗？

94

0

0

modelscope-funasr首页上的要求不是torch>=1.13吗？

64

0

0

ModelScope中，把torch的版本降到2.3.0还是报同样的错误，怎么解决？

169

1

0

modelscope-funasr的AMD卡torch扫不到，怎么回事？

59

0

0

modelscope-funasr用GPU推理，A10和4090在性能上，是不是差很多很多？

420

1

0

用swift推理训练后的ModelScope模型，参数里model stype是不是就不需要？

124

1

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

热门讨论

热门文章

ModelScope下载速度慢怎么解决？

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

dataset的版本问题导致与modelscope不兼容

cpu部署报错 Torch not compiled with CUDA enabled

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

如何下载modelscope模型？

ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？

从modelscope下载模型失败，怎么回事？

展开全部

92_自我反思提示：输出迭代优化

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

通义DeepResearch全面开源！同步分享可落地的高阶Agent构建方法论

Ling-1T，智渊、思简

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

45_混合专家模型：MoE架构详解

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

展开全部

还有其他疑问?