备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

Qwen-72B-Chat-Int4 推理速度为什么比Qwen-72B-Chat慢很多

使用cli_demo.py脚本

Qwen-72B-Chat-Int4 和Qwen-72B-Chat 推理速度对比慢很多，
Qwen-72B-Chat 速度很快
换成Qwen-72B-Chat-Int4 模型，推理变得特别慢，哪位知道是怎么回事么

展开

收起

vipcong816 2023-12-28 17:24:25 1393 版权

1 条回答

写回答

取消提交回答

1941623231718325
Qwen-72B-Chat 和 Qwen-72B-Chat-Int4 是两个不同的模型变体，它们的主要区别在于权重量化的方式。

Qwen-72B-Chat 是一个常规的浮点数模型，其权重和激活函数使用的是标准的32位浮点数（FP32）表示。这种表示方式精度较高，但计算和内存需求也相对较大。

而 Qwen-72B-Chat-Int4 是一个量化模型，其权重和激活函数被量化为4位整数（INT4）。量化模型的主要优势是能够在保持一定精度的同时，显著减少计算量和内存使用，从而在某些硬件平台上提高推理速度和效率。

然而，以下原因可能导致 Qwen-72B-Chat-Int4 推理速度比 Qwen-72B-Chat 慢：
1. 硬件支持：
  
  INT4 量化模型需要特定的硬件支持才能充分发挥其优势，如专门优化的AI加速器或处理器。
  如果你的硬件不支持高效的 INT4 计算，那么量化模型的性能可能会下降。
2. 软件优化：
  
  为了实现高效的 INT4 计算，需要专门的软件库和优化器。
  如果你使用的推理框架或库没有针对 INT4 量化模型进行充分优化，那么推理速度可能会受到影响。
3. 精度损失：
  
  虽然 INT4 量化可以在一定程度上保持模型精度，但与 FP32 相比，它仍然可能存在一定的精度损失。
  如果模型的精度降低导致推理过程中需要更多的迭代或后处理步骤来达到相同的输出质量，那么推理速度可能会变慢。
4. 量化过程的影响：
  
  量化过程本身可能引入了一些额外的计算和内存访问开销，特别是在动态量化的情况下。
要解决这个问题，你可以尝试以下方法：
- 确保你的硬件和软件环境支持并优化了 INT4 量化模型的推理。
- 检查推理代码和配置，确保它们正确地加载和使用了 INT4 量化模型。
- 如果可能，尝试在支持 INT4 加速的硬件上运行推理。
- 如果硬件和软件支持不足，你可能需要考虑继续使用 FP32 模型或者寻找其他的优化策略。
2023-12-29 16:54:13

赞同 2 展开评论

相关问答

EasyNLP框架如何解决大模型参数量大、训练和推理速度慢的问题？

122

1

0

大模型应用推理要至少80GB 显存，有什么推荐的服务器？

316

1

0

通过文档上传接口上传了文件，并且拿到了文件 id，如何在大模型推理 api 里面使用这个文档 id？

259

1

0

ModelScope用这个命令推理Qwen2-57b-a14b-instruct模型，为什么报错？

195

1

0

大模型推理和大模型训练有啥区别？

2017

1

0

ModelScope中，千问2vllm推理报错是因为什么啊？

214

0

0

在百炼平台上部署大模型，只能使用灵积服务进行部署和推理吗？

214

1

0

阿里云OpenAPI千问的，推理，会进入死循环呀，怎么回事？

74

0

0

ModelScope中，关于不同参数量大模型部署推理的硬件配比指标，有参考吗？

106

0

0

ModelScope中，qwen1 github给的batch推理模块切换为qwen2不能用？

127

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

FFmpeg 官方汇编课程：写出快 5 倍的视频处理代码

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

实力强劲的机器视觉公司有哪些：2025年TOP5精选榜单

2025 年度机器视觉公司有哪些：从技术实力到落地案例的全方位选型参考

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

服务器上onnxruntime-gpu 调用结束，如何释放显存

在ModelScope中，下载模型时的ssl问题怎么解决？!

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

ModelScope通义千问是多大的模型参数，收费标准跟7B有差距吗？

ModelScope的PAI-DSW中，怎么上传一个文件夹？

展开全部

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

展开全部

还有其他疑问?