使用cli_demo.py脚本
Qwen-72B-Chat-Int4 和Qwen-72B-Chat 推理速度对比慢很多,
Qwen-72B-Chat 速度很快
换成Qwen-72B-Chat-Int4 模型,推理变得特别慢,哪位知道是怎么回事么
Qwen-72B-Chat 和 Qwen-72B-Chat-Int4 是两个不同的模型变体,它们的主要区别在于权重量化的方式。
Qwen-72B-Chat 是一个常规的浮点数模型,其权重和激活函数使用的是标准的32位浮点数(FP32)表示。这种表示方式精度较高,但计算和内存需求也相对较大。
而 Qwen-72B-Chat-Int4 是一个量化模型,其权重和激活函数被量化为4位整数(INT4)。量化模型的主要优势是能够在保持一定精度的同时,显著减少计算量和内存使用,从而在某些硬件平台上提高推理速度和效率。
然而,以下原因可能导致 Qwen-72B-Chat-Int4 推理速度比 Qwen-72B-Chat 慢:
硬件支持:
软件优化:
精度损失:
量化过程的影响:
要解决这个问题,你可以尝试以下方法: