文档备案控制台

开发者社区 ModelScope模型即服务正文

GLM4.5 8-bit量化报错

GLM4.5推理可以跑通，但是设置精度为FP8再跑就报错了，看上去是不支持FP8，有哪位大佬了解解决方法么？
报错的原因是 raise ValueError(f"Unsupported quant_config: {quant_config}")

展开

收起

GLM-4.5-Demo

xinweipaul3 2025-08-05 18:58:43 438 版权

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长
GLM4.5 目前官方权重和代码都没有放出 FP8 版本，你看到的 raise ValueError(f"Unsupported quant_config: {quant_config}") 是因为：
你传入的 quant_config={"quantmethod":"fp8"}（或 --quantization fp8）
但 GLM4.5 的 modeling*.py 里只登记了 ["awq","gptq","bnb","eetq"] 等量化方案，没有 "fp8" 这一项，于是被框架直接 ValueError 拦下来。
换句话说——不是 GPU 不支持 FP8，而是模型代码还没写 FP8 分支。

改用 AWQ-INT4（已验证）
```
vllm serve zai-org/glm-4.5-air-awq \
  --quantization awq \
  --tensor-parallel-size 2
```
2025-08-06 08:15:46

赞同 972 展开评论

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

92601

50

0

this xml file does not appear to have any style in

61105

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

141893

16

0

C语言数组赋值报错，打印出来的是乱码，怎么解决？

1570

1

0

#支付宝授权提示请在支付宝客户端打开链接

24405

19

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

283894

11

0

#支付宝周期扣款无线端唤起签约页面提示“免密支付安全验证”？

8095

2

0

阿里云怎样设置二级域名以及域名解析？

66838

14

0

基础语言百问-Python

69578

30

0

sql server的用户名和密码怎么查啊？

41338

21

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉答疑群：44837352

我要提问

热门讨论

热门文章

ModelScope中，模型下载默认路径在哪个路径？

在ModelScope中，这个下载文件是模型文件吗？存储路径能改吗？

modelscope-funasr的onnxruntime c++只能使用onnx结尾的模型吗？

下载ModelScope模型默认放在哪个目录下啊，可以指定目录吗？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

com/action/joingroup?code=v1是什么意思

ModelScope下载速度慢怎么解决？

cuda 是11.3，ModelScope的mmcv怎么安装？

IndexTTS 部署报错：No module named 'tn'

modelscope中snapshot- download是自带断点续下吗？

展开全部

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

GLM-4V-Flash：智谱 AI 免费开放的图像理解大模型 API 接口

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Hermes Agent：深度技术剖析报告

在魔搭使用ComfyUI，玩转AIGC

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

AgentScope 2.0 发布：从"跑通 Demo"到"稳定落地"，构建可靠智能体的工程底座

展开全部

还有其他疑问?