备案控制台

开发者社区人工智能文章正文

模型压缩与量化

2025-12-12 20

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 模型压缩通过量化、稀疏化、知识蒸馏等技术，减小模型体积与计算开销，助力大模型在端侧部署。涵盖INT8/INT4、GPTQ、SmoothQuant等方法，平衡压缩比、精度与速度，并支持实战量化加载，提升推理效率。

🎯 概述
模型压缩通过减少模型大小和计算量，使大模型能够在资源受限的环境中部署。
🏗️ 压缩技术
1️⃣ 权重量化
● INT8量化：将FP32权重压缩到INT8，4倍压缩
● INT4量化：进一步压缩到4位，8倍压缩
● GPTQ：基于二阶信息的量化方法
2️⃣ 激活量化
● 动态量化：运行时量化激活值
● 静态量化：校准数据集预计算量化参数
● SmoothQuant：解决激活异常值问题
3️⃣ 稀疏化
● 非结构化稀疏：随机权重置零
● 结构化稀疏：通道/块级稀疏
● N:M稀疏：每M个权重保留N个
4️⃣ 知识蒸馏
● 量化感知蒸馏：结合量化和蒸馏
● 渐进式量化：逐步降低精度
📊 量化方法对比
方法压缩比精度损失推理速度实现难度
INT8 4x <1% 2-3x 低
INT4 8x 1-3% 3-4x 中
GPTQ 8x <1% 3-4x 中
AWQ 8x <0.5% 3-4x 中
🎯 实战代码

使用bitsandbytes进行量化

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

INT4量化配置

bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)

加载量化模型

model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-2-7b-hf",
quantization_config=bnb_config,
device_map="auto"
)
剪枝
🎯 面试重点

INT8和INT4量化的区别？
如何解决量化后的精度损失？
GPTQ和AWQ的算法原理？
量化对推理速度的影响？

文章标签：

算法

游客vhylg5zno4ifs

目录

相关文章

阿里云安全_

|

4天前

|

云安全监控安全

助力企业应对React框架高危漏洞，阿里云多款安全产品限时免费

领取限时免费产品，立即开始防护

阿里云安全_

3038 3 5

游客cvdjhnedbobzm

|

2天前

|

存储机器学习/深度学习人工智能

打破硬件壁垒！煎饺App：强悍AI语音工具，为何是豆包AI手机平替？

直接上干货！3000 字以上长文，细节拉满，把核心功能、使用技巧和实测结论全给大家摆明白，读完你就知道这款 “安卓机通用 AI 语音工具"——煎饺App它为何能打破硬件壁垒？它接下来，咱们就深度拆解煎饺 App—— 先给大家扒清楚它的使用逻辑，附上“操作演示”和“🚀快速上手不踩坑 : 4 条核心操作干货(必看)”，跟着走零基础也能快速上手；后续再用真实实测数据，正面硬刚煎饺 App的语音助手口令效果——创建京东「牛奶自动下单神器」口令，从修改口令、识别准确率到场景实用性，逐一测试不掺水，最后，再和豆包 AI 手机语音助手的普通版——豆包App对比测试下，简单地谈谈煎饺App的能力边界在哪？

游客cvdjhnedbobzm

1026 3 4

阿里云安全_

|

7天前

|

云安全安全前端开发

React框架被曝最高危险等级漏洞，阿里云一键防护指南速览

快速修复

阿里云安全_

2776 4 10

modelscope

|

9天前

|

机器学习/深度学习人工智能自然语言处理

Z-Image：冲击体验上限的下一代图像生成模型

通义实验室推出全新文生图模型Z-Image，以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成，支持16GB显存设备，中英双语理解与文字渲染尤为出色，真实感和美学表现媲美国际顶尖模型，被誉为“最值得关注的开源生图模型之一”。

modelscope

1127 7 12

bailiantest1

|

11天前

|

机器学习/深度学习人工智能数据可视化

1秒生图！6B参数如何“以小博大”生成超真实图像？

Z-Image是6B参数开源图像生成模型，仅需16GB显存即可生成媲美百亿级模型的超真实图像，支持中英双语文本渲染与智能编辑，登顶Hugging Face趋势榜，首日下载破50万。

bailiantest1

724 42 48

阿里云开发者

|

15天前

|

人工智能 Java API

Java 正式进入 Agentic AI 时代：Spring AI Alibaba 1.1 发布背后的技术演进

Spring AI Alibaba 1.1 正式发布，提供极简方式构建企业级AI智能体。基于ReactAgent核心，支持多智能体协作、上下文工程与生产级管控，助力开发者快速打造可靠、可扩展的智能应用。

阿里云开发者

1169 41 57

阿里云开发者

|

15天前

|

人工智能前端开发算法

大厂CIO独家分享：AI如何重塑开发者未来十年

在 AI 时代，若你还在紧盯代码量、执着于全栈工程师的招聘，或者仅凭技术贡献率来评判价值，执着于业务提效的比例而忽略产研价值，你很可能已经被所谓的“常识”困住了脚步。

阿里云开发者

934 77 85

大厂CIO独家分享：AI如何重塑开发者未来十年

阿里云云原生

|

3天前

|

人工智能安全前端开发

AgentScope Java v1.0 发布，让 Java 开发者轻松构建企业级 Agentic 应用

AgentScope 重磅发布 Java 版本，拥抱企业开发主流技术栈。

阿里云云原生

310 9 10

huizhudev

|

1天前

|

人工智能 JSON 前端开发

为什么你的API文档总是被吐槽？用这份"契约指令"终结前后端战争

本文针对前后端协作中"文档过时、不准确"的痛点，提供了一套实战验证的AI指令。通过强制结构化输入和自检机制，让AI自动生成包含完整参数、JSON示例和多语言代码的标准API契约文档，彻底解决接口沟通难题。

huizhudev

171 112 115

灵杰开发者

|

11天前

|

存储自然语言处理测试技术

一行代码，让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略

本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试，用真实数据复刻事故现场，助力开发者规避“查询雪崩”，为您的业务保驾护航。

灵杰开发者

560 32 35

热门文章

最新文章

sudo apt-get update提示E: 仓库 “http://mirrors.aliyun.com/ubuntu eoan Release” 没有 Release 文件。亲试解决办法

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

kettle用命令行执行ktr和kjb

阿里云商标优选官网入口链接地址（明码标价）

Mysql5.7安装超详细教学

docker pull 相关配置

? error: cannot open C:\Users???\AppData\Local\Temp\main.obj.5136.0.jom for write

adpatch options=hotpatch 适用于大小小于1M 的小补丁，不适合大补丁

Current Analysis：安全和价值是物联网最大障碍

CentOS虚拟机如何设置共享文件夹，并在Windows下映射网络驱动器？

Coze vs Dify vs n8n：三大AI智能体开发平台全面对比

2025年开源AI知识库深度体验：PandaWiki重新定义企业知识管理

Oracle 数据塑形：行列转换与集合运算

构建AI智能体：五十三、反应式应急+深思式优化：反应速度与规划智慧的平衡

云时代的身份安全：别再靠“密码123456”扛风险了

别再把 Collector 当黑箱：OpenTelemetry Collector 拓展与自定义处理器实战指南

为什么企业离不开元数据管理？——因为数据混乱，比加班更可怕！

《游戏公会系统激活活跃度与筑牢归属感的实战指南》

《新手零抵触的教学引导设计指南》

阿里云搭建网站收费标准:自建网站、云小智AI建站和云企业官网价格更新

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云服务器快照备份数据怎么下载到本地保存？