极智AI | 谈谈模型量化组织方式

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 本文主要聊一下深度学习模型量化组织方式。

本文主要聊一下深度学习模型量化组织方式。

在我的这篇 《【模型推理】谈谈推理引擎的推理组织流程》文章里对模型量化策略进行了一些介绍,有兴趣的同学可以翻看一下。今天这里主要聊一下实际推理中,怎么来组织量化过程,涉及多层之间如何衔接的问题。这里分两个部分聊一下:量化模型结构、实际举例说明。


1、量化模型结构

量化的操作会对网络模型有什么影响呢?下图以卷积为例,图左边表示对输入进行量化的过程,其中 Quantize Weight 权重量化在推理前就完成,Quantize Activation 激活值量化需要在推理时进行;图中间表示量化的卷积层运算;图右边表示怎么和后续层进行衔接。

以上描述的整个过程可以表示为 quantization -> compute -> dequantization / requantization,这样就完成了一个量化的卷积结构。最近在适配新的卡,我拿一个 tf 框架量化好的网络片断展示一下。

可以看到上述结构中既有 quantization,也有 dequantization,这些看起来很正常。注意看黄色框,是做了把两个量化层进行 tf.add 拼接的操作,tf.add 的功能十分丰富,可以做元素加、矩阵加、元素和矩阵加,也具有广播的机制,总体来说,通过 tf.add 有两种情况:(1)eltwise-add 维度不变,类似的算子有 darknet shortcut;(2)维度改变,类似算子有 darknet route、pytorch torch.nn.cat。对于常用的线性量化来说,类似算子拼接 concat / eltwise 的非线性变换对于常规量化来说其实并不友好。


2、实际举例

为了对模型量化的组织方式进行更加好的说明,这里我进行了一些举例。

2.1 Conv + Conv 结构

2.1.1 网络结构组织

假设两个 conv 都进行量化。

还未量化时的模型结构如下所示:

在经过权重量化和激活值量化后,结构示意如下:

上图中 Sr1_FxP 为定点数,不少推理框架在实际推理中会进行算子融合,从而减少层与层之间的数据搬运开销,一般会把数据搬运的对象转换为 INT 类型的 Tensor。算子融合示意如下:

不同于常规的 conv + bn + relu 的算子融合,这里其实是做量化过程特有的 conv1 + requantize 的融合,完了会得到如下 quantizedConv2d 的算子层。

2.1.2 数学关系式

对于量化过程,不只是需要对量化算子计算缩放系数,还需要进行量化网络结构组织,以及算子参数计算。

假设卷积的数学表达式如下:

激活值量化和权重量化的数学表达如下:

将上式代入原始卷积表达式中,可以得到如下式子:

由于紧接着下一层还要量化,所以 y 也需要量化,其量化方式如下:

将上式代入卷积表达式中,得到了如下式子:

根据上式,假设模型压缩后的卷积核参数为 wq,偏置为 bq,后一层 Requantize 的定点数参数为 Sr1_FxP,那么可以得到如下对应关系:

把上式代入,得到融合后的卷积量化公式是如下,其中qx、wq、qy 一般是 int8 数据类型,bq、qy1 一般是 int32 数据类型,Sr1_FxP 是个定点数:

上述的数据表达可以对应到如下示意图:

接下来介绍下 Requantize 层的计算是如何实现的,从 Requantize 的计算公式定义可知,Requantize 层实现了把一个范围的整型数映射到了另一个范围的整型数,以下是 Requantize 的计算方式:

上述式子中 k 为定点数的小数点所占比特位长度,>>k 表示比特位右移的操作。

2.2 Conv + RELU 结构

假设这个结构有两种量化形式:(1)conv 量化 + relu 量化;(2)conv 量化 + relu 不量化。

2.2.1 RELU 量化的网络结构组织

假设 Conv 和 RELU 都进行量化。

未量化的模型结构如下:

经过激活值量化和权重量化后的结构示意如下:

上图中 Sr1_FxP 为定点数,若进行算子融合,会得到如下示意图:

2.2.2 RELU 量化的数学关系式

这里沿用第一个例子的假设变量,同时假设 X4_INT 为 k,那么对于 RELU 函数的量化,我们可以得到如下的数学表达式:

其中最关键的思想是:不管是 qy > zy,还是 qy <= zy,都使用了 clip 截断函数代替了 RELU,因为使用 clip 截断到 0 以上的范围,就相当于进行了 RELU 操作。

假设模型压缩后的卷积核参数为 wq,其偏置为 bq,后一层 Requantize 的定点数参数为 Sr1_FxP,这个时候 RELU 这个层就相当于没有了,那么可以得到如下对应关系:

把上式代入,得到融合后的卷积量化公式是如下,其中 qx、wq、qy 一般是 int8 数据类型,bq、qy1 一般是 int32 数据类型,Sr1_FxP 是个定点数:

2.2.3 RELU 不量化的网络模型结构组织:

如下图所示,此时可以将 Conv1 和 Dequantize 进行算子融合,减少数据传输次数,其中 X2_INT 一般是 int32 数据类型。

2.2.4 RELU 不量化的数学表达式:

融合后,输入是 int8 数据类型,输出是浮点数据类型,数学表达如下:

同样可以得到量化后的卷积参数如下:

Dequantize 层有两种运算方案:

(1)浮点化整数,Sr1_FxP 也采用浮点运算存储,这一步就相当于直接采用了浮点运算进行缩放;

(2)类似于 Requantize 层的操作,也就是 (定点小数 * 整数) = (整数 * 整数,然后右移小数位长度),只是这里 Dequantize 输出为浮点数而已。

以上聊了一下模型量化的组织方式,并拿 Conv + Conv、Conv + RELU 的常见结构进行了介绍。


有问题欢迎沟通,收工了~


logo_show.gif


相关文章
|
7天前
|
人工智能 自然语言处理 语音技术
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
Step-Audio 是由阶跃星辰团队推出的开源语音交互模型,支持多语言、方言和情感表达,能够实现高质量的语音识别、对话和合成。本文将详细介绍其核心功能和技术原理。
207 91
Step-Audio:开源语音交互新标杆!这个国产AI能说方言会rap,1个模型搞定ASR+TTS+角色扮演
|
3天前
|
人工智能 自然语言处理 API
ComfyUI-Copilot:阿里把AI助手塞进ComfyUI:一句话生成工作流,自动布线/调参/选模型,小白秒变大神!
ComfyUI-Copilot 是阿里推出的基于 ComfyUI 的 AI 智能助手,支持自然语言交互、智能节点推荐和自动工作流辅助,降低开发门槛并提升效率。
77 6
ComfyUI-Copilot:阿里把AI助手塞进ComfyUI:一句话生成工作流,自动布线/调参/选模型,小白秒变大神!
|
10天前
|
人工智能 编解码 算法
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
53 9
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
|
10天前
|
机器学习/深度学习 人工智能 机器人
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。
79 6
TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声
|
2天前
|
人工智能 数据可视化
文本、图像、点云任意模态输入,AI能够一键生成高质量CAD模型了
《CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM》提出了一种新型系统CAD-MLLM,能够根据文本、图像、点云或其组合生成高质量的CAD模型。该系统基于大型语言模型(LLM),通过多模态数据对齐和渐进式训练策略,实现了高效的CAD模型生成。作者创建了首个包含文本、图像、点云和命令序列的多模态数据集Omni-CAD,包含约450K个实例。实验表明,CAD-MLLM在多个任务上表现出色,特别是在点云条件生成任务中显著优于现有方法。未来工作将聚焦于提升计算效率、增加数据多样性及探索新模态。
37 18
|
14天前
|
人工智能 Linux 开发工具
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
Kiln AI 是一款开源的 AI 开发工具,支持零代码微调多种语言模型,生成合成数据,团队协作开发,自动部署。帮助用户快速构建高质量的 AI 模型。
519 8
Kiln AI:零代码实现微调模型!自动生成合成数据与微调模型的开源平台
|
7天前
|
人工智能 自然语言处理 运维
AI性能极致体验:通过阿里云平台高效调用满血版DeepSeek-R1模型
DeepSeek是近期热门的开源大语言模型(LLM),以其强大的训练和推理能力备受关注。然而,随着用户需求的增长,其官网在高并发和大数据处理场景下常面临服务不稳定的问题。本文将深度测评通过阿里云平台调用满血版DeepSeek模型(671B),以充分发挥其性能和稳定性。阿里云提供高效、低延迟、大规模并发支持及稳定的云服务保障,并为用户提供100万免费token,简化操作流程,确保企业在AI应用上的高效性和成本效益。尽管如此,DeepSeek API目前不支持联网搜索和图片、文档分析功能,需结合其他工具实现。
872 16
|
4天前
|
数据采集 人工智能 监控
Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%
Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。
52 4
|
1天前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台集成 DeepSeek 模型
阿里云 AI 搜索开放平台最新上线 DeepSeek -R1系列模型。
|
6天前
|
人工智能 程序员
AI程序员能否支持claude模型
目前AI程序员对Claude模型的支持有限,该模型的准确率和采纳率尚不高。这可能影响其在实际应用中的效果和普及程度,未来需进一步优化与改进以提升性能和用户接受度。

热门文章

最新文章