极智AI | 量化实现分享三:详解ACIQ对称量化算法实现

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: 大家好,我是极智视界,本文剖析一下ACIQ 对称量化算法实现,以 Tengine 的实现为例。

大家好,我是极智视界,本文剖析一下ACIQ 对称量化算法实现,以 Tengine 的实现为例。

这是量化实现的第三篇,前面还有一、二,有兴趣的同学可以查阅

(1) 《【模型推理】量化实现分享一:详解 min-max 对称量化算法实现》;

(2)《【模型推理】量化实现分享二:详解 KL 对称量化算法实现》;

ACIQ 和前面的量化策略类似,也是会截取一个阈值 T,然后将 [-T, T] 映射到量化值域,不同的是寻找 T 的过程,本文不止讲原理,也结合 tengine 讲讲量化策略的实现。下面开始。


1、ACIQ 量化策略原理

ACIQ 量化策略在论文《Post training 4-bit quantization of convolutional networks for rapid-deployment》中被提出,先贴一下效果:

上图比对统一采用 8-bit 权值量化、4-bit 激活值量化,在量化效率上 ACIQ 比 KL 量化过程快 4000 倍(unbelievable~),在量化精度上,可以看到除了 resnet-101,其他测试的网络量化效果均好于 KL 量化,可以说是效率和效果一个也不落。

在文章的一开始,作者就写道 Unlike traditional approaches that focus on the quantization at the network level, in this work we propose to minimize the quantization effect at the tensor level. 可以看出 ACIQ 是从 Tensor 级别出发的量化策略,整个推导逻辑主要是:

(1) first, derive a generic expression for any given distribution for the expected MSE as a function of clipping value;

(2) then use this expression to develop a specifific expression for each distribution;

(3) finally, establish the optimal clipping values by solving the equations for which the derivative with respect to the clipping value are set to zero;

通常在量化的时候需要做裁剪,以应对原始数据的长尾问题,假设 α 为截断值,截断可以表示为:

ACIQ 需要一个较强先验假设:Tensor (feature map) 服从拉普拉斯分布或高斯分布,然后采用最优化思想求解量化过程截断值对应的最小量化损失,整个量化过程是将服从原始分布的值映射到 2^M量化离散值域,M 为量化比特数,意思是将上面的 [-α, α] 的值域等分给 2^M,如下图:

假设原始分布的概率密度函数为 f(x),截断值 α 以及量化函数 Q(x),则量化前后的 L2 Loss 可以这么计算:

以上算式很明显可以分为三个部分:

(1) [负无穷, -α];

(2) [-α, α];

(3) [α, 正无穷];

对于高斯分布N(0, σ^2) 或者 拉普拉斯分布 Laplace(0, b)) 这种 0 轴对称分布来说,(1) 和 (3) 是等价的,含义是 |x| 到 |α| 之间的均方误差 (mean-square-error)。在做 [-α, α] 等分映射到 2^M 后,每个量化值会取每段中间的值 q1、q2、q3 ... q2^M,第 (2) 项就是中间截断的累计误差。现在整个量化过程转化为求一个使 E[(X - Q(X))^2] 最小的截断值 α (深度学习到最后都是数学问题啊~~),然后再结合先验分布,做一些公式的等价变换~变换~之后,得到最终的整体量化损失优化目标函数:

数学上,要求目标函数的最小值 ==> 求偏导,令其为 0。

对于拉普拉斯分布来说,求偏导后的表达式为:

对于高斯分布来说,求偏导后的表达式为:

最后不管对于拉普拉斯分布还是高斯分布来说,M 是你想量化的比特位,还有像 β (拉普拉斯分布参数)、σ (高斯分布参数) 这些都是已知值,自然可以求出我们想要的截断值 α 了,对于对称量化来说有了截断值就 ok 了。


2、ACIQ 量化策略实现

下面来看 ACIQ 在 tengine 中的实现。

量化实现主要代码:

case ALGORITHM_ACIQ:{
    if (quant_tool.scale_file.empty()){
        quant_tool.scale_file = "table_aciq.scale";
        quant_tool.activation_quant_tool();
    }
    save_graph_i8_perchannel(quant_tool.model_file.c_str(), quant_tool.scale_file.c_str(), quant_tool.output_file, quant_tool.inplace, false);
    /* Evaluate quantitative losses */
    if (quant_tool.evaluate){
        fprintf(stderr, "[Quant Tools Info]: Step Evaluate, evaluate quantitative losses\n");
        quant_tool.assess_quant_loss(0);
    }
    break;
}

2.1 激活值量化

激活值量化入口:

quant_tool.activation_quant_tool();

首先就是求 min、max 值,这个过程和前面写过的量化策略是一样的逻辑,就不多说了,接着进 ACIQ 策略:

for (int i = 0; i < ir_graph->tensor_num; i++){
    struct tensor* t = ir_graph->tensor_list[i];
    if (t->tensor_type == TENSOR_TYPE_VAR || t->tensor_type == TENSOR_TYPE_INPUT){
        float absmax = 0.f;
        float act_scale = 1.f;
        int act_zero_point = 0;
        int emlement_num = t->elem_num;
        absmax = std::max(std::abs(max_activation[i]), std::abs(min_activation[i]));
        float threshold = compute_aciq_gaussian_clip(absmax, emlement_num, 8);
        act_scale = threshold / 127.f;
        /* the scale of softmax is always scale = 1 / 127.f */
        for (int j = 0; j < ir_graph->node_num; j++){
            struct node* noden = ir_graph->node_list[j];
            struct tensor* tensor_tmp = get_ir_graph_tensor(ir_graph, noden->output_tensors[0]);
            if (!(tensor_tmp->tensor_type == TENSOR_TYPE_INPUT || tensor_tmp->tensor_type == TENSOR_TYPE_VAR))
                continue;
            std::string tmp_op_name = get_op_name_from_type(noden->op.type);
            std::string cur_name = t->name;
            std::string tmp_name = tensor_tmp->name;
            if ((cur_name == tmp_name) && tmp_op_name == "Softmax"){
                act_scale = 1 / 127.f;
                break;}
        }
        fprintf(fp_aciq, "%s %f %d\n", ir_graph->tensor_list[i]->name, act_scale, act_zero_point);}
}

关键是这个函数,tengine 里默认先验服从高斯分布, int8 量化:

float threshold = compute_aciq_gaussian_clip(absmax, emlement_num, 8);

来看一下它的实现:

static float compute_aciq_gaussian_clip(float absmax, int N, int num_bits)
{
    const float alpha_gaussian[8] = {0, 1.71063519, 2.15159277, 2.55913646, 2.93620062, 3.28691474, 3.6151146, 3.92403714};   // 当8-bit量化时,α=3.92403714
    const double gaussian_const = (0.5 * 0.35) * (1 + sqrt(3.14159265358979323846 * log(4))); 
    double std = (absmax * 2 * gaussian_const) / sqrt(2 * log(N));  
    return (float)(alpha_gaussian[num_bits - 1] * std);
}

这样就得到了截断值,然后就可以求 scale 了:

act_scale = threshold / 127.f;

这样就完成了激活值的量化。

2.2 权值&偏置量化

权值&偏置的量化过程和前面介绍过的 MIN-MAX 和 KL 量化的逻辑一样,这里不再赘述。

最后实践一下,可以发现 ACIQ 的量化过程十分的快,比 KL 量化快 4000 倍不是瞎说的,主要是源于先验的高斯分布 alpha_gaussian、gaussian_const、std 这些值不需要进行搜索。


以上分享了 ACIQ 的量化原理和实现,希望我的分享能对你的学习有一点帮助。


logo_show.gif

相关文章
|
29天前
|
传感器 人工智能 监控
智慧工地 AI 算法方案
智慧工地AI算法方案通过集成多种AI算法,实现对工地现场的全方位安全监控、精准质量检测和智能进度管理。该方案涵盖平台层、展现层与应用层、基础层,利用AI技术提升工地管理的效率和安全性,减少人工巡检成本,提高施工质量和进度管理的准确性。方案具备算法精准高效、系统集成度高、可扩展性强和成本效益显著等优势,适用于人员安全管理、施工质量监控和施工进度管理等多个场景。
|
1月前
|
传感器 人工智能 监控
智慧电厂AI算法方案
智慧电厂AI算法方案通过深度学习和机器学习技术,实现设备故障预测、发电运行优化、安全监控和环保管理。方案涵盖平台层、展现层、应用层和基础层,具备精准诊断、智能优化、全方位监控等优势,助力电厂提升效率、降低成本、保障安全和环保合规。
智慧电厂AI算法方案
|
14天前
|
机器学习/深度学习 缓存 人工智能
【AI系统】QNNPack 算法
QNNPACK是Marat Dukhan开发的量化神经网络计算加速库,专为移动端优化,性能卓越。本文介绍QNNPACK的实现,包括间接卷积算法、内存重排和间接缓冲区等关键技术,有效解决了传统Im2Col+GEMM方法存在的空间消耗大、缓存效率低等问题,显著提升了量化神经网络的计算效率。
32 6
【AI系统】QNNPack 算法
|
14天前
|
存储 人工智能 缓存
【AI系统】Im2Col 算法
Caffe 作为早期的 AI 框架,采用 Im2Col 方法优化卷积计算。Im2Col 将卷积操作转换为矩阵乘法,通过将输入数据重排为连续内存中的矩阵,减少内存访问次数,提高计算效率。该方法首先将输入图像转换为矩阵,然后利用 GEMM 库加速计算,最后将结果转换回原格式。这种方式显著提升了卷积计算的速度,尤其适用于通道数较多的卷积层。
36 5
【AI系统】Im2Col 算法
|
14天前
|
存储 机器学习/深度学习 人工智能
【AI系统】Winograd 算法
本文详细介绍Winograd优化算法,该算法通过增加加法操作来减少乘法操作,从而加速卷积计算。文章首先回顾Im2Col技术和空间组合优化,然后深入讲解Winograd算法原理及其在一维和二维卷积中的应用,最后讨论算法的局限性和实现步骤。Winograd算法在特定卷积参数下表现优异,但其应用范围受限。
29 2
【AI系统】Winograd 算法
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
54 2
【AI系统】感知量化训练 QAT
|
14天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
40 1
【AI系统】训练后量化与部署
|
2天前
|
人工智能 算法
AI+脱口秀,笑点能靠算法创造吗
脱口秀是一种通过幽默诙谐的语言、夸张的表情与动作引发观众笑声的表演艺术。每位演员独具风格,内容涵盖个人情感、家庭琐事及社会热点。尽管我尝试用AI生成脱口秀段子,但AI缺乏真实的情感共鸣和即兴创作能力,生成的内容显得不够自然生动,难以触及人心深处的笑点。例如,AI生成的段子虽然流畅,却少了那份不期而遇的惊喜和激情,无法真正打动观众。 简介:脱口秀是通过幽默语言和夸张表演引发笑声的艺术形式,AI生成的段子虽流畅但缺乏情感共鸣和即兴创作力,难以达到真人表演的效果。
|
1月前
|
机器学习/深度学习 传感器 人工智能
智慧无人机AI算法方案
智慧无人机AI算法方案通过集成先进的AI技术和多传感器融合,实现了无人机的自主飞行、智能避障、高效数据处理及多机协同作业,显著提升了无人机在复杂环境下的作业能力和安全性。该方案广泛应用于航拍测绘、巡检监测、应急救援和物流配送等领域,能够有效降低人工成本,提高任务执行效率和数据处理速度。
智慧无人机AI算法方案
|
18天前
|
存储 人工智能 缓存
【AI系统】布局转换原理与算法
数据布局转换技术通过优化内存中数据的排布,提升程序执行效率,特别是对于缓存性能的影响显著。本文介绍了数据在内存中的排布方式,包括内存对齐、大小端存储等概念,并详细探讨了张量数据在内存中的排布,如行优先与列优先排布,以及在深度学习中常见的NCHW与NHWC两种数据布局方式。这些布局方式的选择直接影响到程序的性能,尤其是在GPU和CPU上的表现。此外,还讨论了连续与非连续张量的概念及其对性能的影响。
42 3

热门文章

最新文章

下一篇
DataWorks