极智AI | 谈谈为什么量化能加速推理-阿里云开发者社区

极智AI | 谈谈为什么量化能加速推理

2023-12-19 473

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

简介： 本文主要讨论一下为什么量化能加速模型推理。

本文主要讨论一下为什么量化能加速模型推理。

前面已经写过几篇关于模型量化相关的文章：《【模型推理】谈谈几种量化策略：MinMax、KLD、ADMM、EQ》、《【模型推理】谈谈模型量化组织方式》、《【模型推理】谈谈非线性激活函数的量化方式》，要了解相关知识可以查阅，这里主要讨论一下为什么量化能加速模型推理。

量化经常会涉及到 Quantize 和 Dequantize 的过程，其实对于不量化的 flow，量化是会增加操作子的，所以对于量化能加速的原因，可能并没有想象的那么简单。这里以 Conv 层来进行说明量化与不量化的速度区别。

假设输入通道为 C1，输出为 C2HW，卷积核的大小为 K，下述为各个不同类型运算指令的时钟周期：

假设未量化的 Conv 算子使用 fp16 精度进行推理，其耗时如下：

先抛开 Quantize 层和 Dequantize 层不看，单独计算量化为 int8 卷积后的耗时，需要注意的是，为了保证运算不溢出，不能够总是使用 int8 来进行卷积运算，中间计算结果有时需要使用 int16 甚至是 int32 数据类型来保存。下述 n1 表示做多少次 int8 乘加才不会溢出 int16 类型，n2 表示做多少次 int16 乘加才不会溢出 int32 类型：