【白话模型量化系列一】矩阵乘法量化-阿里云开发者社区

【白话模型量化系列一】矩阵乘法量化

2022-06-26 545

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 矩阵乘法量化

- BEGIN -

模型量化是模型加速方向一个很重要的方法，主要思想就是用int8数据格式来存储和进行计算。这样做有两点好处：

可以减小模型存储的体积。原本float32存储需要4个字节，现在int8存储只需要1个字节，体积是原来的1/4。
可以加快计算速度。这主要是因为int8数据的读写更快，并且int8矩阵乘法一般来说会更快一点。

以现在最常用的Transformer模型来举例，在使用CUDA推理加速库（例如LightSeq）之后，矩阵乘法的占比高达将近90%。所以优化非矩阵乘法的速度意义不是很大了，占比不高，你算得再快对整体的提速也很小，因此可以尝试优化矩阵乘法。

用整数矩阵来表示浮点数矩阵

这样我们就可以得到两个浮点数矩阵的整数表示，接下来就可以利用他们来进行整数矩阵乘法的转换。

转化为整数矩阵乘法

总结一下流程

进阶（relu激活函数）

总结

如果矩阵乘法两个输入的范围都是关于零点对称的，那么计算公式为：

当然还有很多其他情况，例如softmax的输出范围一定是，那么attention中的矩阵乘法公式还得改写。

此外为了减小量化的损失，还需要在模型结构中插入伪量化节点，然后进行量化感知训练（QAT）。接着还需要将finetune后的模型存储为int8格式。然后还需要开发加载int8模型的推理加速库代码。最后就是本文讲到的整数矩阵乘法了。整个流程比较繁琐，这部分内容今后我会慢慢给大家分享。网上关于量化的优秀教程非常多，我不会讲太多理论上的量化知识，只会从实践的角度来白话一下我们在Transformer模型量化过程中做的一些尝试。

【白话模型量化系列一】矩阵乘法量化

用整数矩阵来表示浮点数矩阵

转化为整数矩阵乘法

总结一下流程

进阶（relu激活函数）

总结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【白话模型量化系列一】矩阵乘法量化

用整数矩阵来表示浮点数矩阵

转化为整数矩阵乘法

总结一下流程

进阶（relu激活函数）

总结

热门文章

最新文章

相关电子书