4、实验
4.1、INT8与INT7的对比
1、图像分类
2、目标检测
3、人脸识别
4.2、INT7训练后量化
4.3、在小于7-bits时的比较
5、总结
本文从保持量化精度和部署延迟的角度,提出了一种基于Scale优化的方法来提高训练后的量化。作者提出的INT7量化推理不依赖于任何特定的框架,可以应用于任何线性训练后方案,以提高推理速度和准确性。它有利于真正的工业INT8训练后量化,而没有复杂的量化感知微调。
实验表明,该方法可以在各种任务和卷积结构中获得更好的量化模型精度。通过设计Int16中间存储和整数Winograd算法,在实际硬件平台上,与TRT方法相比可以以更低的精度降低进一步提高推理速度。
6、参考
[1].EasyQuant: Post-training Quantization via Scale Optimization.
7、推荐阅读
FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能