量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化(二)

简介: 量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化(二)

4、实验


4.1、INT8与INT7的对比

1、图像分类

image.png

2、目标检测

image.png

3、人脸识别

4.2、INT7训练后量化

4.3、在小于7-bits时的比较


5、总结


本文从保持量化精度和部署延迟的角度,提出了一种基于Scale优化的方法来提高训练后的量化。作者提出的INT7量化推理不依赖于任何特定的框架,可以应用于任何线性训练后方案,以提高推理速度和准确性。它有利于真正的工业INT8训练后量化,而没有复杂的量化感知微调。

实验表明,该方法可以在各种任务和卷积结构中获得更好的量化模型精度。通过设计Int16中间存储和整数Winograd算法,在实际硬件平台上,与TRT方法相比可以以更低的精度降低进一步提高推理速度。


6、参考


[1].EasyQuant: Post-training Quantization via Scale Optimization.


7、推荐阅读


FasterX实时目标检测 | 依托NanoDet思想,使用辅助Head进一步提升YOLOX性能

量化部署篇 | Vision Transformer应该如何进行PTQ量化?这个方法或许可以参考!

3D检测经典 | 第一个Anchor-Free、第一个NMS-Free 3D目标检测算法!!!

相关文章
|
3天前
|
机器学习/深度学习 存储 文字识别
模型精度不降反升!飞桨是这样改进PACT量化算法的!
模型精度不降反升!飞桨是这样改进PACT量化算法的!
55 0
|
5月前
|
存储 JSON 自然语言处理
使用ExLlamaV2量化并运行EXL2模型
量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中,GPTQ在gpu上提供了惊人的性能。与非量化模型相比,该方法使用的VRAM几乎减少了3倍,同时提供了相似的精度水平和更快的生成速度。
117 0
|
7月前
|
机器学习/深度学习 人工智能 算法
【CIKM 2023】扩散模型加速采样算法OLSS,大幅提升模型推理速度
近日,阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法,这是一种针对扩散模型的采样加速算法。在这篇论文中,扩散模型加速算法的本质被建模成线性子空间的扩张过程,给出了目前方法的统一分析,并基于此设计了新的加速算法,大幅度提升了扩散模型的生成速度。
|
9月前
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
134 0
|
11月前
|
机器学习/深度学习 存储 人工智能
模型推理加速系列 | 03:Pytorch模型量化实践并以ResNet18模型量化为例(附代码)
本文主要简要介绍Pytorch模型量化相关,并以ResNet18模型为例进行量化实践。
|
12月前
|
机器学习/深度学习 存储 算法
量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化(一)
量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化(一)
147 0
|
12月前
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
186 0
|
12月前
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
502 0
|
12月前
|
算法 数据挖掘 计算机视觉
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(二)
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(二)
283 0
|
12月前
|
机器学习/深度学习 算法 计算机视觉
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(一)
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(一)
142 0