备案控制台

开发者社区人工智能文章正文

量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化（二）

2023-05-26 165

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化（二）

4、实验

4.1、INT8与INT7的对比

1、图像分类

2、目标检测

3、人脸识别

4.2、INT7训练后量化

4.3、在小于7-bits时的比较

5、总结

本文从保持量化精度和部署延迟的角度，提出了一种基于Scale优化的方法来提高训练后的量化。作者提出的INT7量化推理不依赖于任何特定的框架，可以应用于任何线性训练后方案，以提高推理速度和准确性。它有利于真正的工业INT8训练后量化，而没有复杂的量化感知微调。

实验表明，该方法可以在各种任务和卷积结构中获得更好的量化模型精度。通过设计Int16中间存储和整数Winograd算法，在实际硬件平台上，与TRT方法相比可以以更低的精度降低进一步提高推理速度。

6、参考

[1].EasyQuant: Post-training Quantization via Scale Optimization.

7、推荐阅读

FasterX实时目标检测 | 依托NanoDet思想，使用辅助Head进一步提升YOLOX性能

量化部署篇 | Vision Transformer应该如何进行PTQ量化？这个方法或许可以参考！

3D检测经典 | 第一个Anchor-Free、第一个NMS-Free 3D目标检测算法！！！

文章标签：

计算机视觉

算法

存储

5i77ajz5u7ji6

目录

相关文章

Deephub

|

6月前

|

物联网网络架构

PHATGOOSE：使用LoRA Experts创建低成本混合专家模型实现零样本泛化

这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE)，这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法

Deephub

80 0 0

楠竹11

|

2月前

英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

【9月更文挑战第10天】《通过剪枝和知识蒸馏实现紧凑型语言模型》由英伟达研究人员撰写，介绍了一种创新方法，通过剪枝和知识蒸馏技术将大型语言模型参数数量减半，同时保持甚至提升性能。该方法首先利用剪枝技术去除冗余参数，再通过知识蒸馏从更大模型转移知识以优化性能。实验结果显示，该方法能显著减少模型参数并提升性能，但可能需大量计算资源且效果因模型和任务而异。

楠竹11

79 8 8

郑小健

|

3月前

|

机器学习/深度学习 PyTorch TensorFlow

ONNX 与量化：提高模型效率

【8月更文第27天】随着人工智能技术的广泛应用，模型部署变得越来越重要。为了在资源受限的设备上运行复杂的机器学习模型，模型量化技术成为了一种有效的手段。Open Neural Network Exchange (ONNX) 作为一种开放格式，支持在不同框架之间交换训练好的模型，同时也支持模型量化。本文将探讨如何结合 ONNX 和模型量化技术来提高模型的效率，减少模型大小并加快推理速度。

郑小健

399 2 2

阿里云大数据Al技术

|

机器学习/深度学习人工智能算法

【CIKM 2023】扩散模型加速采样算法OLSS，大幅提升模型推理速度

近日，阿里云人工智能平台 PAI与华东师范大学陈岑副教授团队合作在深度学习顶级会议 CIKM 2023 上发表 OLSS (Optimal Linear Subspace Search) 算法，这是一种针对扩散模型的采样加速算法。在这篇论文中，扩散模型加速算法的本质被建模成线性子空间的扩张过程，给出了目前方法的统一分析，并基于此设计了新的加速算法，大幅度提升了扩散模型的生成速度。

阿里云大数据Al技术

34351 230 231

5i77ajz5u7ji6

|

6月前

|

机器学习/深度学习存储文字识别

模型精度不降反升！飞桨是这样改进PACT量化算法的！

模型精度不降反升！飞桨是这样改进PACT量化算法的！

5i77ajz5u7ji6

184 0 0

Deephub

|

11月前

|

存储 JSON 自然语言处理

使用ExLlamaV2量化并运行EXL2模型

量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。

Deephub

190 0 0

小窗幽记机器学习

|

机器学习/深度学习存储人工智能

模型推理加速系列 | 03：Pytorch模型量化实践并以ResNet18模型量化为例(附代码)

本文主要简要介绍Pytorch模型量化相关，并以ResNet18模型为例进行量化实践。

小窗幽记机器学习

2411 0 0

5i77ajz5u7ji6

|

机器学习/深度学习存储算法

量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化（一）

量化部署必卷 | EasyQuant量化通过Scale优化轻松超越TensorRT量化（一）

5i77ajz5u7ji6

251 0 0

5i77ajz5u7ji6

|

机器学习/深度学习人工智能算法

模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢？（二）

模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢？（二）

5i77ajz5u7ji6

246 0 0

5i77ajz5u7ji6

|

机器学习/深度学习人工智能算法

模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢？（一）

模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢？（一）

5i77ajz5u7ji6

646 0 0

热门文章

最新文章

Fiddler抓包：下载、安装及使用

SpringBoot开发案例之整合Dubbo提供者(一)

阿里AI上岗双11服装车间，能识别头发丝直径十分之一的瑕疵

RLE格式分割标注文件表示

微服务注册中心技术选型：5种主流注册中心，哪个最香？

云服务器VPS和独立服务器的区别是什么?

利用Windows Server Backup功能备份活动目录

从美国市场看全球移动技术演进:2015你5G了吗？

访谈李开复：谁主宰微软未来

RabbitMQ(从安装到使用)

Kotlin - 参数与异常

Kotlin - 分支与循环

Kotlin - 运算符与中缀表达式

Kotlin - 类成员

Kotlin - 分支与循环

Kotlin - 常量与变量

Kotlin - 运算符与中缀表达式

Kotlin - 区间与数组

Kotlin - 面向对象之抽象类与接口

使用 Python 实现深度学习模型：智能食品生产线优化

相关课程

更多

机器学习基础与回归算法

机器学习集成学习与模型融合

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

【算法实战】8. 集成方法-Adaboost

云原生AI套件：一键训练大模型及部署GPU共享推理服务

【算法实战】7. 集成方法-随机森林

相关电子书

更多

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

《DeepRec：大规模稀疏模型训练引擎》

优势特征蒸馏(Privileged Features Distillation)在手淘信息流推荐中的应用

相关实验场景

更多

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

函数计算一键部署AI大语言模型并会话

使用PAI-快速开始，低代码实现大语言模型微调和部署

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

下一篇

阿里云OSS设置跨域访问