模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)

简介: 模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)

4、实验


4.1、消融实验

1、振荡阻尼

在表4中,作者研究了阻尼损失的强度如何影响网络的最终精度以及训练结束时振荡权重的比例。在前3行中可以观察到,随着系数λ的增加,振荡权重的比例降低,BN重新估计前后的精度差距缩小。然而,过多的阻尼会损害最终的精度,这表明过度的正则化会抑制权重在量化级别之间的有益移动。

解决这个问题的方法是在训练过程中逐渐增加正规化权重。这允许潜在权重在训练的第一阶段更自由地移动,同时通过应用更强的正则化来减少接近收敛的有害振荡。

作者发现λ的余弦退火计划在实践中效果良好。Han等人也注意到,这种规则化在训练的早期阶段是有害的,但实际上采用了两阶段优化过程。这样的策略可以显著抑制振荡,同时不会损害准确性。最佳阻尼配置比BN后重新估计基线提高了近1%,比BN前重新估计基线改善了5%以上。

在图4(左)中还看到了阻尼对图3中相同深度可分离层的潜在重量分布的影响。正如预期的那样,潜在权重现在聚集在量化bin中心周围,在决策边界几乎没有任何权重。

2、迭代权重冻结

在表5中展示了迭代权重冻结算法对各种冻结阈值的有效性。在整个训练过程中使用恒定的阈值,可以看到残差振荡的数量随着阈值的降低而显著减少,并且网络中只保留一些低频振荡。还可以看到,前BN重新估计精度更接近后BN重新估计准确性,正如人们在训练结束时振荡较少时所预期的那样。

然而,如果振荡阈值变得太低,那么在训练的早期阶段,太多的权重会被冻结,从而降低最终的准确性。为了解决这个问题,对冻结阈值应用了一个类似于阻尼中使用的退火计划。这能够使用更强的冻结阈值,并在训练结束时冻结几乎所有的振荡,此时它们最具破坏性。

最佳冻结阈值比BN后重新估计基线提高了近1%,比BN前重新估计基线改善了5%以上。它的精度与振荡阻尼相当,同时残差振荡显著减少(0.04%对1.11%)。

在图4(右)中可以看到迭代权值冻结如何改变MobileNetV2的层conv.3.1的潜在权值分布。大部分潜在权值现在被冻结在bin中心,去除在图3中决策边界观察到的峰值。

4.2、与其他QAT方法的比较

将克服振荡的方法与其他QAT替代方案进行了比较,并证明了它们在流行的高效神经网络的低比特量化中的有效性。为了与文献中现有的方法进行比较,作者对权重和激活进行了量化。在表6中展示了MobileNetV2的结果,并证明两种算法在3-bits和4-bits量化方面都优于文献中所有竞争的QAT技术。

还在表7和表8中分别获得了MobileNetV3 Small和EfficientNet lite的最新结果。在所有情况下,本文的振荡预防方法都比常用的LSQ基线显著提高(>1%),表明本文的方法对其他高效网络的普遍适用性。

可以注意到,与LSQ基线相比,振荡抑制导致训练时间增加了约33%。另一方面,迭代权重冻结在实现类似性能的同时,计算开销可以忽略不计。


4、参考


[1].Overcoming Oscillations in Quantization-Aware Training.

相关文章
|
18天前
|
人工智能 并行计算 安全
从零到一,打造专属AI王国!大模型私有化部署全攻略,手把手教你搭建、优化与安全设置
【10月更文挑战第24天】本文详细介绍从零开始的大模型私有化部署流程,涵盖需求分析、环境搭建、模型准备、模型部署、性能优化和安全设置六个关键步骤,并提供相应的示例代码,确保企业能够高效、安全地将大型AI模型部署在本地或私有云上。
166 7
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
77 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
107 2
|
18天前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
53 6
|
20天前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
39 4
|
1月前
|
人工智能 C语言 Windows
Ollama部署在线ai聊天
本文介绍了如何在Windows系统上安装和部署AI聊天模型Ollama,包括安装步骤、模型安装、运行模型项目,以及使用Ollama生成C语言平衡二叉树的完整代码。
73 2
Ollama部署在线ai聊天
|
22天前
|
人工智能 数据安全/隐私保护 UED
RAG让AI大模型更懂业务解决方案部署使用体验
根据指导文档,部署过程得到了详细步骤说明的支持,包括环境配置、依赖安装及代码示例,确保了部署顺利进行。建议优化知识库问题汇总,增加部署失败案例参考,以提升用户体验。整体解决方案阅读与部署体验良好,有助于大型语言模型在特定业务场景的应用,未来可加强行业适应性和用户隐私保护。
60 5
|
19天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,企业越来越关注大模型的私有化部署。本文详细探讨了硬件资源需求、数据隐私保护、模型可解释性、模型更新和维护等方面的挑战及解决方案,并提供了示例代码,帮助企业高效、安全地实现大模型的内部部署。
43 1
|
19天前
|
人工智能 分布式计算 数据可视化
大模型私有化部署全攻略:硬件需求、数据隐私、可解释性与维护成本挑战及解决方案详解,附示例代码助你轻松实现企业内部AI应用
【10月更文挑战第23天】随着人工智能技术的发展,大模型在各领域的应用日益广泛。然而,将其私有化部署到企业内部面临诸多挑战,如硬件资源需求高、数据隐私保护、模型可解释性差、更新维护成本高等。本文探讨了这些挑战,并提出了优化硬件配置、数据加密、可视化工具、自动化更新机制等解决方案,帮助企业顺利实现大模型的私有化部署。
51 1
|
24天前
|
Serverless 数据安全/隐私保护 前端开发
大模型代码能力体验报告之贪吃蛇小游戏《一》:Claude.ai篇 - 生成、预览和快速部署的serverless一条龙
本文介绍了通过Claude.ai生成并优化Web版贪吃蛇游戏的过程,展示了其强大的代码生成功能及用户友好的界面设计。从初始版本的快速生成到根据用户反馈调整游戏速度,再到提供多种实用工具如文件管理、版本控制和一键部署,Claude.ai不仅是一个代码助手,更像是一个全面的serverless开发平台。文中还呼吁国内厂商关注此类技术的发展。