ICLR 2024：首个零阶优化深度学习框架-阿里云开发者社区

ICLR 2024：首个零阶优化深度学习框架

2024-03-19 233

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第28天】ICLR 2024：首个零阶优化深度学习框架

在2024年ICLR）上，研究者们提出了一项创新成果——DeepZero，这是一个将零阶（Zeroth-order, ZO）优化技术应用于深度神经网络（DNN）训练的深度学习框架。这一技术在机器学习领域中备受关注，尤其是在难以获取一阶（First-order, FO）信息的情况下。然而，ZO优化在处理大规模机器学习问题时的可扩展性一直是一个挑战。DeepZero通过三项关键创新，成功地将ZO优化扩展到DNN训练，并实现了与FO训练相媲美的性能。

首先，DeepZero展示了坐标梯度估计（Coordinatewise Gradient Estimation, CGE）在训练精度和计算效率方面的优势。与随机向量梯度估计（Randomized Vector-wise Gradient Estimation, RGE）相比，CGE通过确定性地对模型参数进行坐标级扰动，而不是随机扰动，从而在模型深度增加时提供了更准确的梯度估计。这种优势随着模型复杂度的提高而变得更加明显。

其次，DeepZero提出了一种稀疏性引导的ZO训练协议。这一协议利用模型剪枝技术，通过有限差分来探索和利用CGE中的稀疏深度学习（DL）先验。这种方法不仅提高了训练效率，而且通过适当的稀疏性模式，还可以提高ZO训练的准确性。这种稀疏性引导的训练方法为ZO优化提供了一种新的视角，使得在不牺牲性能的情况下，减少了模型训练所需的计算资源。

再次，DeepZero开发了特征重用和前向并行化的方法。这些方法利用CGE的有限差分特性，使得在分布式计算环境中并行执行前向传递成为可能。通过消除冗余计算，这些方法显著提高了并行训练的速度，从而使得ZO训练在实际应用中更加高效。

在实验中，DeepZero在CIFAR-10数据集上训练的ResNet-20模型上取得了86.94%的测试准确率，这一结果在无需梯度的模型训练领域中达到了最先进的水平。此外，DeepZero在认证对抗防御和基于DL的偏微分方程（PDE）误差校正应用中也展现出了显著的性能提升，分别实现了1020%的改进。这些实验结果不仅证明了DeepZero在图像分类任务中的有效性，也展示了其在处理复杂科学问题中的应用潜力。

DeepZero的实际应用价值在于其能够处理黑盒学习场景，例如在对抗攻击和防御中，以及在与非可微系统交互的物理模拟中。这些应用场景中，模型的内部结构和梯度信息通常是不可访问的，而DeepZero提供了一种有效的解决方案。

为了促进未来的研究，DeepZero的代码已经在GitHub上公开。这一开源举措将有助于研究者们进一步探索ZO优化的潜力，以及将其应用于更广泛的领域。DeepZero的提出，不仅解决了ZO优化在深度学习中的可扩展性问题，而且为未来在可扩展的ZO优化和黑盒深度学习领域的研究提供了新的方向。研究者们相信，DeepZero的结果将激发未来关于可扩展ZO优化的研究，并为深度学习的发展做出贡献。

ICLR 2024：首个零阶优化深度学习框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ICLR 2024：首个零阶优化深度学习框架

热门文章

最新文章

相关课程

相关电子书

相关实验场景