深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature-阿里云开发者社区

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

2024-09-24 119

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第24天】近年来，深度学习在人工智能领域取得巨大成功，但在连续学习任务中面临“损失可塑性”问题，尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法，通过选择性地重新初始化网络中的低效用单元，保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元，并引入成熟度阈值保护新单元。实验表明，该算法能显著提升连续学习任务的表现，尤其在深度强化学习领域效果明显。然而，算法也存在计算复杂性和成熟度阈值设置等问题。

近年来，深度学习在人工智能领域取得了巨大的成功，但同时也面临着一些挑战和问题。其中之一就是深度学习模型在连续学习任务中的表现不佳，即所谓的“损失可塑性”问题。这个问题在深度强化学习（Deep Reinforcement Learning，DRL）中尤为突出，因为DRL系统需要在不断变化的环境中持续学习。

为了解决这个问题，来自加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”（Continual Backpropagation）的算法。该算法通过选择性地重新初始化网络中的低效用单元，来保持深度学习模型在连续学习任务中的可塑性。

持续反向传播算法的核心思想是，通过测量每个连接或权重以及每个单元的贡献效用，来评估它们对网络输出的贡献。如果一个隐藏单元对它的消费者的贡献很小，那么它的存在就可能是多余的。在这种情况下，该隐藏单元可以被重新初始化，以保持网络的可塑性。

为了实现这一目标，研究人员提出了一种贡献效用的度量方法，它基于隐藏单元的激活值和输出权重的乘积的幅度。这个度量方法可以用于评估每个隐藏单元对网络输出的贡献，并决定是否需要重新初始化它。

持续反向传播算法还引入了一种成熟度阈值的概念，以保护新添加的隐藏单元免受立即重新初始化的影响。只有当一个隐藏单元的年龄超过成熟度阈值时，它才有可能被重新初始化。

研究人员在多个实验中验证了持续反向传播算法的效果。他们发现，该算法能够显著提高深度学习模型在连续学习任务中的表现，尤其是在深度强化学习领域。

然而，持续反向传播算法也存在一些局限性。首先，它需要对网络中的每个连接和权重进行评估，这可能会增加计算的复杂性。其次，成熟度阈值的设置可能会对算法的性能产生影响，需要根据具体情况进行调整。

尽管如此，持续反向传播算法仍然为解决深度学习中的损失可塑性问题提供了一种有前途的方法。它不仅可以用于深度强化学习，还可以应用于其他需要连续学习的领域，如自然语言处理和计算机视觉。

值得一提的是，这项研究的作者之一是著名的强化学习专家Richard Sutton，他是现代强化学习的奠基人之一。Sutton教授在强化学习领域做出了许多开创性的贡献，包括TD学习和Q学习等算法。

持续反向传播算法的提出，再次证明了Sutton教授在强化学习领域的深厚造诣和创新能力。他的研究不仅推动了深度学习的发展，也为人工智能在实际应用中的落地提供了重要的技术支持。

然而，我们也应该看到，持续反向传播算法只是解决深度学习中损失可塑性问题的一种尝试，还有许多其他的方法和思路值得探索。例如，一些研究人员正在探索使用元学习和迁移学习的方法来提高深度学习模型的可塑性。

此外，我们也应该意识到，深度学习的发展还面临着许多其他挑战，如数据隐私、算法公平性和可解释性等。这些问题同样需要我们的关注和努力。

论文地址：https://www.nature.com/articles/s41586-024-07711-7

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

热门文章

最新文章

相关课程

相关电子书

相关实验场景