大发现！谷歌证明反学习，无法让大模型删除不良信息-阿里云开发者社区

大发现！谷歌证明反学习，无法让大模型删除不良信息

2024-09-19 43

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第19天】最近，Ilia Shumailov等人发表的论文《UnUnlearning：反学习在大语言模型中的内容监管不足》在人工智能领域引发了热议。该论文探讨了反学习在大型语言模型中的应用，指出反学习虽能有效控制训练阶段的数据撤回，但在推理阶段仍可能执行非法行为，引入了“反反学习”的概念。这一发现对内容监管产生重要影响，但也引发了关于反学习有效性的争议。详细内容与讨论可见论文原文：https://arxiv.org/abs/2407.00106

最近，一篇名为《UnUnlearning：反学习在大语言模型中的内容监管不足》的论文在人工智能领域引起了广泛关注。这篇论文由Ilia Shumailov等人撰写，主要研究了反学习（Unlearning）在大型语言模型（LLMs）中的应用。

反学习是一种隐私机制，最初被引入以允许用户在请求时从机器学习模型中撤回他们的数据。然而，由于实际成本的问题，后来提出了不精确的方案来缓解精确反学习的不切实际性。最近，反学习经常被讨论为一种去除非法知识的方法，即模型不应该拥有的知识，如未经许可的版权内容、不准确或恶意的信息。

然而，这篇论文指出，反学习在大型语言模型中的应用存在一个基本的不一致性，即反学习可以有效地控制训练阶段，但不能防止模型在推理阶段执行非法行为。论文中引入了一个名为“反反学习”（UnUnlearning）的概念，其中被反学习的知识在上下文中重新引入，有效地使模型能够表现得好像它知道被遗忘的知识。

这一发现对内容监管有着重要的影响。论文作者认为，即使使用精确的反学习方案，内容过滤对于非法知识也是必要的，因为反学习不能完全防止模型在推理阶段执行非法行为。

然而，这一发现也引发了一些争议。一些人认为，反学习仍然是一种有用的工具，可以帮助保护用户的隐私和数据安全。他们认为，尽管反学习不能完全防止模型执行非法行为，但它仍然可以减少这种行为的可能性。

另一方面，一些人对反学习的有效性提出了质疑。他们认为，反学习可能只是一种治标不治本的方法，不能从根本上解决问题。他们主张，应该寻找其他方法来解决模型中的非法行为问题，如改进模型的训练数据或使用其他技术来控制模型的行为。

论文地址：https://arxiv.org/abs/2407.00106

大发现！谷歌证明反学习，无法让大模型删除不良信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大发现！谷歌证明反学习，无法让大模型删除不良信息

热门文章

最新文章

相关课程

相关电子书

相关实验场景