越狱事件频发，如何教会大模型迷途知返而不是将错就错？-阿里云开发者社区

越狱事件频发，如何教会大模型迷途知返而不是将错就错？

2024-08-23 231

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第23天】论文提出了一种名为Decoupled Refusal Training（DeRTa）的新方法，旨在提升LLMs的安全性能。DeRTa通过识别并解决安全调优数据中的拒绝位置偏差来增强模型拒绝生成不安全内容的能力。它包括最大似然估计与有害响应前缀及强化转换优化两个核心部分，分别训练模型早期识别并避免不安全内容以及始终保持从有害状态向安全状态的转变。经过广泛实验评估，DeRTa方法在LLaMA3和Mistral模型上的表现显著优于基线，在多种攻击场景下展现出了更好的安全性。尽管如此，DeRTa方法在实际应用中仍面临复杂性和持续安全性维护等挑战。

在人工智能领域，大语言模型（LLMs）的安全性问题一直备受关注。近期，关于LLMs的“越狱”事件频发，引发了广泛的讨论和担忧。这些事件中，LLMs在接收到有害的提示后，不仅没有拒绝生成不安全的内容，反而继续进行有害的响应。这引发了一个重要的问题：如何教会大模型在面对有害提示时迷途知返，而不是将错就错？

近期，一篇名为《Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training》的论文提出了一种新颖的方法，旨在解决LLMs的安全问题。该方法名为Decoupled Refusal Training（DeRTa），旨在通过解耦拒绝训练来提高LLMs的安全性能。

DeRTa方法的核心思想是，通过识别和解决安全调优数据中的拒绝位置偏差，来提高LLMs拒绝生成不安全内容的能力。具体而言，DeRTa方法包括两个关键组件：

最大似然估计（MLE）与有害响应前缀：该组件通过在安全响应的开头附加一段有害响应，来训练模型识别和避免不安全的内容。通过这种方式，模型可以学习到在响应的早期阶段就拒绝生成不安全的内容。
强化转换优化（RTO）：该组件旨在使模型能够在潜在的有害响应序列中始终如一地从潜在的有害状态转换到安全拒绝状态。通过优化模型的转换策略，可以提高模型在面对有害提示时的安全性。

为了验证DeRTa方法的有效性，研究人员在LLaMA3和Mistral模型家族上进行了广泛的实验评估。他们使用了六种不同的攻击场景，包括最新的先进攻击方法（如CodeAttack），这些方法已经成功破解了GPT-4和LLaMA3-70B-Instruct等知名模型。

实验结果表明，DeRTa方法在提高模型安全性方面取得了显著的效果。与基线模型相比，使用DeRTa方法训练的模型在面对各种攻击时表现出了更好的安全性，同时保持了良好的性能。此外，DeRTa方法还成功抵御了最近的先进攻击方法，这些方法已经能够破解GPT-4等强大的模型。

然而，DeRTa方法也存在一些潜在的问题和挑战。首先，该方法的训练过程相对复杂，需要仔细设计和调整各个组件的参数。其次，虽然DeRTa方法在实验中表现出了良好的效果，但在实际应用中的效果如何还有待进一步验证。此外，随着攻击方法的不断演变和改进，如何保持模型的安全性也是一个持续的挑战。

论文地址：https://arxiv.org/abs/2407.09121

越狱事件频发，如何教会大模型迷途知返而不是将错就错？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

越狱事件频发，如何教会大模型迷途知返而不是将错就错？

热门文章

最新文章

相关电子书