在人工智能领域,大语言模型(LLMs)的安全性问题一直备受关注。近期,关于LLMs的“越狱”事件频发,引发了广泛的讨论和担忧。这些事件中,LLMs在接收到有害的提示后,不仅没有拒绝生成不安全的内容,反而继续进行有害的响应。这引发了一个重要的问题:如何教会大模型在面对有害提示时迷途知返,而不是将错就错?
近期,一篇名为《Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training》的论文提出了一种新颖的方法,旨在解决LLMs的安全问题。该方法名为Decoupled Refusal Training(DeRTa),旨在通过解耦拒绝训练来提高LLMs的安全性能。
DeRTa方法的核心思想是,通过识别和解决安全调优数据中的拒绝位置偏差,来提高LLMs拒绝生成不安全内容的能力。具体而言,DeRTa方法包括两个关键组件:
最大似然估计(MLE)与有害响应前缀:该组件通过在安全响应的开头附加一段有害响应,来训练模型识别和避免不安全的内容。通过这种方式,模型可以学习到在响应的早期阶段就拒绝生成不安全的内容。
强化转换优化(RTO):该组件旨在使模型能够在潜在的有害响应序列中始终如一地从潜在的有害状态转换到安全拒绝状态。通过优化模型的转换策略,可以提高模型在面对有害提示时的安全性。
为了验证DeRTa方法的有效性,研究人员在LLaMA3和Mistral模型家族上进行了广泛的实验评估。他们使用了六种不同的攻击场景,包括最新的先进攻击方法(如CodeAttack),这些方法已经成功破解了GPT-4和LLaMA3-70B-Instruct等知名模型。
实验结果表明,DeRTa方法在提高模型安全性方面取得了显著的效果。与基线模型相比,使用DeRTa方法训练的模型在面对各种攻击时表现出了更好的安全性,同时保持了良好的性能。此外,DeRTa方法还成功抵御了最近的先进攻击方法,这些方法已经能够破解GPT-4等强大的模型。
然而,DeRTa方法也存在一些潜在的问题和挑战。首先,该方法的训练过程相对复杂,需要仔细设计和调整各个组件的参数。其次,虽然DeRTa方法在实验中表现出了良好的效果,但在实际应用中的效果如何还有待进一步验证。此外,随着攻击方法的不断演变和改进,如何保持模型的安全性也是一个持续的挑战。