LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 通过利用Transformer中间层的隐藏状态,研究提出了层增强分类(LEC)技术,该技术能够以极少的训练样本和参数实现高效的内容安全和提示注入攻击分类,显著提升了模型的性能,并验证了其跨架构和领域的泛化能力。

随着语言模型(LMs)应用范围的扩大,对用户输入和模型输出中不当内容的检测变得日益重要。每当主要模型供应商发布新模型时,研究人员首先会尝试寻找绕过模型安全限制的方法,使其产生不符合预期的响应。通过Google的搜索可以发现,已有多种方法可以绕过模型的对齐调整,导致模型对不当请求作出响应。另外多家公司已将基于生成式AI的对话系统应用于客户服务等场景,这些系统经常面临提示注入攻击,导致其响应不当请求或超出预定范围的任务。对企业而言,能够检测和分类这些实例至关重要,这可以防止系统被用户轻易操控,特别是在公开部署对话系统的情况下。

今天介绍的论文是《基于剪枝语言模型的轻量级安全分类》。这个研究提出了层增强分类(Layer Enhanced Classification)技术,证明了通过利用语言模型中间transformer层的隐藏状态训练具有惩罚项的逻辑回归分类器,可以有效实现内容安全违规和提示注入攻击的分类。该分类器仅需极少量可训练参数(最少769个)和训练样本(通常少于100个)。这种方法结合了简单分类模型的计算效率和语言模型的深度语言理解能力。

所有采用LEC方法训练的模型性能均优于专门设计的任务特定模型和GPT-4o。论文发现存在最优的中间transformer层,这些层能够为内容安全和提示注入分类任务提供必要的特征表示。这一发现具有重要意义,因为它表明可以使用同一模型同时完成内容安全违规检测、提示注入分类和输出标记生成

研究目标与方法论

研究概述: 论文主要探究中间transformer层隐藏状态作为分类任务特征输入的效果。研究了在识别出任务最优层的情况下,相比使用完整模型或最后一层进行分类,小型通用模型和特定任务模型在内容安全和提示注入分类任务上的性能提升潜力。同时也探索了此类任务所需的最小模型规模(以参数总量计)。已有研究表明模型不同层关注输入提示的不同特征,而论文的研究发现中间层最能捕获这些分类任务的关键特征。

数据集选择: 在内容安全和提示注入分类任务中,采用LEC方法训练的模型与基线模型在特定任务数据集上进行性能对比。前期研究表明,分类器在数百个样本后性能提升趋于平缓,因此对每个分类任务随机采样5,000个示例,以确保数据多样性的同时最小化计算和训练成本。内容安全分类任务采用OpenSafetyLab的SALAD Data数据集和LMSYS的LMSYS-Chat-1M数据集的组合。提示注入分类任务采用SPML数据集,因其包含系统提示和用户提示对。这一点尤为重要,因为某些表面"安全"的用户请求(如"帮我解决数学题")可能实际要求模型超出系统提示定义的预期范围(如"你是公司X的AI助手,仅回答关于公司的问题")。

模型选择: GPT-4o作为两个任务的基线模型,因其被广泛认为是最具能力的LLM之一,在某些场景下甚至优于特定任务的基线模型。内容安全分类任务使用Llama Guard 3 1B和8B模型,提示注入分类任务使用Protect AI的DeBERTA v3 Base Prompt Injection v2模型,这些都是各自领域的领先模型。将LEC方法应用于这些基线特定任务模型和通用模型。在通用模型方面,选择了参数规模为0.5B、1.5B和3B的Qwen 2.5 Instruct,因其规模与特定任务模型相近。

这种实验设置评估三个关键方面:

  1. LEC方法应用于小型通用模型时相对于基线模型(GPT-4o和特定任务模型)的性能表现。
  2. LEC方法对特定任务模型性能的提升程度。
  3. 通过在通用模型和特定任务模型上的性能评估,验证LEC方法的跨架构泛化能力。

实现细节: 对于Qwen 2.5 Instruct模型和特定任务模型,采用层级剪枝方法,提取transformer层的隐藏状态,用于训练带L2正则化的惩罚逻辑回归(PLR)模型。在二分类任务中,PLR模型的可训练参数数量等于模型隐藏状态维度加上一个偏置项,范围从最小模型(Protect AI的DeBERTa)的769个到最大模型(Llama Guard 3 8B)的4097个不等。对每一层使用不同数量的训练样本,以分析各层对任务的影响,并确定超越基线模型性能或达到最优F1分数所需的最少训练样本数量。同时通过基线模型处理完整测试集,建立性能基准。

上图展示了LEC训练流程的高层概述。训练样本独立通过模型处理,并收集每个transformer层的隐藏状态。这些隐藏状态随后用于训练分类器。每个分类器使用不同数量的训练样本。通过这种方式,可以确定哪些层产生最相关的任务特征,以及达到最佳性能所需的最少样本数量。

核心研究发现

跨任务共同发现:

  1. LEC方法在所有评估任务、模型规模和训练样本数量配置下均获得更高的F1分数,通常在20-100个样本内即超越基线模型性能。
  2. 相比最后一层,中间层在少量训练样本条件下表现出更显著的F1分数提升。这些层相对于基线模型也展现出最佳性能。这表明两个分类任务的关键局部特征在transformer网络早期层就已形成,说明少量训练样本的应用场景特别适合采用本方法。
  3. 实验证明,将LEC方法应用于特定任务模型,通过识别和利用最优任务相关层,通常在20个样本内就能超越模型自身的基线性能。
  4. 通用Qwen 2.5 Instruct模型和特定任务模型采用LEC方法后都能以更少的训练样本获得更高的F1分数。这验证了LEC方法的跨架构、跨领域泛化能力。
  5. 在Qwen 2.5 Instruct模型中,中间层在内容安全和提示注入分类任务上均能以更少的样本获得更高的F1分数。这说明在单次推理中同时完成这两项分类任务和输出生成是可行的。考虑到分类器的轻量级特性,额外的分类计算开销可以忽略不计。

内容安全分类实验结果分析:

上图展示了Qwen 2.5 Instruct 0.5B、Llama Guard 3 1B和Llama Guard 3 8B模型在内容安全二分类任务上的LEC性能对比。横轴代表训练样本数量,纵轴表示加权F1分数。曲线显示了各模型在特定层的性能表现。

实验结果显示:

二分类和多分类实验中,采用LEC方法的模型均展现出显著的性能优势:

  • 通用模型和特定任务模型在20个样本规模下即超越Llama Guard 3基线性能
  • 在100个样本规模内达到超越GPT-4o的性能水平

性能提升分析:

  • 二分类和多分类任务中,LEC增强的模型(尤其是中间层)显著优于所有基线模型
  • 在二分类内容安全评估中:- Qwen 2.5 Instruct和Llama Guard的LEC版本达到0.95-0.96的F1分数- 对比基线性能:GPT-4o (0.82)、Llama Guard 3 1B (0.65)、Llama Guard 3 8B (0.71)

模型规模与性能关系:

  • 不同规模模型的最高F1分数:- Qwen 2.5 Instruct 0.5B: 0.95- Llama Guard 3 1B: 0.96- Llama Guard 3 8B: 0.96
  • 效率对比:Qwen 2.5 Instruct 0.5B仅需15个样本即可超越GPT-4o性能,而Llama Guard系列需要55个样本

多分类任务性能:

  • 基于Qwen 2.5 Instruct 0.5B中间层的LEC模型在35个训练样本条件下,在全部难度等级的任务中均超越GPT-4o基线性能

提示注入分类实验结果分析:

上图展示了Qwen 2.5 Instruct 0.5B和DeBERTa v3 Prompt Injection v2在提示注入分类任务上的性能对比。性能曲线清晰显示了在最小训练样本条件下,中间层的优越表现。

核心发现:

方法泛化性验证:

  • LEC方法在通用模型(Qwen 2.5 Instruct)和特定任务模型(DeBERTa v3)上均取得优异表现
  • 两类模型的中间层均在100个训练样本内超越基线性能
  • 实验证实了该方法在不同架构和领域的有效性

样本效率分析:

  • 所有规格的Qwen 2.5 Instruct模型仅需5个训练样本
  • 在所有层级上均超越DeBERTa v3基线0.73的F1分数

性能突破:

  • Qwen 2.5 Instruct 0.5B的第12层(中间层)在55个样本内超越GPT-4o性能
  • 较大规模的Qwen 2.5 Instruct模型展现出略优的性能

特定任务模型提升:

  • DeBERTa v3 Prompt Injection v2采用LEC后达到0.98的F1分数
  • 显著超越其0.73的基线性能水平

层级性能分布:

  • 中间层在DeBERTa模型和各规模Qwen 2.5 Instruct模型中均达到最高加权F1分数
  • 验证了中间层特征表示的重要性

总结

论文聚焦于两个与负责任AI密切相关的分类任务。研究结果表明,只要模型的中间层能够有效捕获任务关键特征,该方法具有扩展到其他分类任务的潜力。

实验证明,基于中间transformer层隐藏状态训练分类模型的方法能够以最小的参数量和训练样本构建高效的内容安全和提示注入分类器。该方法可以显著提升现有特定任务模型的性能基准。

研究结果为将高性能内容安全和提示注入分类器整合到现有LLM推理流程提供了两种可行方案:

轻量级特征提取方案:

  • 采用论文验证的轻量级模型
  • 将模型剪枝至最优层级
  • 用作分类任务的特征提取器
  • 在使用GPT-4o等闭源模型处理输入前进行安全检测
  • 同一分类模型可用于输出响应的合规性验证

集成推理方案:

  • 应用于开源通用模型(如IBM Granite或Meta Llama)
  • 确定分类任务相关的最优层级
  • 优化推理管道,实现分类与响应生成的并行处理
  • 检测到违规时可即时终止输出生成
  • 无违规时保持正常响应生成流程

这两种方案均可根据具体场景扩展到基于AI代理的应用中,具体实现取决于各代理采用的模型架构。

LEC技术为生成式AI系统的安全防护提供了一个新颖且实用的解决方案。相比现有方法,它能以更少的训练样本实现更优的内容安全和提示注入检测性能。对于当前构建生成式AI系统的开发者和企业而言,该技术的应用对确保系统安全性和合规性具有重要意义。

论文地址:

https://avoid.overfit.cn/post/9bf5bb66223f4ca58e21146ffb586d4f

作者:Tula Masterman

目录
相关文章
|
2天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
|
9天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
11天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
8927 20
|
15天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4772 12
资料合集|Flink Forward Asia 2024 上海站
|
15天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
23天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
11天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
11天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
891 59
下一篇
DataWorks