Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents(论文解读)

简介: 本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。

作者信息

  1. 毛彦旭:河南大学软件学院
  2. 刘佩佩:中国科学院信息工程研究所、中国科学院大学 为通讯作者

研究背景

  1. 大语言模型智能体(LLM Agent)在视频内容分析、临床决策支持、智能问答等领域广泛应用,其具备推理、规划、工具调用、长期记忆等复杂能力,同时也带来了比单一LLM更广泛的安全攻击面,包括记忆攻击、规划操纵、工具滥用、长期任务劫持等风险。
  2. 现有LLM智能体红队测试与越狱方法大多依赖修改用户提示词,通过提示词重写、场景嵌套、多模态伪装等方式诱导智能体执行不安全行为,这类方法存在明显缺陷:缺乏跨领域自适应能力,泛化性能差,更换模型或场景后攻击效果大幅下降;会影响智能体正常任务性能,行为模式易被防御机制检测,隐蔽性低;输出难以与用户原始意图对齐。
  3. 部分研究从系统架构、记忆机制或行为动态角度分析智能体漏洞,但仍未解决跨模型、跨场景的自适应攻击与隐蔽性问题,缺乏不修改用户原始提示词的隐式攻击框架。

研究目的

  1. 解决现有LLM智能体红队测试方法依赖修改提示词、泛化性差、隐蔽性低、影响智能体正常性能的核心问题。
  2. 提出一种完全不修改用户原始提示词的LLM智能体越狱攻击框架,实现对目标智能体推理轨迹与记忆检索的隐式操纵。
  3. 让攻击框架具备跨模型、跨场景的自适应能力,在保证高攻击成功率的同时,最小化对智能体正常任务性能的影响,提升攻击隐蔽性与效率。
  4. 为LLM智能体的安全鲁棒性评估提供更真实、高效的红队测试手段。

本文核心贡献

  1. 提出JailAgent框架,是首个完全不修改用户原始提示词的LLM智能体越狱方法,通过触发词提取、推理劫持、约束收紧三阶段流程,实现对目标智能体推理轨迹的隐式操纵。
  2. 设计实时自适应重排序模型(Reranker),可基于当前提示词动态生成配对数据并快速微调,短时间内学习触发词偏差,实现不同用户提示词下的自适应越狱。
  3. 提出四种互补联合优化损失函数,从特异性、紧凑性、可分离性、决策边界四个维度约束触发词在语义空间的特征,提升触发词在检索与推理场景下的攻击可靠性、泛化性与稳定性。
  4. 完成多维度系统性实验评估,覆盖3类智能体、7种LLM核心、8个数据集、5种评估指标,充分验证JailAgent在跨模型、跨场景环境下的优越性能。

研究方法

image

JailAgent采用三阶段核心 pipeline,结合影子模型模拟目标智能体决策偏好,全程不修改用户原始输入:

  1. 触发词提取(Trigger Extraction)
    • 分组映射:通过BERT的WordPiece分词将输入拆解为子词,结合spaCy句法依存分析提取名词短语、动词短语,建立原文本与子词的映射关系,形成语义单元分组。
    • 高贡献token提取:采用从粗到细的重要性分析,先在分组层面通过掩码测试计算对数概率变化(ΔL)与逐步KL散度,得到分组重要性得分;再在高得分分组内进行token级细粒度测试,提取高贡献触发词。
  2. 推理劫持(Reasoning Hijacking)
    • 数据工厂:自动合成(上下文,恶意样本,良性样本)三元组训练数据,无需人工标注,基于高贡献触发词生成恶意样本,从原始记忆库选取良性样本。
    • 重排序模型(Reranker):采用冻结的Sentence Transformer编码器+轻量级打分头,使用成对排序损失训练,让模型给恶意样本分配更高分数。
    • 候选生成与重排序:LLM生成多个候选答案,经Reranker打分后选最高分输出,实现推理过程的劫持。
  3. 约束收紧(Constraint Tightening)
    • 将触发词输入BERT得到嵌入向量并L2归一化,联合优化四种损失函数:
      • 特异性损失(Particularity Loss):让触发词远离良性数据分布。
      • 紧凑性损失(Clustering Loss):让触发词嵌入分布更紧凑,提升稳定性。
      • 可分离性损失(Separability Loss):保证恶意目标可成功检索,降低与良性样本混淆概率。
      • 边际损失(Margin Loss):拉大触发词与恶意条目、良性条目的相似度差距,提升判别性。
  4. 实验设计
    • 测试智能体:VideoAgent(长视频理解)、ReAct-UALA(推理行动协同)、EHRAgent(电子健康记录推理)。
    • LLM核心:GPT-3.5-turbo、GPT-4o、GPT-5、Llama-3.1-70B、Claude-3.5-haiku、Gemini-3.0-pro、ERNIE-3.5。
    • 数据集:8个公开数据集,覆盖视频理解、多跳推理、医学数据等场景。
    • 对比基准:PAIR、AgentPoison、BadChain;评估指标:ASR-R(检索攻击成功率)、ASR-L(日志评估攻击成功率)、ASR-H(人工评估攻击成功率)、ACC/EM/SR(正常任务性能)、CR(连续完成率)。

研究结果

  1. 攻击性能显著领先:在所有测试LLM与智能体上,JailAgent的ASR-R、ASR-L、ASR-H均大幅超越PAIR、AgentPoison、BadChain等基线方法,例如在ReAct-UALA MMLU数据集(GPT-5)上,相比AgentPoison ASR-R提升21.97%、ASR-L提升23.69%、ASR-H提升20.58%。
  2. 对正常性能影响极小:JailAgent在ACC、EM、CR等正常任务指标上与无攻击状态几乎一致,而基线方法会导致指标显著下降,隐蔽性远优于现有方法。
  3. 跨模型跨场景泛化性强:在3类智能体、7种LLM、8个数据集上均保持稳定高效的攻击效果,加权平均ALL指标全面领先。
  4. 攻击效率极高:单次成功攻击时间成本(TCPS)在三类智能体上均为最低,相比PAIR降低83.5%~86.7%,相比AgentPoison降低38.6%~43.4%,计算开销显著降低。
  5. 防御机制下仍保持鲁棒:在PPL Filter、RA-LLM两种防御机制下,JailAgent攻击成功率仅小幅下降,仍显著优于基线方法。
  6. 消融实验验证有效性:移除ΔL、边际损失会导致指标大幅下降,数据工厂规模与候选数量直接影响攻击成功率,四阶段联合优化是框架效果的核心保障。

总结与展望

  1. 研究总结:本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。
  2. 研究局限性
    • 触发词识别与优化依赖影子模型,在完全黑盒智能体场景下性能可能下降。
    • 实时自适应机制会带来额外计算开销,大规模实时系统中可能存在延迟问题。
    • 方法仅在预定义任务与标准化评估环境中验证,复杂动态场景的适用性需进一步探索。
  3. 未来展望
    • 提升框架在完全黑盒环境下的自适应能力,降低对影子模型的依赖。
    • 优化实时自适应机制的计算效率,减少大规模系统中的延迟。
    • 拓展框架至更多类型的LLM智能体架构,适配更复杂的真实应用场景。
    • 基于本研究的攻击思路,研发对应的防御机制,提升LLM智能体的安全鲁棒性。
相关文章
|
5月前
|
Web App开发 监控 安全
真假难辨的“微软登录页”:IDN同形攻击+零宽字符,钓鱼者正用视觉魔术绕过MFA防线
一种结合IDN同形字与零宽字符的高级钓鱼攻击正威胁全球Office 365用户,伪造域名视觉上与微软官网无异,且可绕过多因素认证,窃取会话令牌。企业需通过Punycode显示、URL标准化、条件访问策略及安全意识培训构建纵深防御,防范“形似神似”的钓鱼陷阱。(239字符)
418 0
|
Kubernetes 安全 API
国内首个云上容器ATT&CK攻防矩阵发布,阿里云助力企业容器化安全落地
本文对云上容器ATT&CK攻防矩阵做了详细阐述,希望能帮助开发和运维人员了解容器的安全风险和落地安全实践。
16571 1
国内首个云上容器ATT&CK攻防矩阵发布,阿里云助力企业容器化安全落地
|
3月前
|
人工智能 机器人 API
10分钟搭建专属AI助手:OpenClaw接入Telegram完整教程(含阿里云轻量服务器部署+常见问题)
OpenClaw(Clawdbot)作为开源AI智能体框架,能通过自然语言指令完成自动化任务,而Telegram是全球流行的即时通讯工具,两者结合可打造跨平台的专属AI助手。本文基于2026年最新稳定版,从阿里云轻量服务器购买到Telegram机器人接入,再到新手避坑指南,全程图文并茂、代码可直接复制,助力零基础用户快速搭建AI助手,实现24小时在线响应、远程控制等功能。
908 8
|
4月前
|
机器学习/深度学习 存储 弹性计算
刚刚:阿里云服务器2026最新收费价格曝光:年/月/小时价格一目了然
2026年阿里云服务器最新价格表:年付低至38元/年(轻量应用服务器),月付25元起,按量小时计费0.3375元起;覆盖中国大陆及海外多地域,含ECS、GPU(EGS)、轻量服务器全品类,支持带宽与系统盘灵活选配,并享代金券等多重优惠。
1318 9
|
4月前
|
人工智能 安全 开发工具
Skills 与 MCP 延迟加载:谁更高效、稳定与可控?——开发者工具架构的深度对比
本文深度对比Anthropic的Claude Skills与MCP延迟加载工具:从架构、性能、稳定性、安全性和开发体验五维度分析。Skills高效易用但控制受限;MCP灵活可控却需自主运维。二者非互斥,混合架构才是未来趋势。(239字)
823 10
|
存储 机器学习/深度学习 缓存
软考软件评测师——计算机组成与体系结构(分级存储架构)
本内容全面解析了计算机存储系统的四大核心领域:虚拟存储技术、局部性原理、分级存储体系架构及存储器类型。虚拟存储通过软硬件协同扩展内存,支持动态加载与地址转换;局部性原理揭示程序运行特性,指导缓存设计优化;分级存储架构从寄存器到外存逐级扩展,平衡速度、容量与成本;存储器类型按寻址和访问方式分类,并介绍新型存储技术。最后探讨了存储系统未来优化趋势,如异构集成、智能预取和近存储计算等,为突破性能瓶颈提供了新方向。
|
人工智能 小程序 计算机视觉
AI不只有大模型,小模型也蕴含着大生产力
近年来,AI大模型蓬勃发展,从ChatGPT掀起全球热潮,到国内“百模大战”爆发,再到DeepSeek打破算力壁垒,AI技术不断刷新认知。然而,在大模型备受关注的同时,许多小而精的细分模型却被忽视。这些轻量级模型无需依赖强大算力,可运行于手机、手持设备等边缘终端,广泛应用于物体识别、条码扫描、人体骨骼检测等领域。例如,通过人体识别模型衍生出的运动与姿态识别能力,已在AI体育、康复训练、线上赛事等场景中展现出巨大潜力,大幅提升了相关领域的效率与应用范围。本文将带您深入了解这些高效的小模型及其实际价值。
阿里云配置dcoker镜像仓库
阿里云配置dcoker镜像仓库
521 0
|
机器学习/深度学习 算法
介绍一下SVM中的支持向量机
介绍一下SVM中的支持向量机
792 16

热门文章

最新文章