Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents(论文解读)

简介: 本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。

作者信息

  1. 毛彦旭:河南大学软件学院
  2. 刘佩佩:中国科学院信息工程研究所、中国科学院大学 为通讯作者

研究背景

  1. 大语言模型智能体(LLM Agent)在视频内容分析、临床决策支持、智能问答等领域广泛应用,其具备推理、规划、工具调用、长期记忆等复杂能力,同时也带来了比单一LLM更广泛的安全攻击面,包括记忆攻击、规划操纵、工具滥用、长期任务劫持等风险。
  2. 现有LLM智能体红队测试与越狱方法大多依赖修改用户提示词,通过提示词重写、场景嵌套、多模态伪装等方式诱导智能体执行不安全行为,这类方法存在明显缺陷:缺乏跨领域自适应能力,泛化性能差,更换模型或场景后攻击效果大幅下降;会影响智能体正常任务性能,行为模式易被防御机制检测,隐蔽性低;输出难以与用户原始意图对齐。
  3. 部分研究从系统架构、记忆机制或行为动态角度分析智能体漏洞,但仍未解决跨模型、跨场景的自适应攻击与隐蔽性问题,缺乏不修改用户原始提示词的隐式攻击框架。

研究目的

  1. 解决现有LLM智能体红队测试方法依赖修改提示词、泛化性差、隐蔽性低、影响智能体正常性能的核心问题。
  2. 提出一种完全不修改用户原始提示词的LLM智能体越狱攻击框架,实现对目标智能体推理轨迹与记忆检索的隐式操纵。
  3. 让攻击框架具备跨模型、跨场景的自适应能力,在保证高攻击成功率的同时,最小化对智能体正常任务性能的影响,提升攻击隐蔽性与效率。
  4. 为LLM智能体的安全鲁棒性评估提供更真实、高效的红队测试手段。

本文核心贡献

  1. 提出JailAgent框架,是首个完全不修改用户原始提示词的LLM智能体越狱方法,通过触发词提取、推理劫持、约束收紧三阶段流程,实现对目标智能体推理轨迹的隐式操纵。
  2. 设计实时自适应重排序模型(Reranker),可基于当前提示词动态生成配对数据并快速微调,短时间内学习触发词偏差,实现不同用户提示词下的自适应越狱。
  3. 提出四种互补联合优化损失函数,从特异性、紧凑性、可分离性、决策边界四个维度约束触发词在语义空间的特征,提升触发词在检索与推理场景下的攻击可靠性、泛化性与稳定性。
  4. 完成多维度系统性实验评估,覆盖3类智能体、7种LLM核心、8个数据集、5种评估指标,充分验证JailAgent在跨模型、跨场景环境下的优越性能。

研究方法

image

JailAgent采用三阶段核心 pipeline,结合影子模型模拟目标智能体决策偏好,全程不修改用户原始输入:

  1. 触发词提取(Trigger Extraction)
    • 分组映射:通过BERT的WordPiece分词将输入拆解为子词,结合spaCy句法依存分析提取名词短语、动词短语,建立原文本与子词的映射关系,形成语义单元分组。
    • 高贡献token提取:采用从粗到细的重要性分析,先在分组层面通过掩码测试计算对数概率变化(ΔL)与逐步KL散度,得到分组重要性得分;再在高得分分组内进行token级细粒度测试,提取高贡献触发词。
  2. 推理劫持(Reasoning Hijacking)
    • 数据工厂:自动合成(上下文,恶意样本,良性样本)三元组训练数据,无需人工标注,基于高贡献触发词生成恶意样本,从原始记忆库选取良性样本。
    • 重排序模型(Reranker):采用冻结的Sentence Transformer编码器+轻量级打分头,使用成对排序损失训练,让模型给恶意样本分配更高分数。
    • 候选生成与重排序:LLM生成多个候选答案,经Reranker打分后选最高分输出,实现推理过程的劫持。
  3. 约束收紧(Constraint Tightening)
    • 将触发词输入BERT得到嵌入向量并L2归一化,联合优化四种损失函数:
      • 特异性损失(Particularity Loss):让触发词远离良性数据分布。
      • 紧凑性损失(Clustering Loss):让触发词嵌入分布更紧凑,提升稳定性。
      • 可分离性损失(Separability Loss):保证恶意目标可成功检索,降低与良性样本混淆概率。
      • 边际损失(Margin Loss):拉大触发词与恶意条目、良性条目的相似度差距,提升判别性。
  4. 实验设计
    • 测试智能体:VideoAgent(长视频理解)、ReAct-UALA(推理行动协同)、EHRAgent(电子健康记录推理)。
    • LLM核心:GPT-3.5-turbo、GPT-4o、GPT-5、Llama-3.1-70B、Claude-3.5-haiku、Gemini-3.0-pro、ERNIE-3.5。
    • 数据集:8个公开数据集,覆盖视频理解、多跳推理、医学数据等场景。
    • 对比基准:PAIR、AgentPoison、BadChain;评估指标:ASR-R(检索攻击成功率)、ASR-L(日志评估攻击成功率)、ASR-H(人工评估攻击成功率)、ACC/EM/SR(正常任务性能)、CR(连续完成率)。

研究结果

  1. 攻击性能显著领先:在所有测试LLM与智能体上,JailAgent的ASR-R、ASR-L、ASR-H均大幅超越PAIR、AgentPoison、BadChain等基线方法,例如在ReAct-UALA MMLU数据集(GPT-5)上,相比AgentPoison ASR-R提升21.97%、ASR-L提升23.69%、ASR-H提升20.58%。
  2. 对正常性能影响极小:JailAgent在ACC、EM、CR等正常任务指标上与无攻击状态几乎一致,而基线方法会导致指标显著下降,隐蔽性远优于现有方法。
  3. 跨模型跨场景泛化性强:在3类智能体、7种LLM、8个数据集上均保持稳定高效的攻击效果,加权平均ALL指标全面领先。
  4. 攻击效率极高:单次成功攻击时间成本(TCPS)在三类智能体上均为最低,相比PAIR降低83.5%~86.7%,相比AgentPoison降低38.6%~43.4%,计算开销显著降低。
  5. 防御机制下仍保持鲁棒:在PPL Filter、RA-LLM两种防御机制下,JailAgent攻击成功率仅小幅下降,仍显著优于基线方法。
  6. 消融实验验证有效性:移除ΔL、边际损失会导致指标大幅下降,数据工厂规模与候选数量直接影响攻击成功率,四阶段联合优化是框架效果的核心保障。

总结与展望

  1. 研究总结:本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。
  2. 研究局限性
    • 触发词识别与优化依赖影子模型,在完全黑盒智能体场景下性能可能下降。
    • 实时自适应机制会带来额外计算开销,大规模实时系统中可能存在延迟问题。
    • 方法仅在预定义任务与标准化评估环境中验证,复杂动态场景的适用性需进一步探索。
  3. 未来展望
    • 提升框架在完全黑盒环境下的自适应能力,降低对影子模型的依赖。
    • 优化实时自适应机制的计算效率,减少大规模系统中的延迟。
    • 拓展框架至更多类型的LLM智能体架构,适配更复杂的真实应用场景。
    • 基于本研究的攻击思路,研发对应的防御机制,提升LLM智能体的安全鲁棒性。
相关文章
|
7天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34487 19
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
19天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45331 142
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
2天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
2380 8
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
9天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
4927 21
|
1天前
|
人工智能 监控 安全
阿里云SASE 2.0升级,全方位监控Agent办公安全
AI Agent办公场景的“安全底座”
1129 1
|
7天前
|
人工智能 API 开发者
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案
阿里云百炼Coding Plan Lite已停售,Pro版每日9:30限量抢购难度大。本文解析原因,并提供两大方案:①掌握技巧抢购Pro版;②直接使用百炼平台按量付费——新用户赠100万Tokens,支持Qwen3.5-Max等满血模型,灵活低成本。
1906 6
阿里云百炼 Coding Plan 售罄、Lite 停售、Pro 抢不到?最新解决方案