Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents（论文解读）-阿里云开发者社区

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents（论文解读）

2026-04-10 21

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文提出的JailAgent框架，通过不修改用户提示词的隐式攻击方式，实现了对LLM智能体推理轨迹与记忆检索的高效劫持，兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销，为LLM智能体的红队测试与安全评估提供了全新范式。

作者信息

毛彦旭：河南大学软件学院
刘佩佩：中国科学院信息工程研究所、中国科学院大学 为通讯作者

研究背景

大语言模型智能体（LLM Agent）在视频内容分析、临床决策支持、智能问答等领域广泛应用，其具备推理、规划、工具调用、长期记忆等复杂能力，同时也带来了比单一LLM更广泛的安全攻击面，包括记忆攻击、规划操纵、工具滥用、长期任务劫持等风险。
现有LLM智能体红队测试与越狱方法大多依赖修改用户提示词，通过提示词重写、场景嵌套、多模态伪装等方式诱导智能体执行不安全行为，这类方法存在明显缺陷：缺乏跨领域自适应能力，泛化性能差，更换模型或场景后攻击效果大幅下降；会影响智能体正常任务性能，行为模式易被防御机制检测，隐蔽性低；输出难以与用户原始意图对齐。
部分研究从系统架构、记忆机制或行为动态角度分析智能体漏洞，但仍未解决跨模型、跨场景的自适应攻击与隐蔽性问题，缺乏不修改用户原始提示词的隐式攻击框架。

研究目的

解决现有LLM智能体红队测试方法依赖修改提示词、泛化性差、隐蔽性低、影响智能体正常性能的核心问题。
提出一种完全不修改用户原始提示词的LLM智能体越狱攻击框架，实现对目标智能体推理轨迹与记忆检索的隐式操纵。
让攻击框架具备跨模型、跨场景的自适应能力，在保证高攻击成功率的同时，最小化对智能体正常任务性能的影响，提升攻击隐蔽性与效率。
为LLM智能体的安全鲁棒性评估提供更真实、高效的红队测试手段。

本文核心贡献

提出JailAgent框架，是首个完全不修改用户原始提示词的LLM智能体越狱方法，通过触发词提取、推理劫持、约束收紧三阶段流程，实现对目标智能体推理轨迹的隐式操纵。
设计实时自适应重排序模型（Reranker），可基于当前提示词动态生成配对数据并快速微调，短时间内学习触发词偏差，实现不同用户提示词下的自适应越狱。
提出四种互补联合优化损失函数，从特异性、紧凑性、可分离性、决策边界四个维度约束触发词在语义空间的特征，提升触发词在检索与推理场景下的攻击可靠性、泛化性与稳定性。
完成多维度系统性实验评估，覆盖3类智能体、7种LLM核心、8个数据集、5种评估指标，充分验证JailAgent在跨模型、跨场景环境下的优越性能。

研究方法

JailAgent采用三阶段核心 pipeline，结合影子模型模拟目标智能体决策偏好，全程不修改用户原始输入：

触发词提取（Trigger Extraction）
- 分组映射：通过BERT的WordPiece分词将输入拆解为子词，结合spaCy句法依存分析提取名词短语、动词短语，建立原文本与子词的映射关系，形成语义单元分组。
- 高贡献token提取：采用从粗到细的重要性分析，先在分组层面通过掩码测试计算对数概率变化（ΔL）与逐步KL散度，得到分组重要性得分；再在高得分分组内进行token级细粒度测试，提取高贡献触发词。
推理劫持（Reasoning Hijacking）
- 数据工厂：自动合成（上下文，恶意样本，良性样本）三元组训练数据，无需人工标注，基于高贡献触发词生成恶意样本，从原始记忆库选取良性样本。
- 重排序模型（Reranker）：采用冻结的Sentence Transformer编码器+轻量级打分头，使用成对排序损失训练，让模型给恶意样本分配更高分数。
- 候选生成与重排序：LLM生成多个候选答案，经Reranker打分后选最高分输出，实现推理过程的劫持。
约束收紧（Constraint Tightening）
- 将触发词输入BERT得到嵌入向量并L2归一化，联合优化四种损失函数：
  - 特异性损失（Particularity Loss）：让触发词远离良性数据分布。
  - 紧凑性损失（Clustering Loss）：让触发词嵌入分布更紧凑，提升稳定性。
  - 可分离性损失（Separability Loss）：保证恶意目标可成功检索，降低与良性样本混淆概率。
  - 边际损失（Margin Loss）：拉大触发词与恶意条目、良性条目的相似度差距，提升判别性。
实验设计
- 测试智能体：VideoAgent（长视频理解）、ReAct-UALA（推理行动协同）、EHRAgent（电子健康记录推理）。
- LLM核心：GPT-3.5-turbo、GPT-4o、GPT-5、Llama-3.1-70B、Claude-3.5-haiku、Gemini-3.0-pro、ERNIE-3.5。
- 数据集：8个公开数据集，覆盖视频理解、多跳推理、医学数据等场景。
- 对比基准：PAIR、AgentPoison、BadChain；评估指标：ASR-R（检索攻击成功率）、ASR-L（日志评估攻击成功率）、ASR-H（人工评估攻击成功率）、ACC/EM/SR（正常任务性能）、CR（连续完成率）。

研究结果

攻击性能显著领先：在所有测试LLM与智能体上，JailAgent的ASR-R、ASR-L、ASR-H均大幅超越PAIR、AgentPoison、BadChain等基线方法，例如在ReAct-UALA MMLU数据集（GPT-5）上，相比AgentPoison ASR-R提升21.97%、ASR-L提升23.69%、ASR-H提升20.58%。
对正常性能影响极小：JailAgent在ACC、EM、CR等正常任务指标上与无攻击状态几乎一致，而基线方法会导致指标显著下降，隐蔽性远优于现有方法。
跨模型跨场景泛化性强：在3类智能体、7种LLM、8个数据集上均保持稳定高效的攻击效果，加权平均ALL指标全面领先。
攻击效率极高：单次成功攻击时间成本（TCPS）在三类智能体上均为最低，相比PAIR降低83.5%~86.7%，相比AgentPoison降低38.6%~43.4%，计算开销显著降低。
防御机制下仍保持鲁棒：在PPL Filter、RA-LLM两种防御机制下，JailAgent攻击成功率仅小幅下降，仍显著优于基线方法。
消融实验验证有效性：移除ΔL、边际损失会导致指标大幅下降，数据工厂规模与候选数量直接影响攻击成功率，四阶段联合优化是框架效果的核心保障。

总结与展望

研究总结：本文提出的JailAgent框架，通过不修改用户提示词的隐式攻击方式，实现了对LLM智能体推理轨迹与记忆检索的高效劫持，兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销，为LLM智能体的红队测试与安全评估提供了全新范式。
研究局限性
- 触发词识别与优化依赖影子模型，在完全黑盒智能体场景下性能可能下降。
- 实时自适应机制会带来额外计算开销，大规模实时系统中可能存在延迟问题。
- 方法仅在预定义任务与标准化评估环境中验证，复杂动态场景的适用性需进一步探索。
未来展望
- 提升框架在完全黑盒环境下的自适应能力，降低对影子模型的依赖。
- 优化实时自适应机制的计算效率，减少大规模系统中的延迟。
- 拓展框架至更多类型的LLM智能体架构，适配更复杂的真实应用场景。
- 基于本研究的攻击思路，研发对应的防御机制，提升LLM智能体的安全鲁棒性。

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents（论文解读）

作者信息

研究背景

研究目的

本文核心贡献

研究方法

研究结果

总结与展望

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents（论文解读）

作者信息

研究背景

研究目的

本文核心贡献

研究方法

研究结果

总结与展望

热门文章

最新文章

相关电子书