作者信息
- 毛彦旭:河南大学软件学院
- 刘佩佩:中国科学院信息工程研究所、中国科学院大学 为通讯作者
研究背景
- 大语言模型智能体(LLM Agent)在视频内容分析、临床决策支持、智能问答等领域广泛应用,其具备推理、规划、工具调用、长期记忆等复杂能力,同时也带来了比单一LLM更广泛的安全攻击面,包括记忆攻击、规划操纵、工具滥用、长期任务劫持等风险。
- 现有LLM智能体红队测试与越狱方法大多依赖修改用户提示词,通过提示词重写、场景嵌套、多模态伪装等方式诱导智能体执行不安全行为,这类方法存在明显缺陷:缺乏跨领域自适应能力,泛化性能差,更换模型或场景后攻击效果大幅下降;会影响智能体正常任务性能,行为模式易被防御机制检测,隐蔽性低;输出难以与用户原始意图对齐。
- 部分研究从系统架构、记忆机制或行为动态角度分析智能体漏洞,但仍未解决跨模型、跨场景的自适应攻击与隐蔽性问题,缺乏不修改用户原始提示词的隐式攻击框架。
研究目的
- 解决现有LLM智能体红队测试方法依赖修改提示词、泛化性差、隐蔽性低、影响智能体正常性能的核心问题。
- 提出一种完全不修改用户原始提示词的LLM智能体越狱攻击框架,实现对目标智能体推理轨迹与记忆检索的隐式操纵。
- 让攻击框架具备跨模型、跨场景的自适应能力,在保证高攻击成功率的同时,最小化对智能体正常任务性能的影响,提升攻击隐蔽性与效率。
- 为LLM智能体的安全鲁棒性评估提供更真实、高效的红队测试手段。
本文核心贡献
- 提出JailAgent框架,是首个完全不修改用户原始提示词的LLM智能体越狱方法,通过触发词提取、推理劫持、约束收紧三阶段流程,实现对目标智能体推理轨迹的隐式操纵。
- 设计实时自适应重排序模型(Reranker),可基于当前提示词动态生成配对数据并快速微调,短时间内学习触发词偏差,实现不同用户提示词下的自适应越狱。
- 提出四种互补联合优化损失函数,从特异性、紧凑性、可分离性、决策边界四个维度约束触发词在语义空间的特征,提升触发词在检索与推理场景下的攻击可靠性、泛化性与稳定性。
- 完成多维度系统性实验评估,覆盖3类智能体、7种LLM核心、8个数据集、5种评估指标,充分验证JailAgent在跨模型、跨场景环境下的优越性能。
研究方法

JailAgent采用三阶段核心 pipeline,结合影子模型模拟目标智能体决策偏好,全程不修改用户原始输入:
- 触发词提取(Trigger Extraction)
- 分组映射:通过BERT的WordPiece分词将输入拆解为子词,结合spaCy句法依存分析提取名词短语、动词短语,建立原文本与子词的映射关系,形成语义单元分组。
- 高贡献token提取:采用从粗到细的重要性分析,先在分组层面通过掩码测试计算对数概率变化(ΔL)与逐步KL散度,得到分组重要性得分;再在高得分分组内进行token级细粒度测试,提取高贡献触发词。
- 推理劫持(Reasoning Hijacking)
- 数据工厂:自动合成(上下文,恶意样本,良性样本)三元组训练数据,无需人工标注,基于高贡献触发词生成恶意样本,从原始记忆库选取良性样本。
- 重排序模型(Reranker):采用冻结的Sentence Transformer编码器+轻量级打分头,使用成对排序损失训练,让模型给恶意样本分配更高分数。
- 候选生成与重排序:LLM生成多个候选答案,经Reranker打分后选最高分输出,实现推理过程的劫持。
- 约束收紧(Constraint Tightening)
- 将触发词输入BERT得到嵌入向量并L2归一化,联合优化四种损失函数:
- 特异性损失(Particularity Loss):让触发词远离良性数据分布。
- 紧凑性损失(Clustering Loss):让触发词嵌入分布更紧凑,提升稳定性。
- 可分离性损失(Separability Loss):保证恶意目标可成功检索,降低与良性样本混淆概率。
- 边际损失(Margin Loss):拉大触发词与恶意条目、良性条目的相似度差距,提升判别性。
- 将触发词输入BERT得到嵌入向量并L2归一化,联合优化四种损失函数:
- 实验设计
- 测试智能体:VideoAgent(长视频理解)、ReAct-UALA(推理行动协同)、EHRAgent(电子健康记录推理)。
- LLM核心:GPT-3.5-turbo、GPT-4o、GPT-5、Llama-3.1-70B、Claude-3.5-haiku、Gemini-3.0-pro、ERNIE-3.5。
- 数据集:8个公开数据集,覆盖视频理解、多跳推理、医学数据等场景。
- 对比基准:PAIR、AgentPoison、BadChain;评估指标:ASR-R(检索攻击成功率)、ASR-L(日志评估攻击成功率)、ASR-H(人工评估攻击成功率)、ACC/EM/SR(正常任务性能)、CR(连续完成率)。
研究结果
- 攻击性能显著领先:在所有测试LLM与智能体上,JailAgent的ASR-R、ASR-L、ASR-H均大幅超越PAIR、AgentPoison、BadChain等基线方法,例如在ReAct-UALA MMLU数据集(GPT-5)上,相比AgentPoison ASR-R提升21.97%、ASR-L提升23.69%、ASR-H提升20.58%。
- 对正常性能影响极小:JailAgent在ACC、EM、CR等正常任务指标上与无攻击状态几乎一致,而基线方法会导致指标显著下降,隐蔽性远优于现有方法。
- 跨模型跨场景泛化性强:在3类智能体、7种LLM、8个数据集上均保持稳定高效的攻击效果,加权平均ALL指标全面领先。
- 攻击效率极高:单次成功攻击时间成本(TCPS)在三类智能体上均为最低,相比PAIR降低83.5%~86.7%,相比AgentPoison降低38.6%~43.4%,计算开销显著降低。
- 防御机制下仍保持鲁棒:在PPL Filter、RA-LLM两种防御机制下,JailAgent攻击成功率仅小幅下降,仍显著优于基线方法。
- 消融实验验证有效性:移除ΔL、边际损失会导致指标大幅下降,数据工厂规模与候选数量直接影响攻击成功率,四阶段联合优化是框架效果的核心保障。
总结与展望
- 研究总结:本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。
- 研究局限性
- 触发词识别与优化依赖影子模型,在完全黑盒智能体场景下性能可能下降。
- 实时自适应机制会带来额外计算开销,大规模实时系统中可能存在延迟问题。
- 方法仅在预定义任务与标准化评估环境中验证,复杂动态场景的适用性需进一步探索。
- 未来展望
- 提升框架在完全黑盒环境下的自适应能力,降低对影子模型的依赖。
- 优化实时自适应机制的计算效率,减少大规模系统中的延迟。
- 拓展框架至更多类型的LLM智能体架构,适配更复杂的真实应用场景。
- 基于本研究的攻击思路,研发对应的防御机制,提升LLM智能体的安全鲁棒性。