Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents(论文解读)

简介: 本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。

作者信息

  1. 毛彦旭:河南大学软件学院
  2. 刘佩佩:中国科学院信息工程研究所、中国科学院大学 为通讯作者

研究背景

  1. 大语言模型智能体(LLM Agent)在视频内容分析、临床决策支持、智能问答等领域广泛应用,其具备推理、规划、工具调用、长期记忆等复杂能力,同时也带来了比单一LLM更广泛的安全攻击面,包括记忆攻击、规划操纵、工具滥用、长期任务劫持等风险。
  2. 现有LLM智能体红队测试与越狱方法大多依赖修改用户提示词,通过提示词重写、场景嵌套、多模态伪装等方式诱导智能体执行不安全行为,这类方法存在明显缺陷:缺乏跨领域自适应能力,泛化性能差,更换模型或场景后攻击效果大幅下降;会影响智能体正常任务性能,行为模式易被防御机制检测,隐蔽性低;输出难以与用户原始意图对齐。
  3. 部分研究从系统架构、记忆机制或行为动态角度分析智能体漏洞,但仍未解决跨模型、跨场景的自适应攻击与隐蔽性问题,缺乏不修改用户原始提示词的隐式攻击框架。

研究目的

  1. 解决现有LLM智能体红队测试方法依赖修改提示词、泛化性差、隐蔽性低、影响智能体正常性能的核心问题。
  2. 提出一种完全不修改用户原始提示词的LLM智能体越狱攻击框架,实现对目标智能体推理轨迹与记忆检索的隐式操纵。
  3. 让攻击框架具备跨模型、跨场景的自适应能力,在保证高攻击成功率的同时,最小化对智能体正常任务性能的影响,提升攻击隐蔽性与效率。
  4. 为LLM智能体的安全鲁棒性评估提供更真实、高效的红队测试手段。

本文核心贡献

  1. 提出JailAgent框架,是首个完全不修改用户原始提示词的LLM智能体越狱方法,通过触发词提取、推理劫持、约束收紧三阶段流程,实现对目标智能体推理轨迹的隐式操纵。
  2. 设计实时自适应重排序模型(Reranker),可基于当前提示词动态生成配对数据并快速微调,短时间内学习触发词偏差,实现不同用户提示词下的自适应越狱。
  3. 提出四种互补联合优化损失函数,从特异性、紧凑性、可分离性、决策边界四个维度约束触发词在语义空间的特征,提升触发词在检索与推理场景下的攻击可靠性、泛化性与稳定性。
  4. 完成多维度系统性实验评估,覆盖3类智能体、7种LLM核心、8个数据集、5种评估指标,充分验证JailAgent在跨模型、跨场景环境下的优越性能。

研究方法

image

JailAgent采用三阶段核心 pipeline,结合影子模型模拟目标智能体决策偏好,全程不修改用户原始输入:

  1. 触发词提取(Trigger Extraction)
    • 分组映射:通过BERT的WordPiece分词将输入拆解为子词,结合spaCy句法依存分析提取名词短语、动词短语,建立原文本与子词的映射关系,形成语义单元分组。
    • 高贡献token提取:采用从粗到细的重要性分析,先在分组层面通过掩码测试计算对数概率变化(ΔL)与逐步KL散度,得到分组重要性得分;再在高得分分组内进行token级细粒度测试,提取高贡献触发词。
  2. 推理劫持(Reasoning Hijacking)
    • 数据工厂:自动合成(上下文,恶意样本,良性样本)三元组训练数据,无需人工标注,基于高贡献触发词生成恶意样本,从原始记忆库选取良性样本。
    • 重排序模型(Reranker):采用冻结的Sentence Transformer编码器+轻量级打分头,使用成对排序损失训练,让模型给恶意样本分配更高分数。
    • 候选生成与重排序:LLM生成多个候选答案,经Reranker打分后选最高分输出,实现推理过程的劫持。
  3. 约束收紧(Constraint Tightening)
    • 将触发词输入BERT得到嵌入向量并L2归一化,联合优化四种损失函数:
      • 特异性损失(Particularity Loss):让触发词远离良性数据分布。
      • 紧凑性损失(Clustering Loss):让触发词嵌入分布更紧凑,提升稳定性。
      • 可分离性损失(Separability Loss):保证恶意目标可成功检索,降低与良性样本混淆概率。
      • 边际损失(Margin Loss):拉大触发词与恶意条目、良性条目的相似度差距,提升判别性。
  4. 实验设计
    • 测试智能体:VideoAgent(长视频理解)、ReAct-UALA(推理行动协同)、EHRAgent(电子健康记录推理)。
    • LLM核心:GPT-3.5-turbo、GPT-4o、GPT-5、Llama-3.1-70B、Claude-3.5-haiku、Gemini-3.0-pro、ERNIE-3.5。
    • 数据集:8个公开数据集,覆盖视频理解、多跳推理、医学数据等场景。
    • 对比基准:PAIR、AgentPoison、BadChain;评估指标:ASR-R(检索攻击成功率)、ASR-L(日志评估攻击成功率)、ASR-H(人工评估攻击成功率)、ACC/EM/SR(正常任务性能)、CR(连续完成率)。

研究结果

  1. 攻击性能显著领先:在所有测试LLM与智能体上,JailAgent的ASR-R、ASR-L、ASR-H均大幅超越PAIR、AgentPoison、BadChain等基线方法,例如在ReAct-UALA MMLU数据集(GPT-5)上,相比AgentPoison ASR-R提升21.97%、ASR-L提升23.69%、ASR-H提升20.58%。
  2. 对正常性能影响极小:JailAgent在ACC、EM、CR等正常任务指标上与无攻击状态几乎一致,而基线方法会导致指标显著下降,隐蔽性远优于现有方法。
  3. 跨模型跨场景泛化性强:在3类智能体、7种LLM、8个数据集上均保持稳定高效的攻击效果,加权平均ALL指标全面领先。
  4. 攻击效率极高:单次成功攻击时间成本(TCPS)在三类智能体上均为最低,相比PAIR降低83.5%~86.7%,相比AgentPoison降低38.6%~43.4%,计算开销显著降低。
  5. 防御机制下仍保持鲁棒:在PPL Filter、RA-LLM两种防御机制下,JailAgent攻击成功率仅小幅下降,仍显著优于基线方法。
  6. 消融实验验证有效性:移除ΔL、边际损失会导致指标大幅下降,数据工厂规模与候选数量直接影响攻击成功率,四阶段联合优化是框架效果的核心保障。

总结与展望

  1. 研究总结:本文提出的JailAgent框架,通过不修改用户提示词的隐式攻击方式,实现了对LLM智能体推理轨迹与记忆检索的高效劫持,兼具高攻击成功率、强泛化性、高隐蔽性与低计算开销,为LLM智能体的红队测试与安全评估提供了全新范式。
  2. 研究局限性
    • 触发词识别与优化依赖影子模型,在完全黑盒智能体场景下性能可能下降。
    • 实时自适应机制会带来额外计算开销,大规模实时系统中可能存在延迟问题。
    • 方法仅在预定义任务与标准化评估环境中验证,复杂动态场景的适用性需进一步探索。
  3. 未来展望
    • 提升框架在完全黑盒环境下的自适应能力,降低对影子模型的依赖。
    • 优化实时自适应机制的计算效率,减少大规模系统中的延迟。
    • 拓展框架至更多类型的LLM智能体架构,适配更复杂的真实应用场景。
    • 基于本研究的攻击思路,研发对应的防御机制,提升LLM智能体的安全鲁棒性。
相关文章
|
21天前
|
数据采集 监控 安全
数据抓取高效化:动态IP切换工具的核心优势与使用技巧
动态IP切换工具基于动态代理技术,是网络抓取、数据分析的核心辅助工具,能有效规避IP封禁风险,保障数据获取的流畅性。本文将全面拆解其应用场景、核心优势,重点提醒使用中的常见陷阱,分享爬虫代理IP的选购技巧与抓取效率提升方法,同时解析其在数据安全中的重要作用,为用户提供实用、可落地的参考,助力高效、安全地完成数据提取工作。
|
30天前
|
人工智能 安全 Linux
OpenClaw 本地/阿里云部署与必装4大核心Skill+大模型API全配置手册及问题排查
OpenClaw(社区常称“龙虾”)是一款轻量化、可扩展、本地优先运行的AI代理平台,通过模块化Skill实现安全检测、技能搜索、实时联网、网页自动化等核心能力,形成从安全打底到落地执行的完整工作流,适配办公、学习、开发、日常自动化等多场景。本文基于2026年最新版本,完整讲解OpenClaw四大必装Skill的功能、安装、配置与使用,同时提供本地MacOS、Linux、Windows11及阿里云轻量服务器部署流程,详解阿里云千问大模型API与免费Coding Plan API配置方法,并整理高频问题解决方案,所有命令均可直接复制执行,零基础用户也能快速搭建稳定、安全、高效的私人AI助手系统。
764 12
|
1月前
|
开发者 Python
Python 中鲜为人知的 `else` 子句:不止用于条件判断
Python 中鲜为人知的 `else` 子句:不止用于条件判断
325 150
|
23天前
|
Linux API 数据安全/隐私保护
阿里云无影云电脑、本地部署OpenClaw图文攻略:WhatsApp集成+千问Qwen3.6-Plus配置与避坑指南
本文完整覆盖2026年**阿里云无影云电脑部署OpenClaw、本地MacOS/Linux/Windows11全平台搭建、千问Qwen3.6-Plus API高性能配置、WhatsApp全球IM集成**四大核心流程,搭配全场景高频问题排查方案,所有命令均为实测可直接复制,无需复杂操作即可完成部署。
264 14
|
21天前
|
缓存 人工智能 文字识别
大模型应用:多模态图文精准识别:基于本地化OCR模型应用实践.78
Qwen2-VL-OCR-2B是仅2B参数的轻量多模态OCR智能体,深度融合视觉感知与语言理解,可精准识别倾斜文字、复杂排版及多语言混合内容。支持CPU/GPU自动适配、指令式调用与全格式图片,本地部署安全高效,适用于文档、合同、海报等场景。
273 10
|
30天前
|
人工智能 缓存 API
新手零基础阿里云轻量服务器部署OpenClaw接入 Slack 保姆级图文教程
OpenClaw(原Clawdbot)是一款开源AI智能体,能通过多渠道通信与大语言模型整合,构建具备持久记忆、主动执行能力的定制化AI助手,支持本地私有化部署,核心优势在于本地优先、模型无关、多渠道交互、持久化记忆等。对于新手而言,选择阿里云轻量应用服务器部署OpenClaw并接入Slack,可快速实现AI助手的远程调用与团队协作,无需复杂的服务器运维知识,全程可视化操作+少量命令行复制粘贴即可完成部署。
237 9
|
1月前
|
Linux API 网络安全
OpenClaw(Clawdbot)本地+阿里云部署实操:知识库搭建与大模型API对接全流程
在2026年的AI办公实践中,将本地分散的PDF、Markdown、Word等文档转化为可检索、可问答的智能知识库,成为提升工作效率的核心需求。但实际操作中,开发者常面临资料检索效率低、向量库搭建环境依赖复杂、大模型对接流程不清晰等问题。OpenClaw(原Clawdbot)作为轻量级的RAG(检索增强生成)框架,可实现本地文档的快速向量化、检索与问答闭环,同时支持本地多系统(MacOS/Linux/Windows11)与阿里云服务器部署,还能灵活对接阿里云千问系列大模型及免费的Coding Plan API,兼顾数据隐私性与AI问答能力。本文将详细拆解2026年OpenClaw的全平台部署步
2389 13
|
1月前
|
安全 PHP
PHP 技巧:5 个让代码更优雅的实用方法
PHP 技巧:5 个让代码更优雅的实用方法
301 140
|
10天前
|
人工智能 运维 监控
【AI工程化】AI工程化:MLOps、大模型全生命周期管理、大模型安全(幻觉、Prompt注入、数据泄露、合规)
本知识体系构建以LLMOps为底座、大模型全生命周期管理为核心、安全合规为红线的AI工程化系统性框架,覆盖规划选型、数据治理、研发训练、部署运维到迭代退役全流程,解决落地难、风险高、成本大等核心痛点。