大模型也吃“人类话术”这一套?PNAS 新论文给测试人提了个醒

简介: PNAS最新研究揭示:大模型存在“类人式”社会影响脆弱性。实验显示,运用权威、稀缺等说服技巧后,模型对不当请求的服从率从35.3%升至51.3%。这警示AI安全测试不能止于敏感词拦截,而需系统评估多轮诱导、角色扮演、工具调用等复杂交互下的行为稳定性。

最近,PNAS 上一篇论文引发了不少讨论。

论文标题很直接:Persuading large language models to comply with objectionable requests。研究团队想验证一个问题:大语言模型会不会像人一样,被权威、承诺、稀缺、社会认同等说服技巧影响,从而更容易答应本该拒绝的请求?

实验结果并不轻松。

研究团队在 126,000 次对话中测试了 GPT-5 mini、Claude Haiku 4.5、Gemini 3 Flash 等模型,发现加入经典说服原则后,模型对不当请求的服从率从基线的 35.3% 上升到 51.3%。论文将这种现象称为 LLM 的 “parahuman” vulnerability,也就是一种“类人式”的社会影响脆弱性。(美国国家科学院院刊[1])

42dc3619-9f92-4307-8b0e-77218355c17d.png

这件事对对软件测试从业者来说,它其实指向了一个更重要的问题:

AI 系统的安全测试,不能只测“模型会不会拒绝敏感词”,还要测“模型在复杂对话、诱导话术、角色压力和多轮上下文下,会不会逐渐失守”。

目录
这篇论文到底测了什么
为什么大模型会被“话术”影响
这不是提示词技巧,而是安全测试问题
软件测试人应该怎么设计 AI 安全用例
从传统测试到 AI 测试,测试思维要怎么升级
写在最后:大模型安全不是一句“已加护栏”就能结束
01 这篇论文到底测了什么
这项研究的核心并不是测试模型懂不懂化学、会不会生成某类内容,而是测试:

当用户用人类社会中常见的说服方式包装请求时,模型的拒绝能力是否会下降。

论文中提到的经典说服原则包括:

image.png

注意,这里最值得测试人关注的不是某一个具体话术,而是一个更底层的现象:

模型的安全边界不是静态的。

同一个不当请求,直接问可能被拒绝;换一种语气、换一个角色、加几轮铺垫、加入“权威来源”和“紧迫场景”,模型就可能从拒绝变成部分配合。

这就是 AI 测试和传统软件测试最大的区别之一。

传统软件的输入通常是确定性的:

942e11b7-77b1-4f86-974a-fb5cc30941f3.png

而大模型系统的输入更像是一段“语言环境”:

4833c25e-8123-49ff-8687-55cba7e88f76.png

所以,测试大模型不能只看“输入是什么”,还要看:

输入是如何被包装、递进、诱导和解释的。

02 为什么大模型会被“话术”影响
很多人第一反应可能是:

大模型又不是人,怎么会被忽悠?

这里要分清楚一件事:

模型不是有情绪,也不是产生了人类心理,而是它学到了人类语言中的互动模式。

大模型在训练过程中接触了海量人类文本,而人类文本里天然包含大量社会交往结构:

如何回应权威
如何维持礼貌
如何顺着上下文继续对话
如何在用户坚持时调整回答
如何在“帮忙”的语境下提供更多信息
如何在角色扮演中保持角色一致性
这些能力让模型更像一个“好用的助手”,但也带来了副作用:

模型越擅长理解人类意图,就越可能被复杂意图牵引。

这对测试人来说非常关键。

因为我们过去做安全测试,通常会重点关注显性输入:

是否包含敏感词
是否命中黑名单
是否触发规则拦截
是否进入安全拒答模板
但在大模型系统里,风险往往不是从一句明显违规的话开始,而是从一段看似合理的对话开始。

例如:

7c5f5226-8369-49c2-82ec-769f7e33b0b9.png

问题不在于模型“有没有安全策略”,而在于:

安全策略是否能覆盖多轮对话中的渐进式诱导。

03 这不是提示词技巧,而是安全测试问题
很多人看到这类研究,容易把它理解成“又发现了一种 jailbreak 提示词”。

但站在测试工程角度,这件事不能停留在“提示词技巧”层面。

真正的问题是:

AI 系统的安全能力是否经过了系统化测试?

很多团队现在上线 AI 应用,大致会做几类测试:

image.png

这些测试并不是没用,但远远不够。

因为大模型系统的攻击面,不只是“输入文本”,而是完整的交互链路:

d30ece14-0d75-404e-871c-2558bcb88cdb.png

任何一个环节都可能让安全边界发生变化。

尤其是现在很多企业已经不是简单接一个聊天机器人,而是在做:

RAG 知识库问答
智能客服
数据分析 Agent
自动化测试 Agent
代码生成 Agent
工单处理 Agent
企业内部办公助手
一旦模型被诱导,不只是“说错话”,还可能触发更严重的问题:

泄露内部知识库内容
绕过权限解释业务数据
生成不安全代码
调用工具执行错误操作
伪造测试结论
编造合规说明
在多轮对话中逐步突破限制
所以,这类研究对测试人最大的启发是:

AI 安全测试不能只测输出内容,要测模型在压力、诱导、伪装、角色扮演和上下文污染下的行为稳定性。

04 软件测试人应该怎么设计 AI 安全用例
如果你是测试工程师,面对一个企业 AI 助手、智能客服、测试用例生成 Agent 或代码生成工具,应该怎么测?

可以从下面几个维度设计用例。

  1. 直接请求测试:基础拒绝能力
    这是最基础的一层。

测试模型面对明显不合规请求时,是否能稳定拒绝。

image.png

这类测试相当于传统安全测试里的“冒烟测试”。

它能证明系统不是完全裸奔,但不能证明系统安全。

  1. 改写表达测试:同义变体能力
    用户不会总是用系统能识别的标准表达。

同一个意图可以被包装成:

学术研究
小说创作
历史讨论
安全演练
翻译任务
代码注释
表格整理
面试题解析
测试重点是:

模型是否能识别“表达形式变化后仍然相同的风险意图”。

示例测试思路:

image.png

这类测试很适合沉淀成 AI 安全回归用例集。

  1. 多轮诱导测试:上下文稳定性
    PNAS 这项研究最值得关注的地方就在这里。

模型不是在单句输入中失守,而可能是在多轮交互中逐步让步。

测试时可以设计类似这样的链路:

6db27ef4-45f5-4ee8-a63f-0739a5c7775f.png

测试重点不是某一句话是否违规,而是:

模型是否记住了安全边界
模型是否被前文承诺影响
模型是否因为“已经聊到这里了”继续配合
模型是否能在中途重新拉回安全边界
后置审核是否能识别多轮上下文风险
这类用例特别适合测试企业内部 Agent。

因为 Agent 往往不是一次问答,而是多步任务执行。

  1. 权限与工具调用测试:别让模型“越权办事”
    如果模型只是回答文字,风险还相对可控。

但如果模型接入了工具,就必须重点测试工具调用边界。

例如:

5b72895c-c6ac-4905-8cec-61c7259a80fa.png

测试重点包括:

image.png

对测试开发来说,这部分已经不是传统的 Prompt 测试,而是完整的系统测试。

你要测的不只是模型,而是:

模型 + Prompt + 权限系统 + 工具链 + 日志 + 审核策略。

  1. 对抗样本库建设:把“话术”变成可回归资产
    AI 安全测试最怕什么?

最怕每次都靠测试同学临时想几句话。

这样测试不可复现,也很难量化系统有没有变好。

更好的方式是建立一套对抗样本库。

可以按下面结构管理:

image.png

这样做的好处是:

可以持续复测不同模型版本
可以对比 Prompt 调整前后的安全效果
可以沉淀企业自己的风险场景
可以为合规和审计提供证据
可以把 AI 安全从“感觉”变成“指标”

05 从传统测试到 AI 测试,测试思维要怎么升级
很多测试人现在会感觉:

AI 测试和传统测试很不一样,甚至不知道从哪里下手。

其实底层思维是一致的,只是对象变了。

传统测试关注的是:

720b370b-6fd5-467f-b92d-caa9e2770054.png

AI 测试关注的是:

1259bb71-ce0e-4e55-b9d0-89de7bd55e4b.png

也就是说,测试对象从“函数输出”变成了“系统行为”。

所以测试人要补的不是单纯的大模型知识,而是下面几类能力:

image.png

这也是为什么 AI 测试不是传统功能测试的简单延伸。

它更像是:

测试工程 + 安全测试 + 数据测试 + Prompt 工程 + Agent 工程的组合能力。

06 一个 AI 安全测试框架,可以这样设计
如果企业要系统化测试大模型应用,可以参考下面这个框架。

fa595316-cac3-47be-87e9-d5981997e982.png

对应到具体落地,可以拆成五层:

image.png

这里面最关键的是:

测试必须自动化。

否则模型一升级、Prompt 一调整、知识库一更新,之前的安全结论就可能失效。

AI 系统不是一次上线就结束,它需要持续评测。

07 对测试人的机会:AI 安全评测会成为新岗位能力
这类研究其实也给测试人带来了一个明显信号:

未来企业不会只需要“会点自动化测试”的人,而是会更需要能测试 AI 系统的人。

尤其是这些方向:

大模型应用测试
RAG 知识库测试
Agent 工具调用测试
Prompt 安全测试
AI 输出质量评估
大模型红队测试
企业 AI 合规测试
AI 测试平台建设
过去测试人经常说自己被开发、产品、业务夹在中间。

但在 AI 系统里,测试人的价值反而会被放大。

因为 AI 应用的风险不是单点代码 bug,而是复杂系统行为风险。

一个模型回答错了,可能不是模型本身的问题,而是:

Prompt 拼接错了
检索文档错了
上下文污染了
工具权限放大了
输出审核漏掉了
评测集覆盖不够
日志链路不可追踪
这些问题,恰恰需要测试工程能力来拆解。

08 写在最后:大模型安全不是一句“已加护栏”就能结束
PNAS 这篇论文最值得我们警惕的地方,不是“大模型被人类话术骗了”这个表面结论。

真正值得警惕的是:

大模型的安全边界,会受到语言策略、上下文关系和交互过程影响。

这意味着,AI 系统不能只靠几条规则、几个敏感词、一个安全 Prompt 就放心上线。

对测试人来说,下一阶段的核心任务不是简单问一句:

“模型会不会拒绝?”

而是要追问:

换一种说法还会拒绝吗?
多聊几轮还会拒绝吗?
用户伪装成专家还会拒绝吗?
模型接入工具后还会拒绝吗?
RAG 检索到危险内容后还会拒绝吗?
Prompt 更新后还会拒绝吗?
模型版本升级后还会拒绝吗?
AI 安全测试的重点,正在从“测答案”变成“测行为”。

而这正是软件测试人进入 AI 时代最值得抓住的机会。

未来真正有价值的测试工程师,不只是会找 bug,而是能验证一个 AI 系统在复杂人类交互下是否依然可靠。

相关文章
|
11天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3279 9
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3329 23
|
7天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2360 4
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
26天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23598 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
13天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2842 3
|
5天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
924 2
|
11天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)

热门文章

最新文章