这几天,很多人被一个消息震到了:
Anthropic 发布了 Claude Mythos Preview 的系统卡与风险报告。官方材料显示,这个模型在软件工程与网络安全任务上的能力大幅增强,甚至在测试中能够发现并利用主流操作系统和浏览器中的零日漏洞。
于是很多人马上得出一个结论:
“如果模型已经强到这种程度,那任何防御都没用了。”
我不这么看。
我的判断恰恰相反:
Mythos Preview 说明的,不是‘防不住了’,而是‘旧式安全观已经不够了’。
真正需要被放弃的,不是治理本身。
而是那种把安全寄托在“模型自己别作恶”上的旧想法。
Anthropic 自己的公开材料,其实已经给出了一个非常重要的信号。
一方面,Mythos Preview 被描述为能力极强,尤其是在自主研究、工程和网络安全方向;另一方面,官方风险报告并没有把它说成“不可控”或“无敌”,而是强调总体风险仍然“很低,但高于以往模型”,并且它目前并未对公众开放。Anthropic 甚至专门启动了 Project Glasswing,把 Mythos Preview 提供给关键软件基础设施的防守方使用,目标不是“放弃治理”,而是让防守方抢先建立新的防御能力。
这恰恰说明一件事:
越强的模型,越需要治理层。
问题从来都不是“模型太强”。
真正的问题是:
当模型越来越强时,执行层是不是还在裸连模型。
如果一个 AI Agent 的结构仍然是:
用户请求 → 模型判断 → 直接调用工具 / shell / 网络 / 文件系统
那当然危险。
因为这意味着:模型的能力,直接等于执行权。
这种结构的风险,不在于 Mythos Preview 特别坏,
而在于它把“高智能”直接映射成了“高权限”。



而真正更稳的结构应该是另一种:
用户请求 → 智能层提案 → 治理核心裁决 → 执行层受控执行
在这个结构里,模型再强,也只是提案者,不是执行权拥有者。
真正决定能不能落地的,不是模型本身,而是中间那层治理核心。
这就是我想强调的第一个观点:
- Mythos Preview 不是无敌,它只是再次证明“模型不能直连执行权”
在很多讨论里,人们把“模型很强”自动理解成“模型不可防”。
这是把两个问题混在了一起。
强模型意味着:
它更会写代码
更会找漏洞
更会拆解任务
更会绕开简单的提示词限制
更会把高风险行为包装成看似合理的步骤
但这不等于它天然拥有执行权。
只要执行层不直接信任模型,模型就不是终局。
这也是为什么我认为,未来 AI Agent 安全的重点,不是单纯做更强的拒答,而是做执行期治理。
- 真正有效的防御,不是让模型变笨,而是把它关进治理框架里
如果 Mythos Preview 这类模型真的强到能在复杂任务里持续推进,那靠几层 prompt、防几条关键词、加一些静态规则,迟早是不够的。
因为它面对的不是单条恶意指令,而是多轮任务链、规避式包装、分步式执行、伪装成正常工作的高风险动作。
所以真正该补的是三种能力:
第一,行为审计
不猜“它心里想什么”,先看它要做什么、正在做什么、做完留下了什么链路。
也就是:
要调用什么工具
要写什么文件
要执行什么命令
要访问什么网络目标
是否进入高风险状态
是否触发 freeze / rollback / review
这一层的价值,不是理解模型,而是控制执行面。
第二,序列治理
真正危险的行为,往往不是一句话,而是一条链:
先探测
再下载
再提权
再横向移动
再清理痕迹
如果系统只看单步,就很容易被“拆小步绕过”。
所以治理层必须是序列感知的,能看到跨轮、跨动作、跨工具的风险累积。
第三,审批门和冻结权
所有高风险动作,都不应该让模型自己闭环完成。
强模型最大的风险,不是“它很聪明”,而是它太容易被错误地授予闭环执行权。
所以安全设计里必须保留:
review
freeze
rollback
最小权限
多方批准
可回放审计链
这时候模型越强,治理层反而越有价值。
因为治理层不是在跟它比聪明,而是在决定:
再聪明,也不能直接越过边界。
- Mythos Preview 让我们看清一个现实:AI 安全正在从“内容安全”转向“执行治理”
过去很多安全讨论,仍然停在内容层:
会不会说危险的话
会不会输出有害内容
会不会教人做坏事
但 Mythos Preview 代表的,是另一类风险:
它不是“会不会说”,而是“会不会做”。
一旦模型开始进入 agent 模式,进入工具调用、脚本执行、浏览器控制、自动研究、自动工程修复、自动渗透验证这些场景,安全重点就必须一起迁移。
这时候最关键的不再是:
“模型说了什么”
而是:
“系统允许它通过哪些路径把话变成事”
这也是我为什么一直强调:
AI Agent 的安全核心,不是更强的回答过滤,而是对执行权的重构。
- 我的判断:Claude Mythos Preview 很危险,但不是无解;无解的是“让模型裸连现实世界”的系统
Anthropic 自己已经给了行业一个非常明确的方向:
他们一边公开 Mythos Preview 的能力与风险,一边把它接入一个防守方主导的项目生态,让关键软件基础设施的守护者抢先获得能力优势。
这说明最成熟的应对思路,不是幻想“永远别出现更强模型”,而是:
既接受强模型会出现,也要求它必须在更强的治理框架中运行。
所以我对 Mythos Preview 的判断是:
它很强
它会推动安全边界整体上移
它会让很多旧式 Agent 安全方案失效
但它不是无敌
真正不可接受的,不是它强,而是系统还在把强智能直接等价成高权限执行
模型能力越强,越应该降级为提案层;治理核心越应该升级为唯一执行入口。
这才是强模型时代更稳的架构。
- 给 AI Agent 开发者的一句实话
未来几年里,毁掉系统的未必是“失控智能”,
更可能是:
执行权结构设计错误
工具权限放得太早
缺少冻结和回滚
缺少序列审计
缺少多方审批
缺少一个真正独立于模型的治理核心
所以如果你正在构建 AI Agent,请优先做三件事:
给它边界。
给它骨骼。
给它察觉。
而不是先急着给它更大的脑子。
Claude Mythos Preview 不是“AI 无法治理”的证据。
它恰恰是在提醒整个行业:
从今天开始,治理能力本身,就是 AI 系统的一部分。
强模型不是终局。
谁掌握执行权结构,谁才掌握安全。