苹果第三代基础模型解读:WWDC 2026 之后,开发者真正要看的几件事

简介: 2026 年 6 月 8 日,苹果发布了第三代基础模型,同步重新命名了 “Siri AI”。五个模型。最亮眼的是 200 亿参数稀疏端侧模型(AFM 3 Core Advanced),每个 prompt 只激活 1–4B 参数,背后用的是苹果研究院称为 Instruction-Following Pruning 的技术。另一条更安静、但对开发者更重要的消息:苹果最强的云端模型 AFM 3 Cloud Pro 跑在 Google Cloud 中的 NVIDIA GPU 上,并使用 Google Gemini 前沿模型的输出做精调。苹果坚持这模型是自家的;苹果高管也很小心地区分”使用 Gemini

摘要 — 2026 年 6 月 8 日,苹果发布了第三代基础模型,同步重新命名了 “Siri AI”。五个模型。最亮眼的是 200 亿参数稀疏端侧模型(AFM 3 Core Advanced),每个 prompt 只激活 1–4B 参数,背后用的是苹果研究院称为 Instruction-Following Pruning 的技术。另一条更安静、但对开发者更重要的消息:苹果最强的云端模型 AFM 3 Cloud Pro 跑在 Google Cloud 中的 NVIDIA GPU 上,并使用 Google Gemini 前沿模型的输出做精调。苹果坚持这模型是自家的;苹果高管也很小心地区分”使用 Gemini 训练”和”就是 Gemini”。把端侧模型暴露给任意 Swift app 的 Foundation Models 框架,现在支持图像输入。所有这些在欧盟的 iPhone/iPad 和中国大陆首发时都用不了。

五模型矩阵

苹果的研究博客明确点名五个不同模型。这次命名比 2024 年的 “AFM-on-device / AFM-server” 二元组更有条理,也透露出苹果希望开发者怎么理解这套堆栈:端侧两层、Private Cloud Compute 三层。

模型

运行位置

规模

单次激活

角色

AFM 3 Core

端侧

3B(稠密)

3B

轻量文本、路由、快速 NLU

AFM 3 Core Advanced

端侧

20B(稀疏)

1–4B/prompt

新 Siri / 听写 / TTS;图像理解

AFM 3 Cloud

Private Cloud Compute

未公布

云端主力文本 / 图像理解

ADM 3 Cloud

Private Cloud Compute

未公布

图像生成(Image Playground、Reframe、Extend、Cleanup)

AFM 3 Cloud Pro

Google Cloud 中的 NVIDIA GPU(Private Cloud Compute 扩展)

未公布

复杂推理、Agent 工具调用

云端三个模型的参数量苹果一个都没公布。只有端侧两个模型披露了规模。

20B 稀疏模型,以及它为什么重要

技术上最有意思的是 AFM 3 Core Advanced。它是一个 200 亿参数的模型,能装进手机、跑在手机里——靠的是单次激活不超过约 4B 参数。

诀窍是 Instruction-Following Pruning(IFP),苹果研究院 2025 年 1 月在 arXiv 论文 里首次发表。思路:与其把稀疏当作训练时设定好的静态结构决策,不如让一个小预测器读取 prompt,为这次请求动态选择要激活的 FFN 矩阵行和列。论文的核心结果:他们的 3B 激活模型在数学和编程任务上比 3B dense 基线高 5–8 个绝对分,并追平 9B dense 模型的表现。也就是说,同样的 3B 激活算力,买到了 9B 级别的质量。

进到生产模型,故事变成内存层面的:苹果把完整模型放在闪存(NAND)里,把一小撮”始终激活的共享 expert”留在 DRAM,只在预测器选中时才把对应 expert 调进 DRAM。这就是 20B 模型能塞进端侧、又不烧电池的方式。

直白说:苹果给 iPhone 装上了第一个面向消费者大规模量产的动态稀疏 LLM。它不是经典意义上的 MoE(没有学到的 router 在每个 token 上选 K-of-N expert),但是近亲——而且工程落地是首次。

苹果没有做的事:没有把 AFM 3 Core Advanced 拉去和 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Qwen 3.7 或 Llama 4 比。所有对比都是和苹果自家 2025 年基线比。下面的评测数据,应该被读作代际进步的证据,不是竞品排名。

苹果的人工评测到底说了什么

苹果的评测方法是盲测情况下与上一代 AFM 的两两人工偏好对比。下面是研究博客里逐字摘出来的数字:

评测

新模型偏好率

2025 基线偏好率

文本(AFM 3 Core,端侧)

45.6%

23.3%

文本(AFM 3 Cloud)

64.7%

8.7%

图像理解(AFM 3 Core)

>61%

图像理解(AFM 3 Cloud)

37.8%

9.6%

听写总体质量(AFM 3 Core Advanced)

44.7%

17.6%

Cloud Pro 相对 Cloud 在文本上多 +10% 相对偏好,数学上多 +14%,图像理解上多 +14%

新端侧 TTS 的 Mean Opinion Score:

嗓音

当前 TTS

AFM 3 Core Advanced

通用

3.87

4.15

对话式

3.82

4.24

引用这些数字时有两个 caveat 必须记住:

  1. 没有第三方基准。没有 MMLU、没有 SWE-bench、没有 GPQA。苹果公布的所有数字都是对 2025 基线的偏好对比。
  2. 两两偏好评测对技术任务来说是粗的。它衡量的是”人类是不是更喜欢这个答案”,对聊天很说明问题,对代码和推理说服力弱。

Gemini 之争:哪些是事实

苹果和 Google 的合作产生了两条平行叙事,外界报道里一直没对齐。下面是两位苹果高管的原话:

“我们使用的 Google Assistant 数量是零。” — Craig Federighi,软件工程高级副总裁(9to5Mac

“所有这些模型都是专为 Apple Silicon 定制构建,使用专有数据训练,并使用 Gemini 前沿模型的输出进行精调。” — Amar Subramanya,苹果 AI 副总裁(CNBC

调和后:苹果没有在生产环境跑 Gemini 服务 Apple Intelligence。苹果确实把 Gemini 的输出当作后训练(蒸馏式精调)的一部分。具体到 AFM 3 Cloud Pro,多家报道描述了更深的 Google 参与——Gemini 衍生的训练基础设施、苹果负责预训练和后训练、NVIDIA 提供推理。苹果没有反驳这个说法,但也没在台上主动讲。

诚实的总结:Gemini 是教师信号,不是运行时模型。 这是 2026 年一个真实且在扩张的模式——前沿实验室训教师模型,下游玩家做蒸馏——而苹果是公开采用这种模式的最大分发渠道。

Private Cloud Compute,现在跑在 Google 数据中心的 NVIDIA 上

苹果 Private Cloud Compute(PCC)2024 年上线时拿出了一套挺猛的安全架构:运行被审计代码的 Apple Silicon 服务器,加密保证用户数据连苹果自己也碰不到。2026 年的扩展是个意外:PCC 现在也跑在 Google Cloud 内部托管的 NVIDIA GPU 上,苹果说同样的数据处理保证依然适用。

两个相关细节值得标出:

  • 为什么用 Google 的数据中心? 报道显示苹果先试图用自家 PCC 硬件跑新的 Cloud Pro 模型,结果太慢。Google Cloud 上的 NVIDIA 容量是最后跑通的方案。
  • 为什么主题演讲里一句没提? 苹果 keynote 提了 NVIDIA,没提 Google。Google 只出现在研究博客和事后的高管采访里。苹果想让你听到的品牌故事是”苹果模型、NVIDIA 硬件、苹果隐私”。完整的供应链比这更纠缠。

对评估苹果隐私承诺的开发者来说,工程实质是加密验证链路,不是 GPU 的物理位置。底层挪到 Google Cloud 上的 NVIDIA 并不打破这一点——但确实意味着信任模型现在涉及更多供应商。

Foundation Models 框架:2026 加了什么

这是发布会里报道最少、但和开发者关系最直接的部分。

Foundation Models 框架在 2025 年首次推出,是一个 Swift API,让任何第三方 app 都能直接调用苹果端侧约 3B 的模型——不需要 API key、不需要网络、按 token 没有任何成本。2026 的更新加了 图像输入:开发者现在可以把图像和文本一起传给端侧模型,让端侧视觉任务成为可能(给照片配文、从收据里提取结构化数据、识别 UI 元素),全程不走云端。

框架擅长的:

  • 结构化输出(强类型 Swift 值,不是纯文本)
  • 工具调用 / function calling
  • 隐私敏感的嵌入式智能(笔记摘要、端侧搜索、智能建议)
  • 离线可靠性(不依赖网络)

框架按设计不擅长的:

  • 通用知识问答(它不是 chatbot 后端)
  • 任何需要最新世界知识的场景
  • 需要前沿推理、超长上下文或多步 Agent 工具调用的任务

对一个 2026 年秋天发布的 iOS app,现实的模式是混合:端侧任务用 Foundation Models 框架,因为快、免费、离线;其他都 fallback 到云端模型。 这种 fallback 路径就是多服务商网关(包括 )发挥作用的地方——你希望 OpenAI/Anthropic/Google/Qwen/DeepSeek 都藏在同一个 API 后面,这样可以切换服务商而不用重新发版。

哪些地区首发用不上

地理限制比苹果以往的 AI 发布更严:

  • 🇪🇺 欧盟:Siri AI 在 iPhone 和 iPad 上首发可用。Mac、Apple Watch、Vision Pro 包含在内。苹果给出的理由是 DMA 合规工作仍在推进。
  • 🇨🇳 中国大陆:所有 Apple Intelligence,包括 Siri AI,等待监管批准前都可用。
  • 硬件门槛:iPhone 16 系列、iPhone 15 Pro / 15 Pro Max、搭载 A17 Pro 的 iPad mini、M1 或更新的 iPad、M1 或更新的 Mac、Apple Vision Pro。Apple Watch 上 watchOS 27 支持 Series 10、Series 11、Ultra 2、Ultra 3、SE 3——Watch 端 Apple Intelligence 还需要配对 iPhone 15 Pro / Pro Max 或更新机型。
  • 上线节奏:Siri AI 2026 年晚些时候以 beta 形式先支持英语,32 个支持的语言地区会逐步加入。语种覆盖英语(美 / 英 / 澳 / 印)、PFIGSCJK(葡 / 法 / 意 / 德 / 西 / 中 / 日 / 韩)、DNNSTV(丹 / 荷 / 挪 / 瑞 / 土 / 越)、AFIHHMPRTU(阿 / 芬 / 印尼 / 希 / 印地 / 马来 / 波 / 俄 / 泰 / 乌克兰)。

欧盟/中国的缺口意味着 Apple Intelligence 在地理上正式成为部分产品——同样的硬件,根据 Apple ID 区域不同会做明显不同的事,开发者文档也得按能力可用性分叉。

这对开发者实际意味着什么

如果你在 2026 年底要发 AI 功能,这三件事值得收下:

  1. 端侧 LLM 跨过了可用性门槛。 一个 20B 稀疏模型在手机上、支持图像输入、对 app 开发者免费,已经足够处理 app 内 AI 任务的一大块——结构化提取、分类、嵌入式摘要、工具路由。原本为了做这些事掏钱调云端 API 的 app,可以停了。
  2. 前沿任务依然属于云端。 Cloud Pro 存在是有理由的。长上下文、Agent 循环、前沿推理、多图像跨模态——所有这些通过云端 LLM 仍然更便宜、更强,或者两者都是。构建决策现在变成”什么不能跑在端侧”,而不是”我要多大的模型”。
  3. 多服务商接入是更安全的默认。 苹果现在出货的端侧模型部分由 Gemini 蒸馏而来,云端跑在 Google Cloud 中的 NVIDIA 上。模型层的供应商绑定,连苹果都不再当可选项。如果你做跨平台产品,应用层只押注单一模型供应商,这个赌注越来越难证明合理。

主线:苹果把端侧 LLM 变成了 iOS 上的基础能力。有意思的工作往上挪——挪到决定何时用它、何时绕过它,以及怎么做到这件事而不把 app 绑死在任何一家供应商身上。

延伸阅读

信源核对

相关文章
|
19天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7130 30
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
4天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
621 139
|
4天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1155 1
|
11天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1216 1
|
14天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1291 3
|
11天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1030 5
|
10天前
|
人工智能 自然语言处理 安全
Vibe Coding 实战:别盲目跟风,先分清 vibe coding 适合什么场景
本文系统总结vibe coding实战经验:明确其适用场景(原型、小工具、标准化模块),剖析5步落地流程(场景判定→结构化提示词→目录初始化→分模块生成→自动化校验),指出四大常见误区,并推荐适配工具Trae。强调“场景匹配+规则前置”是提效关键,避免盲目套用。
839 1
|
3天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
395 1