苹果第三代基础模型解读：WWDC 2026 之后，开发者真正要看的几件事-阿里云开发者社区

摘要 — 2026 年 6 月 8 日，苹果发布了第三代基础模型，同步重新命名了 “Siri AI”。五个模型。最亮眼的是 200 亿参数稀疏端侧模型（AFM 3 Core Advanced），每个 prompt 只激活 1–4B 参数，背后用的是苹果研究院称为 Instruction-Following Pruning 的技术。另一条更安静、但对开发者更重要的消息：苹果最强的云端模型 AFM 3 Cloud Pro 跑在 Google Cloud 中的 NVIDIA GPU 上，并使用 Google Gemini 前沿模型的输出做精调。苹果坚持这模型是自家的；苹果高管也很小心地区分”使用 Gemini 训练”和”就是 Gemini”。把端侧模型暴露给任意 Swift app 的 Foundation Models 框架，现在支持图像输入。所有这些在欧盟的 iPhone/iPad 和中国大陆首发时都用不了。

五模型矩阵

苹果的研究博客明确点名五个不同模型。这次命名比 2024 年的 “AFM-on-device / AFM-server” 二元组更有条理，也透露出苹果希望开发者怎么理解这套堆栈：端侧两层、Private Cloud Compute 三层。

模型	运行位置	规模	单次激活	角色
AFM 3 Core	端侧	3B（稠密）	3B	轻量文本、路由、快速 NLU
AFM 3 Core Advanced	端侧	20B（稀疏）	1–4B/prompt	新 Siri / 听写 / TTS；图像理解
AFM 3 Cloud	Private Cloud Compute	未公布	—	云端主力文本 / 图像理解
ADM 3 Cloud	Private Cloud Compute	未公布	—	图像生成（Image Playground、Reframe、Extend、Cleanup）
AFM 3 Cloud Pro	Google Cloud 中的 NVIDIA GPU（Private Cloud Compute 扩展）	未公布	—	复杂推理、Agent 工具调用

云端三个模型的参数量苹果一个都没公布。只有端侧两个模型披露了规模。

20B 稀疏模型，以及它为什么重要

技术上最有意思的是 AFM 3 Core Advanced。它是一个 200 亿参数的模型，能装进手机、跑在手机里——靠的是单次激活不超过约 4B 参数。

诀窍是 Instruction-Following Pruning（IFP），苹果研究院 2025 年 1 月在 arXiv 论文里首次发表。思路：与其把稀疏当作训练时设定好的静态结构决策，不如让一个小预测器读取 prompt，为这次请求动态选择要激活的 FFN 矩阵行和列。论文的核心结果：他们的 3B 激活模型在数学和编程任务上比 3B dense 基线高 5–8 个绝对分，并追平 9B dense 模型的表现。也就是说，同样的 3B 激活算力，买到了 9B 级别的质量。

进到生产模型，故事变成内存层面的：苹果把完整模型放在闪存（NAND）里，把一小撮”始终激活的共享 expert”留在 DRAM，只在预测器选中时才把对应 expert 调进 DRAM。这就是 20B 模型能塞进端侧、又不烧电池的方式。

直白说：苹果给 iPhone 装上了第一个面向消费者大规模量产的动态稀疏 LLM。它不是经典意义上的 MoE（没有学到的 router 在每个 token 上选 K-of-N expert），但是近亲——而且工程落地是首次。

苹果没有做的事：没有把 AFM 3 Core Advanced 拉去和 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Qwen 3.7 或 Llama 4 比。所有对比都是和苹果自家 2025 年基线比。下面的评测数据，应该被读作代际进步的证据，不是竞品排名。

苹果的人工评测到底说了什么

苹果的评测方法是盲测情况下与上一代 AFM 的两两人工偏好对比。下面是研究博客里逐字摘出来的数字：

评测	新模型偏好率	2025 基线偏好率
文本（AFM 3 Core，端侧）	45.6%	23.3%
文本（AFM 3 Cloud）	64.7%	8.7%
图像理解（AFM 3 Core）	>61%	—
图像理解（AFM 3 Cloud）	37.8%	9.6%
听写总体质量（AFM 3 Core Advanced）	44.7%	17.6%

Cloud Pro 相对 Cloud 在文本上多 +10% 相对偏好，数学上多 +14%，图像理解上多 +14%。

新端侧 TTS 的 Mean Opinion Score：

嗓音	当前 TTS	AFM 3 Core Advanced
通用	3.87	4.15
对话式	3.82	4.24

引用这些数字时有两个 caveat 必须记住：

没有第三方基准。没有 MMLU、没有 SWE-bench、没有 GPQA。苹果公布的所有数字都是对 2025 基线的偏好对比。
两两偏好评测对技术任务来说是粗的。它衡量的是”人类是不是更喜欢这个答案”，对聊天很说明问题，对代码和推理说服力弱。

Gemini 之争：哪些是事实

苹果和 Google 的合作产生了两条平行叙事，外界报道里一直没对齐。下面是两位苹果高管的原话：

“我们使用的 Google Assistant 数量是零。” — Craig Federighi，软件工程高级副总裁（9to5Mac）

“所有这些模型都是专为 Apple Silicon 定制构建，使用专有数据训练，并使用 Gemini 前沿模型的输出进行精调。” — Amar Subramanya，苹果 AI 副总裁（CNBC）

调和后：苹果没有在生产环境跑 Gemini 服务 Apple Intelligence。苹果确实把 Gemini 的输出当作后训练（蒸馏式精调）的一部分。具体到 AFM 3 Cloud Pro，多家报道描述了更深的 Google 参与——Gemini 衍生的训练基础设施、苹果负责预训练和后训练、NVIDIA 提供推理。苹果没有反驳这个说法，但也没在台上主动讲。

诚实的总结：Gemini 是教师信号，不是运行时模型。 这是 2026 年一个真实且在扩张的模式——前沿实验室训教师模型，下游玩家做蒸馏——而苹果是公开采用这种模式的最大分发渠道。

Private Cloud Compute，现在跑在 Google 数据中心的 NVIDIA 上

苹果 Private Cloud Compute（PCC）2024 年上线时拿出了一套挺猛的安全架构：运行被审计代码的 Apple Silicon 服务器，加密保证用户数据连苹果自己也碰不到。2026 年的扩展是个意外：PCC 现在也跑在 Google Cloud 内部托管的 NVIDIA GPU 上，苹果说同样的数据处理保证依然适用。

两个相关细节值得标出：

为什么用 Google 的数据中心？ 报道显示苹果先试图用自家 PCC 硬件跑新的 Cloud Pro 模型，结果太慢。Google Cloud 上的 NVIDIA 容量是最后跑通的方案。
为什么主题演讲里一句没提？ 苹果 keynote 提了 NVIDIA，没提 Google。Google 只出现在研究博客和事后的高管采访里。苹果想让你听到的品牌故事是”苹果模型、NVIDIA 硬件、苹果隐私”。完整的供应链比这更纠缠。

对评估苹果隐私承诺的开发者来说，工程实质是加密验证链路，不是 GPU 的物理位置。底层挪到 Google Cloud 上的 NVIDIA 并不打破这一点——但确实意味着信任模型现在涉及更多供应商。

Foundation Models 框架：2026 加了什么

这是发布会里报道最少、但和开发者关系最直接的部分。

Foundation Models 框架在 2025 年首次推出，是一个 Swift API，让任何第三方 app 都能直接调用苹果端侧约 3B 的模型——不需要 API key、不需要网络、按 token 没有任何成本。2026 的更新加了 图像输入：开发者现在可以把图像和文本一起传给端侧模型，让端侧视觉任务成为可能（给照片配文、从收据里提取结构化数据、识别 UI 元素），全程不走云端。

框架擅长的：

结构化输出（强类型 Swift 值，不是纯文本）
工具调用 / function calling
隐私敏感的嵌入式智能（笔记摘要、端侧搜索、智能建议）
离线可靠性（不依赖网络）

框架按设计不擅长的：

通用知识问答（它不是 chatbot 后端）
任何需要最新世界知识的场景
需要前沿推理、超长上下文或多步 Agent 工具调用的任务

对一个 2026 年秋天发布的 iOS app，现实的模式是混合：端侧任务用 Foundation Models 框架，因为快、免费、离线；其他都 fallback 到云端模型。 这种 fallback 路径就是多服务商网关（包括）发挥作用的地方——你希望 OpenAI/Anthropic/Google/Qwen/DeepSeek 都藏在同一个 API 后面，这样可以切换服务商而不用重新发版。

哪些地区首发用不上

地理限制比苹果以往的 AI 发布更严：

🇪🇺 欧盟：Siri AI 在 iPhone 和 iPad 上首发不可用。Mac、Apple Watch、Vision Pro 包含在内。苹果给出的理由是 DMA 合规工作仍在推进。
🇨🇳 中国大陆：所有 Apple Intelligence，包括 Siri AI，等待监管批准前都不可用。
硬件门槛：iPhone 16 系列、iPhone 15 Pro / 15 Pro Max、搭载 A17 Pro 的 iPad mini、M1 或更新的 iPad、M1 或更新的 Mac、Apple Vision Pro。Apple Watch 上 watchOS 27 支持 Series 10、Series 11、Ultra 2、Ultra 3、SE 3——Watch 端 Apple Intelligence 还需要配对 iPhone 15 Pro / Pro Max 或更新机型。
上线节奏：Siri AI 2026 年晚些时候以 beta 形式先支持英语，32 个支持的语言地区会逐步加入。语种覆盖英语（美 / 英 / 澳 / 印）、PFIGSCJK（葡 / 法 / 意 / 德 / 西 / 中 / 日 / 韩）、DNNSTV（丹 / 荷 / 挪 / 瑞 / 土 / 越）、AFIHHMPRTU（阿 / 芬 / 印尼 / 希 / 印地 / 马来 / 波 / 俄 / 泰 / 乌克兰）。

欧盟/中国的缺口意味着 Apple Intelligence 在地理上正式成为部分产品——同样的硬件，根据 Apple ID 区域不同会做明显不同的事，开发者文档也得按能力可用性分叉。

这对开发者实际意味着什么

如果你在 2026 年底要发 AI 功能，这三件事值得收下：

端侧 LLM 跨过了可用性门槛。 一个 20B 稀疏模型在手机上、支持图像输入、对 app 开发者免费，已经足够处理 app 内 AI 任务的一大块——结构化提取、分类、嵌入式摘要、工具路由。原本为了做这些事掏钱调云端 API 的 app，可以停了。
前沿任务依然属于云端。 Cloud Pro 存在是有理由的。长上下文、Agent 循环、前沿推理、多图像跨模态——所有这些通过云端 LLM 仍然更便宜、更强，或者两者都是。构建决策现在变成”什么不能跑在端侧”，而不是”我要多大的模型”。
多服务商接入是更安全的默认。 苹果现在出货的端侧模型部分由 Gemini 蒸馏而来，云端跑在 Google Cloud 中的 NVIDIA 上。模型层的供应商绑定，连苹果都不再当可选项。如果你做跨平台产品，应用层只押注单一模型供应商，这个赌注越来越难证明合理。

主线：苹果把端侧 LLM 变成了 iOS 上的基础能力。有意思的工作往上挪——挪到决定何时用它、何时绕过它，以及怎么做到这件事而不把 app 绑死在任何一家供应商身上。

信源核对

Apple Machine Learning Research — Introducing the Third Generation of Apple’s Foundation Models（模型矩阵、IFP、评测数据，逐字摘）
Apple Newsroom — Apple unveils next generation of Apple Intelligence, Siri AI, and more（硬件列表、语言列表、地区可用性）
9to5Mac — Federighi details Apple’s collaboration with Google for Siri AI（Federighi “Google Assistant 用量为零”原话）
CNBC — Apple partnering with Google and Nvidia for most advanced AI model（Subramanya 原话、NVIDIA-in-GCP 安排）
AppleInsider — Apple’s new foundation models don’t contain a drop of Gemini（关于 Gemini 关系的独立解读）
MacRumors — Siri AI not available in EU/China initially（地区限制）
arXiv 2501.02086 — Instruction-Following Pruning for Large Language Models（IFP 技术，苹果原论文）
MarkTechPost — Apple Researchers Introduce IFPruning（第三方 IFP 解读）

苹果第三代基础模型解读：WWDC 2026 之后，开发者真正要看的几件事

五模型矩阵

20B 稀疏模型，以及它为什么重要

苹果的人工评测到底说了什么

Gemini 之争：哪些是事实

Private Cloud Compute，现在跑在 Google 数据中心的 NVIDIA 上

Foundation Models 框架：2026 加了什么

哪些地区首发用不上

这对开发者实际意味着什么

延伸阅读

信源核对

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

苹果第三代基础模型解读：WWDC 2026 之后，开发者真正要看的几件事

五模型矩阵

20B 稀疏模型，以及它为什么重要

苹果的人工评测到底说了什么

Gemini 之争：哪些是事实

Private Cloud Compute，现在跑在 Google 数据中心的 NVIDIA 上

Foundation Models 框架：2026 加了什么

哪些地区首发用不上

这对开发者实际意味着什么

延伸阅读

信源核对

热门文章

最新文章

相关电子书