贝叶斯公式推导:从联合概率的对称性看条件反转

简介: 本文以双盒取球为例,直观讲解概率基础:从简单概率(P(A)=1/2)出发,引入条件概率(P(R|A)=3/4),再自然导出贝叶斯定理(P(A|R)=P(R|A)P(A)/P(R))。全程避免复杂数学,强调“全集切分—视角转换”这一核心思想,让逆向推理清晰可感。

本文从简单概率的概念出发,逐步过渡到条件概率,最后介绍贝叶斯定理。整个过程会尽量保持直观,不涉及复杂的数学形式。

假设有两个盒子:盒子 A 和盒子 B。盒子 A 装了 4 个球,3 红 1 绿;盒子 B 同样装了 4 个球,1 红 3 绿。

一个蒙着眼的人站在两个盒子前面,随机选中任一盒子的概率是 1/2。选定了某个盒子,比如盒子 A,从中摸到红球的概率是 3/4,摸到绿球的概率是 1/4。

树形图清楚地展示了盒子选择和球选择的概率分布也引出了几个基本概念:蒙眼的人选定盒子 A 后,取到红球的概率是 3/4,取到绿球的概率是 1/4。

选中任一盒子的概率是 1/2,写成数学语言:P(A) = 1/2,P(B) = 1/2。这属于简单概率。

在盒子 A 已被选中的前提下,从中取出红球的概率是 P(R | A) = 3/4。这就是条件概率,它以"盒子 A 已被选中"为条件,说法是"在盒子 A 已被选中的条件下,取出红球的概率"。

  P(R | A) = 3/4 = count of Red balls in box A / total balls in box A

同理,P(G | A) = 1/4 表示在盒子 A 已被选中的条件下取出绿球的概率。

条件概率有一个关键特征:它缩小了"世界"的范围。计算条件概率时,参考系限定在条件所界定的子集之内。选择盒子时,"世界"是包含两个盒子的全集;选择球时,"世界"缩小到了那个特定的盒子,概率以该盒子中球的总数为分母。换言之,就是用盒子 A 中红球的数量除以盒子 A 中球的总数。

P(R ∩ A) 和 P(G ∩ A) 呢?它们也是概率但不附加任何条件。它们代表的是从树的根节点出发、从最开始起算的概率,不假设已经选好了盒子正在取球而是把选盒子和取球两步合在一起,得出一个从起点到终点的总概率。

P(R ∩ A) = P(A) . P(R | A) = 1/2 . 3/4 = 3/8

想想这个公式为什么成立呢?从盒子 A 中取到红球的条件概率是 3/4,但现在还要考虑选中盒子 A 本身的概率是1/2。两者相乘3/4 被缩减为 3/8。蒙眼人选中盒子 A 的概率 P(A) = 1/2,继而在盒子 A 中摸到红球的概率 P(R | A) = 3/4,两步合起来 P(R ∩ A) = 3/8。由于两个盒子各含 4 个球且等概率被选中,3/8 实际上等于盒子 A 中的红球数除以全集中球的总数。

这个结果符合理论:所有条件概率都会因为前置的盒子选择概率而按比例缩小,即按选中该盒子的概率做缩放。出发点也从树的盒子节点退回到了根节点。

同理:

 P(G ∩ A) = 1/8 = Green balls A contains / total number of balls in whole universe  
 P(R ∩ B) = 1/8, P(G ∩ B) = 3/8

到这里,整个全集已经被切分成了四个不重叠的概率块:

P(R ∩ A) + P(G ∩ A) + P(R ∩ B) + P(G ∩ B) = 3/8 + 1/8 + 1/8 + 3/8 = 8/8 = 1

四个块加起来刚好等于 1,说明全集中所有盒子与球的组合都已穷尽,不存在遗漏。图示如下:

Universe-1

P(R | A) 描述的是红球在盒子 A 内部占多大比例;P(R ∩ A) 描述的是盒子 A 中的红球在整个全集中占多大比例。二者的区别至关重要。

现在换一个方向提问:随机拿起一个红球,它来自盒子 A 的概率是多少?即 P(A | R) = ?

这个问题的方向和树形图恰好相反。原先的逻辑是先选盒子再选球,"世界"从全集缩小到特定盒子,在盒子层面计算条件概率。现在的逻辑则是先假定取到的球是红色的—— "世界"缩小到只有红球——然后再看其中多大比例来自盒子 A。

一种理解方式是先构造一个"红球星球",把全集中所有红球聚在一起,再看盒子 A 贡献了其中多少。

P(R) = P(R ∩ A) + P(R ∩ B) = 1/2

为什么这个值合理?全集被切成四个块,其中两个包含红球 P(R ∩ A) 和 P(R ∩ B)。将它们合并就得到红球的总概率。两个值都是以全集为参考系的,所以 P(R) = 1/2 的含义是全集中一半的球是红色的。

新的参考系如下:

Universe-2

同理:

 P(G) = P(G ∩ A) + P(G ∩ B) = P(G | A) . P(A) + P(G | B) . P(B)  
 P(G) = 1/4 . 1/2 + 3/4 . 1/2 = 1/2

到这一步,"世界"的组织方式变了,从"盒子包含球"变成了"球携带来源盒子的标签"。

为什么要做这个转换?原来的概率链条是"先选盒子、再取球",但目标问题是反过来的:已知取到了红球,想知道它来自哪个盒子,方向一反转就需要从 P(R | A) 转向计算 P(A | R):

 P(A | R) = P(A ∩ R) / P(R) = (3/8) / (1/2) = 3/4

为什么不直接用 P(A ∩ R) = 3/8 来回答?因为 3/8 是站在全集视角看的——全集中盒子 A 红球所占的比例。但问题要求站在"红球星球"的视角,而不是全集的视角。红球星球的总量比全集小,所以 3/8 按比例放大——除以 P(R) = 1/2,等价于乘以 2,得到 3/4。P(A ∩ R) 和 P(R) 的分母都是全集,度量单位一致,相除后结果就落在了红球星球的尺度上。

换个角度看也行:红球星球上共 4 个红球,其中 3 个来自盒子 A。

 P(A | R) = count of red balls from planet A / total red balls = 3/4

还可以这样理解:红球星球由两个块组成——P(A ∩ R) 和 P(B ∩ R),两者之和即 P(R)。要求 P(A ∩ R) 在 P(R) 中的占比,直接做除法即可。

绿球方向的计算完全对称:条件是绿球已被选中,求它来自盒子 B 的概率。

 P(B | G) = P(B ∩ G) / P(G) = P(B ∩ G) / (P(A ∩ G) + P(B ∩ G))  
 P(B | G) = (3/8) / ((1/8) + (3/8)) = 3/4

小结一下整个过程:在全集 1 中,星球是盒子 A 和盒子 B,各自包含红球和绿球的分区。经过重组后,全集 2 中的星球变成了红球和绿球,各自包含盒子 A 和盒子 B 的分区。从一种划分到另一种划分的转换——这就是贝叶斯定理的本质。

直接代入公式验证:

 P(A | R)  = P(A ∩ R) / P(R)  
           = P(A ∩ R) / (P(A ∩ R) + P(B ∩ R))  
           = P(R | A) . P(A) / (P(R | A) . P(A) + P(R | B) . P(B))  
           = 3/4 (you can put values to confirm)

不过还需注意一点:

 P(A ∩ R) = P(R | A) . P(A) [This is given in our problem. So we use this in our formula]  
 P(A ∩ R) = P(A | R) . P(R) [This is what we would find eventually. So we didn't use it in formula for calculation]

为什么这套全集转换的逻辑能走通?为什么原本以盒子为视角的概率可以翻转成以球为视角?根本原因在于全集能够通过交集运算被拆解成互不重叠的概率块。

"全集可以被分割成小的、带标签的块(联合概率)。"

这些小块各自携带一个条件标签,可以按需重新组合成新的"星球",从而以不同的视角审视同一个全集。P(R ∩ A)、P(R ∩ B)、P(G ∩ A)、P(G ∩ B)——这四个联合概率就是构建一切的基本单元。

贝叶斯公式:

P(A | R) = P(A ∩ R) / P(R) = P(R | A) . P(A) / P(R)

从盒子出发提问"给定盒子颜色是什么"——答案是条件概率

P(R | A)

P(G | B)

等。将条件概率乘以降落在该盒子上的概率

P(A)

P(B)

,得到联合概率

P(R ∩ A)

等。按颜色对联合概率分组,得到边缘概率

P(R)

P(G)

,进而就可以反转提问方式:

P(A | R)

P(B | G)

P(R | A)

P(A | R)

的反转:这正是贝叶斯定理所形式化的运算。

贝叶斯的思想之所以自然到几乎不需要解释,因为全集天然地可以被切分成带标签的小块(联合概率),这些小块按盒子分组就得到盒子级别的概率,按颜色分组就得到颜色级别的概率。贝叶斯定理不过是一套以一致、归一化的方式将"给定"方向从盒子→颜色翻转为颜色→盒子的算术规则。

https://avoid.overfit.cn/post/491104cf4f374349bf12850ac618242d

by Syed Abdullah

目录
相关文章
|
1天前
|
人工智能
聊聊 AI 的 token 到底是啥?
Token是AI处理文字的最小单位(如“今天”“天气”),非单字而是“词块”。它决定对话长度、计费成本与响应速度:中文约1.5字/个,英文约0.75词/个。精简表达=更便宜、更快、不超限。(239字)
172 4
|
1天前
|
人工智能 自然语言处理 前端开发
零安装在线网站制作真的靠谱吗?3分钟建站全过程拆解
本文揭秘AI生成网站的真实能力与局限:无需写代码、不装环境,三步即可生成含前后端及数据库的完整网站。以lynxcode为例,解析自然语言建站流程,同时指出复杂业务适配、代码可维护性及数据自主权等关键问题,理性看待“零门槛”建站。
|
4月前
|
应用服务中间件 数据中心
阿里云200m轻量服务器哪个区域好?亲测这么选最合适
阿里云200M轻量服务器选地域?建议就近选择:华北选北京,华东选杭州,华南选深圳,西南选成都,距离越近,延迟越低、速度越快。多地可选,覆盖全国,详情见官方页面。
647 155
|
2月前
|
存储 弹性计算 安全
从0到1看懂:阿里云服务器ECS是什么?详解、价格、优势及使用问题解答FAQ
阿里云ECS是基于飞天架构的弹性计算服务,提供高稳定、高性能、安全可靠的云服务器,支持多种计费模式与丰富规格族,适配企业应用、互联网、AI等上百种场景,助力用户实现算力随需所用、成本最优。
|
2月前
|
存储 弹性计算 安全
2026年阿里云便宜云服务器38元、99元、199元购买条件、各自性能优势与适用场景介绍
在阿里云2026年的活动中,推出了多款价格亲民的云服务器产品。轻量应用云服务器2核2G200M带宽 40G ESSD云盘 38元1年,经济型e实例2核2G3M带宽 40G ESSD Entry云盘特惠价99元1年,通用算力型u1实例2核4G5M带宽80G ESSD Entry云盘特惠价199元1年。本文将为大家介绍这三款热门低价云服务器的购买条件、性能优势与适用场景,以供用户了解他们之间的性能、使用场景区别及选择参考。
371 8
|
2月前
|
存储 弹性计算 人工智能
租用云服务器多少钱一个月?2026年阿里云服务器租用月付价格说明
租阿里云服务器的月费受实例类型、配置、地域等因素影响,从 25 元到数千元不等,覆盖个人开发、中小企业业务到高性能计算等全场景。以下结合 2026 年最新价格信息,梳理轻量应用服务器、ECS 云服务器及 GPU 服务器的核心配置与月费,帮助用户根据需求精准选择,避免成本浪费。
|
4月前
|
云安全 人工智能 自然语言处理
AI说的每一句话,都靠谱吗?
阿里云提供AI全栈安全能力,其中针对AI输入与输出环节的安全合规挑战,我们构建了“开箱即用”与“按需增强”相结合的多层次、可配置的内容安全机制。
1934 3
|
2月前
|
人工智能 弹性计算 安全
2026阿里云无影云电脑收费价格及配置选择指南,新手上云百科
阿里云无影云电脑(EDS)提供云端高性能计算,支持多端接入,弹性配置,数据安全。2026年推出个人版与企业版双轨体系,按需付费、灵活试用,适用于办公、设计、AI、游戏等场景,助力用户轻松拥有“随身云PC”。
|
1天前
|
存储 人工智能 Linux
OpenClaw(Clawdbot)阿里云/本地部署及省Token(钱啊)教程:集成Claude-Mem编码记忆/压缩90%上下文
在使用Claude Code进行开发时,很多开发者都会陷入“Token消耗过快”的困境:跨会话开发需要重复传递历史代码、架构决策与踩坑记录,20000 Token的完整上下文会让成本飙升;而频繁切换会话又会导致记忆丢失,每次重新沟通都要重复说明背景,效率极低。
149 0
|
1天前
|
机器人 Shell 开发工具
OpenClaw(Clawdbot)阿里云/Windows/Mac部署:+DeepSeek/千问集成飞书,1小时搭建私人AI助手
在AI助手工具中,OpenClaw凭借开源自由、功能全面、可定制化强的优势,成为搭建私人AI助手的首选平台——它能对接DeepSeek、千问、豆包等主流大模型,集成飞书、文档、网络搜索等工具,实现问答、文档处理、任务管理、代码编写等多场景需求。但不少新手在部署时屡屡碰壁:网络无法下载、环境变量配置错误、飞书机器人收不到回复、模型调用失败,原本想省时间,结果耗费数小时仍无法正常使用。
448 1