多重角度解读:贝叶斯推理是怎么工作的

简介: 本文首先介绍了贝叶斯的起源,并利用简单的例子生动形象地讲解了贝叶斯定理是如何工作的,解释了其基本原理以及公式的物理含义。

首发地址:https://yq.aliyun.com/articles/64245

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

以下为译

贝叶斯推理是一种从数据中获得更清晰预测的方法,当没有足够多想要的数据时,并想获得这些数据全部的预测强度时,贝叶斯推理是特别有用的。

虽然贝叶斯推理有时候被描述得有些让人敬畏,但它既不是魔法也不神秘。尽管在数学公式上可以获得详细的解释,但其背后的概念是完全可以获得的。总之,贝叶斯推理允许你从数据中通过折叠已经知道的答案来作出更强的结论。

贝叶斯推论是基于托马斯·贝叶斯的想法,托马斯·贝叶斯是一位不墨守成规的长老会牧师,他写过两本书,一本是关于神学,另外一本是关于概率。他的作品包括现在著名的贝叶斯定理的原始形式,已经被应用到推理、基于教育的猜测技术术语等问题上。贝叶斯思想的流行源自另外一位牧师——理查德·普莱斯。他看到贝叶斯定理的意义后、将其提炼并出版,贝叶斯推理更加准确和历史的叫法是贝叶斯定理贝叶斯-普莱斯规则。

在电影院中应用贝叶斯推理

 321217e4f2839ca636ed828f96cf0d93e6ac29f8

想象下在电影院中有一个影迷丢失了电影票,上图是他们从后面看到的样子,你想获得他们的注意,只知道他们有长头发,但无法区分他们的性别,你会喊出对不起,夫人或者对不起,先生吗?考虑到你知道你所在区域男女的发型,你可能假设这是一个女人。(这种简化中,只有头发长度和性别两个特征)。

现在考虑这个人在男卫生间排队情形的变化有了这个额外的部分信息,你可能会认为这是一个男。这种使用常识和背景知识是不需要思考就能得到的。贝叶斯推理是在数学上捕获这些常识与背景知识以致于使我们可以做出更准确的预测。

 a31840e95698765fe7840b7ec17a9a9e5ab3682f

数字电影困境,假设在剧院大约有一半男人一半女人。总共100人,50是男性,50女性女性,一半留长发(25)和一半(25短发。在男性中48有短发和2有长发。由于有25个长发女2个长发男因此猜测电影持有者为的假设是安全的。

 da6dea4b1fd15486f261152195fef16627999229

假设有100人在男卫生间排队其中是98名男子和陪伴伴侣2女性刚才的2名女性中长发短发各一人。男性长和短发的比例与之前一样,但是因为他们9894名是短发和4名是。现在安全的赌注是票证持有者是一。这是基本贝叶斯推理原则的一个具体的例子。事先知道关键部分信息—— 电影票所有者在男子厕所外排队使我们能够更好地预测他们。

要讲清楚有关贝叶斯推理,下面四个概念:概率,条件概率,联合概率和边缘概率。

概率

 4e3f855bdf6cbc1754c87f467b9d3f3b07259709

一个事件发生的概率可以通过能发生的数量除以可能发生的总数。一个影迷是女性的概率是50名女性/100观众 即0.550%的概率。这同样适用于男性。

 4b77ca9780ef2b87f66d8f96a97307183fb2e723

男子厕所排队等候的情况分解到0.02的概率为妇女,0.98的概率为男性。

条件概率

 0e02e84cc7b9375ba45334eb6a6690503f35b383

条件概率回答这个问题:如果我知道,一个人是名女性,她有长头发的概率是多少条件概率的计算方法概率一样,但他们只是看的所有例子的一个子集—— 那些符合一定的条件。在这种情况下,P(长发|),假设她是个女性,其有长头发的概率是多少等于性有长头发的数量除以女性的总数。这会变为0.5不管我们是否考虑到男卫生间排队是在整个剧院。

 71b1560d2fd61d6f27cdc7663720d37c8b83bf49

根据同样的数学公式,假设他是名男性,其有长头发的条件概率P(长发|男性)是0.96,不管他们是否在排队。

 b63d1f9ebdcf3c860ac8d123a1f8c8b8b9dd879e

关于条件概率,要记住的的一个重要的事情是,PA | BPB | A)是不一样的。例如,P(可爱|小狗)P(小狗|可爱)不同。如果我拿着的是一只小狗,它很可爱的概率是非常高的。如果我手里拿的东西是可爱的,是一只小狗的概率中等偏低,因为这也可能是小猫,兔子等。

联合概率

 69ad13a53945ae1c7762ce5f41e0f8b0d15a94e2

联合概率是回答这个问题的某人是女性且是短发的概率是多少?发现这是个两步过程。首先,专注于某人是一个女性,P(女)的概率。然后假设她是一名女性,其是短头发的概率P(短发|女)。通过乘法结合这些给定的联合概率,P(女子短发)= P(女)* P(短发|女)。使用这种方法,可以计算一下,我们已经知道的观众中(女人长头发)是0.25,但在男卫生间排队P(女人长头发)为0.01

 1311e170e638d77b377fff5efb5e027783d2713a

P(男子留长发)是所有观众之间的0.02,但在男子厕所排队情况下为0.04

 23f98b01ee1163c9af498693faa77fa31e685a93

条件概率不同,联合概率不关心顺序。PABPBA是相同的即有牛奶和果冻甜甜圈的概率有果冻甜甜圈和牛奶的概率是相同的

边缘概率

 022ecf4c78f530f282780c18f21f48eaa30c8f2f

边缘概率为了回答问题某人有长头发的概率是多少?为了解决这个问题,我们必须所有不同的方式的概率加起来,长头发男性加上长头发的女概率。加起来两个联合概率后概率P(长发)0.27,但在男卫生间排队情况下为0.05

贝叶斯定理

真正关心的部分是想回答这样的问题:如果我们知道一个人有长头发,那这个人是女性(或男性)的概率是多少?这是一个条件概率P(男人|长发),其相反的概率我们已经知道P(长发|男性),但由于条件概率是不可逆的,目前不能知道任何有关新的条件概率的事情。

辛运的是托马斯·贝叶斯注意到

820400fe3ee75c7832f4f9f28d5ae16bcb61a46a

记住是如何计算联合概率后,可以写出等式P(男性长头发)和P(长头发和男性)。因为联合概率是可逆的,这两样东西是相等的。

 dd0032c381896f96c56ba6a261ad3a65f6be8611

使用一点代数知识可以解决所关心的P男性|长头发)这个问题

 293d546d27f79c3a81937bb413d6da947ff59821

AB代替男性长头发,这样就得到了贝叶斯定理。

 534541d2924a697f8bbc459bb6490d3bc518f15f

最后解决电影票困境必须贝叶斯定理应用到我们的问题

 ff7670b0d6dfd7acff8ded434908038869c0b571

首先,需要展开边缘概率P(长发)。

 ba07c148d45e7246ac5b4aae6ea8cba112859074

然后计算出一个人是男性的概率,假设他们有长头发,对于在男卫生间排队的观众而言,P(男性|长发)为0.8。这证实了电影票的丢失者可能是男性。贝叶斯定理已经占据了我们对形势的直觉。最重要的是它已经结合了我们的预先存在的知识——在男卫生间排队更多的男性。使用这种先验知识,它更新了关于这种情况的信念。

概率分布

利用贝叶斯推理可以很好的解释像电影院困境这样的例子并显示其活动的机理。然而在数据科学应用上,它最常用来解释数据。通过在测量中提取先验知识,可以利用小数据集得出更强的结论。下面将展示如何工作的细节,但需要明确所说的概率分布

设想下一壶咖啡刚好有足够位置来填充一杯的概率是多少。如果只有一个杯子,那么填补是没有任何问题的,但如果有一个以上的话,你必须决定如何分配这么多杯的咖啡。但是你喜欢的话,你可以把它分解,只要你把所有的咖啡倾倒进一个杯子或其他。在电影院,一个杯子可能代表一个女性,另外代表的是男性。

 9f2fb78983c8c47eb3367c191af4e00ee3d9c7bd

或者,我们可以采用四个杯子来代表性别和头发的长度的所有组合的分布。在这两种情况下,咖啡总量加到一个杯子里。

 c74c9a9dd564077041b6bc57fdcbe5a6d3daa941

通常情况下,我们设置这些杯子并排在一侧,并把咖啡量看成是一个柱状图。其分布显示了我们对这种情况信服的强度。

 391b34e8f0f938a36a939ce9676bfaf46db8de19

如果抛一枚硬币并隐藏结果,那么你的信念会被均匀分到头和尾巴之间。

 42a8ff39b3768ccbb26667541592dc1d06c03249

如果掷骰子并隐藏结果,那么你对顶部的数字的信念会均匀地分到六个面之间。

 76cedade3e163dd096f6ccc8ce0bec424bbdc8a7

如果买了强力球才彩票,你认为赢家可能性是几乎接近于零。硬币翻转,投骰子,强力球彩票等结果—— 这些都是测量和收集数据的例子。

cf44e614d166d9c79d68be28f9b884a8567f256e

毫不奇怪的是你还可以对收集的数据保持信念。考虑在美国成年人的高度。你对他们身高的信念看起来像上面的图片。这说明一个信念,即这个人大概是在150200厘米,180190厘米的可能性最大。

 3f69370e45a7447b331fa964e56751c410c5f418

分布可以被分解成更细的等级,你可以看成是将少量咖啡分别倒入更多的杯子去获得更细的信念集。

 0c558991422b488e3f7fff687d329c2038965f71

最终,你需要虚杯的数量变得如此之大以致于这个类推被分解。在该点的分布是连续的。修改了下相关的数学知识,但基本思想仍然是有用的。它显示你的信念是如何分配的。

现在用概率分布描述,可以用贝叶斯定理来解释数据。

 63993f38930d4662ecc6d2fde480569dfb269818

 

在宠物医院中的贝叶斯推理

由于狗大范围的扭动造成很难得到准确的体重读数,而得到一个准确的读数是很重要的,因为如果体重提升了,必须降低其进食量,反之亦然。

在最后一次称重中,获得了三个测量值,分别为13.9磅、17.5磅和14.1磅,可以计算出其平均值,标准差和标准误差并得到狗的实际体重分布

 5d7f538246d16e95e2226daa1c2d8f9ffe31f206

   这种分布表明使用此方法对狗体重的信念。它是平均值为15.2磅和标准误差为1.2磅的正态分布。实际测量结果显示为白线。不幸的是这条曲线的  宽度是不合适的。而在峰值在15.2磅,概率分布表明,它可以很容易地低至13磅或高达17磅。太宽的范围以致于作出任何一种决定都是自信的。当面  对这样的结果时,通常是返回并收集更多的数据,但在某些情况下,这是不可行的或过于昂贵。

通过使用贝叶斯定理,这是使小数据集尽可能的有用。在我们应用它之前,是非常有必要重温下公式,并回顾各种术语。

 8d323edd417c69f98cb5e99ef52bac0083644f52

“w”(重)和“m”(测量)代替“A”和“B”。四个术语中的每个术语代表过程中的不同部分。

现有Pw),表明先验信念。在这种情况下,它表示我们认为对在称重之前狗的重量的信念。

可能性Pm|w)的,表示测量将导致产生特定重量的概率,这也被称为数据的可能性。

后部Pw|m),表示一个给定的权重的概率,考虑到我们所做的测量,这也是我们最感兴趣的内容。

数据的概率Pm),表示任何给定被测量的数据点的概率。现在我们假设这是一个常数。

在这种情况下,假定狗的重量可能是13磅、15磅、1磅或百万磅,让数据说话,假设之前先验是统一的,也就是说其概率分布的所有值是常数。这使得贝叶斯定理简化为Pw|m= Pm |w)。

 255caffd18c9da819f30691a403e95c7df7a560e

在这一点上,可以用狗的体重的每一个可能值并计算得到三个测量值的可能性。例如,如果狗的重量是一千磅,那么我们的测量将是极其不可能的。不过,如果其体重实际上是14磅或16磅,测量值是很有可能的。我们可以通过使用每个体重假想值计算得到测量值的可能性,即Pm|w)的。由于先验是统一的,因此也等于后验概率Pw|m)。

虽然使用了贝叶斯定理,但还是没有接近一个有用的估计。为了解决这一问题,假设先验概率为不均匀。先验分布代表了我们在采取任何测量之前对某事的信念。一个统一的先验说明我们相信每一个可能的结果是等可能的,这是很少见的情况。

 ae530841752edc39ee5f7d97e74fb213a1b3234d

关于狗这种案例,我确实有更多的信息,狗的最后一次体重是14.2磅,虽然胳膊不是一个非常敏感的天平,但是给我的感觉并不觉得明显重或者轻了,因此相信狗的重量约为14.2磅左右,基于这一点,假设为峰值为14.2磅位置,标准偏差为0.5磅的正态分布来表示。

 7eeafd1f72a3442a19215ec933d0a73913e715e7

现在知道先验知识,可以重复计算后验过程,要做到这一点,我们认为狗的体重是有确切值的可能性,假定为17磅。然后,狗确实是17磅的条件概率并与先验概率相乘,对每个其他可能的重量重复该过程。在这个例子中,在13­15磅的范围内有更多的测量体重,这是与均匀先验相反。

 1e471b1d49d1d23df014c9609a100e6f28d97c49

通过计算每一个可能的重量概率,产生了新的后验概率。后验分布的峰值也被称为最大后验估计或MAP,在这种的情况下,MAP14.1磅。这比以前用统一先验知识计算是显著不同的。这也是一个更窄的尖峰,这使我们能够作出更加自信的估计。现在我们可以看到,狗的体重没有太大的改变,其进食量不会改变。

通过整合我们已经知道测量的,我们能够更自信的做出更准确的估计。贝叶斯推理使我们能够很好地利用一个非常小的数据集。我们事先分配17.5磅测量值有一个极低的概率。这几乎与拒绝值一样,但不是基于直觉和常识做的异常检测,贝叶斯定理使我们能够使用数学的方式做这种异常检测。

作为一个侧面说明,假设Pm)是统一的,但如果我们碰巧知道天平在某些方面有偏差,我们可以反映在Pm)中。如果天平仅报偶数或第三次尝试会生成的随机测量,我们可以人工制作Pm)以反映这一点,这会改善我们后验概率的准确性。

避免贝叶斯陷阱

狗的称重例子展示了贝叶斯推理的优点,但也有缺陷。通过对答案进行一些假设会改善我们的估计,但测量事物的整个目的是为了了解该事物。如果我们的假设已经知道了答案,那么可能会审查这些数据。

如果我们开始就设定了一个强大的事先假设,即狗的重量为1315磅之间,如果体重实际上已经下降到12.5磅,那么将永远无法检测到该值。我们事先将零概率分配到这一结果,不管有多少次测量,每次低于13英镑获得测量将被忽略。

幸运的是,存在一些方法去对冲我们的赌注并避免盲目的估计。这种方法就是至少分配一个小概率给每个结果。如果狗的体重居然重达1000磅,我们收集到的测量结果将能够反映在后验概率中。这也是正态分布通常用作先验分布的一个原因。正态分布大部分集中在小范围成果上,不管他们扩展的有多远,有很长的尾巴且从来不会完全变为零。

文章原标题《How Bayesian inference work》,作者:Brandon

文章为简译,更为详细的内容,请查看原文:Data Science and Robots Blog

翻译者: 海棠 

Wechat:269970760 

Email:duanzhch@tju.edu.cn

微信公众号:AI科技时讯

157f33dddfc596ede3681e0a2a0e7068dc288cc1

目录
相关文章
|
存储 数据可视化 Serverless
使用蒙特卡罗模拟的投资组合优化
在金融市场中,优化投资组合对于实现风险与回报之间的预期平衡至关重要。蒙特卡罗模拟提供了一个强大的工具来评估不同的资产配置策略及其在不确定市场条件下的潜在结果。
236 1
|
19天前
|
机器学习/深度学习 人工智能 测试技术
探索软件测试中的“禅”:寻找内在的平和与外在的效率####
在软件测试的世界里,我们常常被缺陷的数量、测试用例的覆盖度以及上线时间的紧迫性所困扰。但如果我们能像禅宗修行者一样,将注意力转向内心的平静与专注,或许能在纷繁复杂的测试工作中找到一种全新的效率和质量提升之道。本文将带您走进软件测试的“禅意世界”,探讨如何在看似枯燥无味的测试过程中,通过调整心态、优化方法,实现个人成长与项目成功的双赢。 ####
|
4天前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
10 1
|
2月前
|
人工智能 自然语言处理 计算机视觉
浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余
【9月更文挑战第14天】近年来,人工智能的迅猛发展推动了计算机视觉与自然语言处理交叉领域的研究,其中指代表达理解任务备受关注。REC的目标是在图像中根据自然语言描述定位目标对象。然而,现有方法因密集感知图像而导致计算开销大。为此,浙江大学李玺团队提出了ScanFormer,一种迭代感知框架,通过自顶向下的方式逐步提取与语言相关的视觉块,并通过信息性预测丢弃不相关部分,有效减少冗余,提升模型效率。实验表明,ScanFormer在多个基准数据集上表现优异,实现了准确性和效率的良好平衡。不过,它目前仅支持单目标定位,且在某些场景下可能不如其他方法精确。
34 1
|
3月前
|
机器学习/深度学习 监控
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
在进行多任务学习时,如何确保模型不会过度拟合单一任务而忽视其他任务?
|
4月前
|
机器学习/深度学习
深度之眼(二十四)——无约束最优化和约束最优化
深度之眼(二十四)——无约束最优化和约束最优化
|
6月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
6月前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
|
6月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
6月前
|
移动开发 安全 算法
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
社交网络分析6:社交网络不实信息传播分析 、 ILDR(Ignorant-Lurker-Disseminator-Removed)传播动力学模型 、 平衡点 、 平衡点的稳定性分析 、数值仿真
252 0