机器学习的统计方法 贝叶斯决策理论入门(公式修正版)

简介: 机器学习的统计方法 贝叶斯决策理论入门(公式修正版)

因为昨天排版问题,导致公式无法显示,今天这一版本已经修复,在这里跟大家说声抱歉。

另外感谢小伙伴留言提醒,你们的支持就是我们更新的动力。


image.png

引言

无论你是在建立机器学习模型还是在日常生活中做决定,我们总是选择风险最小的方案。作为人类,我们天生就采取任何有助于我们生存的行动;然而,机器学习模型最初并不是基于这种理解而建立的。这些算法需要经过训练和优化,以选择风险最小的最优方案。此外,很重要的一点在于,我们必须明白,如果某些高风险的决定做的不正确,将会导致严重的后果。

image.png

我们以癌症诊断为例。根据病人的计算机断层扫描(CT),放射科医生能确定肿瘤的存在吗?如果他们认为病人体内有肿瘤,那么医生需要弄清楚肿瘤是良性的还是恶性的,以确定正确的治疗方法。鉴于本文的目的是描述做出这些决策的统计方法,所以我只关注问题的第一部分:病人是否有肿瘤,是,还是否?


贝叶斯定理

在统计学和概率论领域,最著名的方程之一是贝叶斯定理(见下面的公式)。基本直觉是,给定某个特征(即属性)时,某个类或事件发生的概率是基于特征值的可能性和有关该类或事件的任何先验信息计算的。这句话看起来有点复杂,所以我们一步步拆开来看。首先,癌症检测是一个两类问题。第一类ω_1表示肿瘤存在,ω_2表示肿瘤不存在。

image.png

贝叶斯定理有四个部分:先验、似然、置信和后验。

先验

验概率(P(ω_1),P(ω_2))定义了事件ω_1或ω_2在自然界中发生的可能性。我们要注意,先验概率的分布根据我们问题的情景而各有差异。由于目标是检测癌症,可以肯定的是,肿瘤出现的概率很低:P(ω_1)<P(ω_2)。但是,不管值是多少,所有先验概率的总和都必须是1。

似然

从技术上来说,CT扫描是指用x射线以圆周运动的方式进行扫描。产生的关键指标之一是衰减——衡量x射线吸收程度的指标。密度越高的物体衰减越大,反之亦然。因此,与肺组织相比,肿瘤可能具有更高的衰减。


假设我们只通过衰减值这一个特征来从ω_1和ω_2之间做出决定。每个类都有一个类条件概率密度p(x|ω_1)和p(x│ω_2 ),称为“似然度”。下图显示了一个的P(x|ω)的类条件概率密度示意图。类条件概率分布是通过分析训练数据集来提取的;但是,如果有相关领域的专家来检查一下数据的有效性是最好的。

image.png

置信

描述置信p(x)最好的办法是全概率公式。这条公式指出,如果有相互排斥的事件(例如ω_1和ω_2),其发生概率总和为1,则某个特征(例如衰减程度)出现的概率(也即我们的置信)是所有相互排斥的事件的似然度与对应事件先验概率乘积的和。

image.png

后验

贝叶斯定理的结果称为后验概率P(ω_1 |x)和P(ω_2 |x)。后验概率表示在给定特征x(例如衰减程度)的情况下,观察值属于ω_1或ω_2类(即是否存在肿瘤)的概率。每一个观测值都有一个后验概率,所有后验概率的总和必须达到1。对于我们试图解决的癌症检测问题,它有两个后验概率。除了似然度和后验概率之间的联系之外,后验概率还可能受到先验概率P(ω)的严重影响。

决策规则

既然我们已经很好地理解了贝叶斯定理,现在是时候看看如何利用它在两个类之间建立一个决策边界了。有两种方法可以确定病人是否有肿瘤。第一种是一种简单的方法,它只使用先验概率值来做决定;第二种方法利用后验概率,利用先验概率和类条件概率分布来确定病人患有肿瘤的概率。


使用先验概率

假设我们只根据自然的先验概率做出决策,这意味着我们忘记贝叶斯定理中的所有其他因素。由于有肿瘤的概率P(ω_1)远小于没有肿瘤的概率P(ω_2),我们的模型/系统将始终预测每个患者都没有肿瘤。尽管模型/系统在大多数情况下都是正确的,但它无法识别出真正患有肿瘤并需要救治的患者。

使用后验概率

现在让我们使用后验概率P(ω_1 |x)和P(ω_2 |x)来采取更全面的方法。由于后验概论是贝叶斯定理的结果,类条件概率密度p(x|ω_1)和p(x|ω_2)减轻了先验的影响。如果我们的模型/系统所观察的区域的衰减比普通组织要高,那么尽管存在自然的先验概率,但肿瘤出现的概率还是会增加。假设一个特定区域有75%的几率含有肿瘤,那么这就意味着有25%的几率根本没有肿瘤。这25%的几率是我们出错的概率,也被称为风险。

结论

您刚刚学到的是贝叶斯决策理论的一个简单的单变量应用,它可以通过使用多元高斯分布代替置信和似然度来扩展到更大的特征空间。虽然本文的重点是解决癌症检测的问题,但是贝叶斯定理也被广泛用于包括投资、市场营销和系统工程在内的众多领域。

参考资源

[1]Seo, Young-Woo. (2006). Cost-Sensitive Access Control for Illegitimate Confidential Access by Insiders. Proceedings of IEEE Intelligence and Security Informatics: 23–24 May 2006. 3975. 117–128. 10.1007/11760146_11.

[2] Duda, R. O., Hart, P. E., Stork, D. G. (2001). Pattern Classification. New York: Wiley. ISBN: 978–0–471–05669–0

[3] Glatter, R., “Medicare To Cover Low-Dose CT Scans For Those At High Risk For Lung Cancer”, Forbes (2015)

目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
1天前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
20 1
|
13天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
22 2
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
33 2
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
64 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
24天前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
29 1
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
23 1
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型选择与训练、模型评估及交叉验证等关键步骤。通过本文,初学者可以快速上手并掌握机器学习的基本技能。
53 2
|
1月前
|
机器学习/深度学习 人工智能 数据挖掘
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第6天】在人工智能领域,机器学习已成为核心技术。本文指导初学者使用Python与Scikit-learn入门机器学习,涵盖基本概念、环境搭建、数据处理、模型训练及评估等环节。Python因简洁性及其生态系统成为首选语言,而Scikit-learn则提供了丰富工具,简化数据挖掘与分析流程。通过实践示例,帮助读者快速掌握基础知识,为进一步深入研究奠定坚实基础。
28 4
|
1月前
|
机器学习/深度学习
如何用贝叶斯方法来解决机器学习中的分类问题?
【10月更文挑战第5天】如何用贝叶斯方法来解决机器学习中的分类问题?

热门文章

最新文章

下一篇
无影云桌面