机器学习中的贝叶斯方法---当后验分布无法计算时如何求得预测模型?

简介:

在前面两篇文章中:

 

我们以抛硬币作为示例,介绍了如何使用概率论的方法来构造机器学习中的预测模型---通过概率论理论来求解模型参数。

用到的概率论知识主要是贝叶斯理论:要想求出预测模型中的参数r(比如抛硬币出现正面的概率r),在求解之前,我们对模型有一定的了解,比如认为出现正面和反面的概率是相同的(r=0.5)。但根据我们的样本数据,比如有10个样本数据,即抛了10次硬币,出现了9次正面,那我们还有多大的把握相信模型参数r真的是0.5?

如果r=0.5的话,抛10次硬币,抛硬币是独立重复事件,服从二项分布,那么出现9次正面的概率是:

 

但是,r=0.5真的合理吗?我们之所以相信r=0.5,是根据我们的日常生活中硬币只有正反两面,出现正面和反面的机率是一样的

然而,现实是,我们拥有的样本数据表明:抛10次硬币,有9次是正面。也即,我们做实验得出的结果却在一定程度上说明出现正面和反面的机率是不一样的。不然的话,为什么不是5次正面,5次反面呢?或者6次正面,4次反面也行啊.....

因此,根据样本数据,我们有理由怀疑,r=0.5不是合理的值,或者说不是一个好的模型参数。我们需要 根据 实际观察到的结果(样本数据) 和 我们日常生活对硬币的理解,重新为 r 寻找一个更合理的值。

比如取 r=0.9,即抛一次硬币出现正面的概率是0.9,那么抛10次硬币出现9次正面的概率就是:

   

 

而这个概率是要远远大于r=0.5时的情形的

    

 

 

而既然抛10次硬币,出现了9次正面,这件事情已经铁板钉钉地发生了。根据这10次抛硬币的数据,我们应该寻找一个更合适的r,使得这件事情发生的概率最大:

而这就是最大化似然函数的原理。也就是说,如果r=0.9,那么抛10次硬币,出现9次正面发生的可能性 要远大于 r=0.5的情形。

因此,通过最大化似然函数求得的r,就比 单纯地依赖先验信息r=0.5 更好。

 

综上所述,在上面的问题描述中:

  • 在求解模型参数之前,我们对模型有一定的了解,这在概率论中称为先验信息
  • 在(拿到)分析样本数据时,抛10次硬币,出现9次正面。我们应该为这些数据选择一个合理的参数r,当r 取某个值时,这个值对应的概率密度函数最大。这在概率论中称为最大化似然函数。(也许不太严谨)

而贝叶斯公式呢,则是将 先验分布信息 和 似然函数 结合起来,从而求得合理的模型参数,得到后验分布,并使用后验分布(的期望)作为 预测模型。

可是,在概率论中,求解后验分布是一件很难的事情,给出了先验分布和似然函数后,并不一定能把后验分布求解出来(比如要进行积分,而这个积分积不出)

只有在一些特殊情况下,能够把后验分布求出来,比如:在机器学习中的贝叶斯方法---先验概率、似然函数、后验概率的理解及如何使用贝叶斯进行模型预测(2)提到的当先验分布与似然函数“共轭”时,求解后验分布就容易了。

 

那么当先验分布与似然函数“不共轭”时,后验分布无法直接计算得到时,怎么办?

一种合理的想法就是对后验分布进行近似,既然求不出“精确表达式”,那就用“近似表达式”呗。这里,主要有三种近似的策略:

①后验分布中包含了模型参数,使用 点估计(point estimate--the MAP solution) 方法对模型参数进行估计。这方法用到了牛顿法,首先选择一个初始点,然后通过偏导数不断选择下一个点更新初始点,直到偏导数等于0,最终得到极值。当样本的特征是多维的时,就是使用Hessian矩阵来更新了。

显然,这是一种不断迭代的思路。因此,该方法需要考虑“收敛性”问题---最终能不能得到最值(极值)?要迭代多少次才能收敛?收敛得快不快?

能不能收敛到最优值,可以根据Hessian矩阵的正定性(负定性)来判断,收敛得快不快则需要根据实际情况具体分析了。

 

②在“点估计”近似方法中,是直接针对模型的参数进行点估计,没有牵涉到 后验分布函数,而Laplace近似方法就是对后验分布函数进行近似。

前面提到,我们无法精确求得后验分布函数,那可以找一个 与 后验分布 相似的函数,用它来作为我们的后验分布函数就行了。这称为Laplace approximation.

这里的Laplace近似的基本思路就是,先将后验分布表示成Log函数的形式,然后使用泰勒展开对Log函数展开到二阶,由于我们需要最大化后验分布函数,那么一阶泰勒展开项为0,而二阶展开项,则使用高斯分布来近似表示。对于高斯分布而言,需要选择一个合理的均值和方差,具体如何选择的细节就不说了。(我也不知道)

 

③Sample techniques,该方法的思路是使用Metropolis-Hastings算法 直接对原样本数据进行近似。与方法②的区别是:方法②是对描述样本数据的分布函数进行近似,这Sample Techniques是直接对数据进行近似。

 关于上述三种“近似方法”的具体示例讲解,可参考《A First Course in Machine Learning》

 

总结:本系列文章记录的是为什么使用贝叶斯进行推断?先验分布、最大化似然函数、后验分布的意义。为什么要最大化似然函数?为什么使用后验分布进行模型预测?

在使用贝叶斯公式时,当先验分布与似然函数“非共轭”时,贝叶斯公式的分母不好计算,导致不能直接计算出后验分布,从而出现了本文中介绍的三种近似方法。

 本文转自hapjin博客园博客,原文链接:http://www.cnblogs.com/hapjin/p/6664545.html,如需转载请自行联系原作者

相关文章
|
28天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
328 109
|
2月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
183 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
6月前
|
机器学习/深度学习 人工智能 JSON
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
|
5月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
6月前
|
人工智能 运维 API
PAI-Model Gallery云上一键部署阶跃星辰新模型Step1X-Edit
4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。Step1X-Edit模型总参数量为19B,实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持文字替换、风格迁移等11 类高频图像编辑任务类型。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemin。PAI-ModelGallery 支持Step1X-Edit一键部署方案。
|
6月前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
3月前
|
机器学习/深度学习 算法 安全
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
本文探讨在敏感数据上应用差分隐私(DP)进行机器学习的挑战与实践。通过模拟DP-SGD算法,在模型训练中注入噪声以保护个人隐私。实验表明,该方法在保持71%准确率和0.79 AUC的同时,具备良好泛化能力,但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量,而非事后补救,并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。
202 3
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
|
2月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
3月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。