《深度学习导论及案例分析》一2.11概率图模型的推理

本文涉及的产品
应用型负载均衡 ALB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
简介:

本节书摘来自华章出版社《深度学习导论及案例分析》一书中的第2章,第2.11节,作者李玉鑑 张婷,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.11概率图模型的推理

如果已经知道了概率图模型的结构和参数,就可以进行有关的推理(inference)。推理是指在给定观测结果时,评估变量的边际配置(marginal configuration)或最可能的配置(most likely configuration)。为了这个目标,需要把随机变量集X划分成三个互不相交子集O、Q、H,即:
X=O∪Q∪H

O∩Q=O∩H=Q∩H=(2.106)

其中O代表观测节点集(或证据变量的集合),Q代表查询变量集,H指既不属于O,也不属于Q的节点集,也称为潜在变量集或隐含变量集。注意,它们的联合概率分布p(Q,H,O)是一种生成模型,条件概率分布p(Q,HO)则是一种判别模型。

推理有两种基本类型[119]:边际分布查询(marginalization query)和最大后验查询(maximum aposteriori query)。边际分布查询是在给定观察O的条件下,推理查询变量的边际分布,即计算:

P(QO=o)=P(Q,O=o)P(O=o)(2.107)

其中,

P(Q,O=o)=∑h∈val(H)P(Q,O=o,h)(2.108)

P(O=o)=∑q∈val(Q)P(Q=q,O=o)(2.109)

最大后验查询是在给定某些证据的条件下,确定查询变量的最可能初值,即计算:

q*=arg maxq∈val(Q)P(Q=qO=o)

=arg maxq∈val(Q)∑h∈val(H)P(Q=q,H=hO=o)

=arg maxq∈val(Q)∑h∈val(H)P(Q=q,H=h,O=o)(2.110)

由于对概率图模型进行精确推理的计算复杂性会随着最大团的大小指数增加,所以在规模较大且连接紧密的概率图模型中实现精确推理是难解的,因此进行近似推理非常必要。

近似推理有三种基本策略[120]:变分方法(variational method)、消息传递(message passing)和采样方法(sampling method)。

变分方法的基本思想是在假定H=的前提下,用一个易于处理的替代分布g(Q)对后验概率分布P(QO)进行近似。P(O)的对数形式可以分解如下:

logP(O)=∑qg(q)logP(O,q)g(q)LB(g)+-∑qg(q)logP(qO)g(q)KL(qP)(2.111)

其中KL(gP)≥0表示g(Q)和P(QO)之间的KL散度,且根据杰森不等式[115],LB(g)是logP(O)的一个下界,即

logP(O)=log∑qP(q,O)=log∑qg(q)P(q,O)g(q)≥∑qg(q)logP(q,O)g(q)=LB(g)(2.112)

因为logP(O)不依赖于g(q)和LB(g),且KL(gP)是非负的,所以最大化LB(g)等价于最小化KL(gP)。这意味着,关于g(q)最大化LB(g)就可以得到对后验概率分布P(QO)的最好近似。

在变分方法中,g(Q)通常被限制为简单的可计算分布。比如,平均场近似(meanfield approxiamtion)是一种变分方法,最简单的情况要求g(Q)具有如下可分解的形式:

g(Q)=∏Qi=1gi(Qi)(2.113)

消息传递算法在树结构的概率图模型上能够给出精确的推理结果,但是在带环或圈的任意图上并不能保证收敛性。而且即使收敛,得到的结果也可能只是精确解的近似。不过,令人吃惊的是,环状图上的消息传递常常收敛到稳定的后验或边际概率。最重要的突破在于发现对某些图结构来说,消息传递算法的不动点(fixed point)实际上就是贝蒂自由能(bethe free energy)的驻点(stationary point)[104]。这个发现澄清了消息传递的本质,建立了与大量物理文献的联系,并发展了广义信念传播算法(Generalized Belief Propagation Algorithm,GBP)。广义信念传播算法在节点区域上运行,同时在节点区域之间传递消息。环状信念传播算法(loopy belief propagation algorithm)的收敛性在许多应用中也得到了实验证实[122],并有大量相关的理论研究[123125]。

采样方法是从计算可行角度,通过蒙特卡罗程序(Monte Carlo procedure)计算兴趣量(quantities of interest)。最简单的情况是重要性采样(importance sampling)[126]和采样重要性重采样(sampling importance resampling)[127],用于估计函数的期望。在高维样本空间中,重要性采样存在很大的局限性。但是,马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法在各种不同维数的空间都能取得良好效果[128,129],其特殊情况是MH算法(MetropolisHastings algorithm)[130]和吉布斯采样(Gibbs sampling)[131]。蒙特卡罗方法最主要的应用之一就是通过序列重要性采样(sequential importance sampling)建立非线性、非高斯粒子滤波器(particle filter)[132],其中后验分布用一组粒子(样本)表示。这种粒子滤波器推广了传统的线性高斯卡曼滤波器(Kalman filter),在性能上优于经典的粒子滤波器。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
相关文章
|
4月前
|
机器学习/深度学习 算法 定位技术
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别(C#代码UI界面版)
本项目基于YOLOv8模型与C#界面,结合Baumer工业相机,实现裂缝的高效检测识别。支持图像、视频及摄像头输入,具备高精度与实时性,适用于桥梁、路面、隧道等多种工业场景。
535 27
|
3月前
|
机器学习/深度学习 数据可视化 算法
深度学习模型结构复杂、参数众多,如何更直观地深入理解你的模型?
深度学习模型虽应用广泛,但其“黑箱”特性导致可解释性不足,尤其在金融、医疗等敏感领域,模型决策逻辑的透明性至关重要。本文聚焦深度学习可解释性中的可视化分析,介绍模型结构、特征、参数及输入激活的可视化方法,帮助理解模型行为、提升透明度,并推动其在关键领域的安全应用。
367 0
|
2月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
157 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
1月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
本文以 MNIST 手写数字识别为切入点,介绍了深度学习的基本原理与实现流程,帮助读者建立起对神经网络建模过程的系统性理解。
602 15
AI 基础知识从 0.2 到 0.3——构建你的第一个深度学习模型
|
2月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
210 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 基础知识从 0.3 到 0.4——如何选对深度学习模型?
本系列文章从机器学习基础出发,逐步深入至深度学习与Transformer模型,探讨AI关键技术原理及应用。内容涵盖模型架构解析、典型模型对比、预训练与微调策略,并结合Hugging Face平台进行实战演示,适合初学者与开发者系统学习AI核心知识。
448 15
|
10月前
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
410 22
|
7月前
|
机器学习/深度学习 编解码 人工智能
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
1030 64
计算机视觉五大技术——深度学习在图像处理中的应用
|
11月前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
964 6