Sigmoid信念网络|机器学习推导系列(二十八)

简介: Sigmoid信念网络|机器学习推导系列(二十八)

一、概述


Sigmoid信念网络(Sigmoid Belief Network,SBN)是一种有向图模型,这里的信念网络指的就是贝叶斯网络,也就是有向图模型,sigmoid指的就是sigmoid函数:


Q~`_O1@288]{5BN6YQ_2@[9.png


在Sigmoid信念网络中同样有两观测变量和隐变量,不过他们的连接是有向的,并且节点全部服从0-1分布,并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示:


G8$$%%{}PK}%LB{03B3F{IQ.png

                                               概率图


Sigmoid信念网络最常见的结构时分成许多层的结构。有向图天然地具有比较简单的因子分解,变量之间的关系很清晰,因而Sigmoid信念网络的采样比较简单,从根节点开始采样,由于tail-to-tail的结构,其子节点是相互独立的,最终直至采样到可见层。类似神经网络可以在多于一个隐藏层的情况下可以逼近任意连续函数,Sigmoid信念网络具备逼近任意离散函数的能力。


_7_EOK~WV7`]SXD5B{NJDWO.png

S]QRW5[B`[PEX1JZ}IZL2XB.png

尽管有向图模型相比无向图模型具备一些优势,但是在求解Sigmoid信念网络的后验KU1]~0MQB6FSER]PM3Z6IAR.png时我们仍然遇到了一些困难,主要原因还是explain away问题,也就是head-to-head结构带来的问题。从概率图中可以看出,由于head-to-head结构的存在,在给定观测变量E[C%D%E}ZH5TX$LCDAVLLD5.png时,隐变量之间不是相互独立的,因此求解KU1]~0MQB6FSER]PM3Z6IAR.png是相当困难的。那么能不能应用采样的方法呢?事实上在模型相当复杂的情况下,由于维度过高,采样的方法也是相当困难的。下一节我们就来看一下直接应用极大似然估计的方法会遇到什么问题,或者说看一下极大似然估计与后验有什么样的关系。


二、log似然的梯度与后验的关系


}613U@KN~HIH0D(MXU6QQVK.png

对于上面式子中蓝色的部分有:


}QKXXNTV4ATOECUPFOAO@JK.png

这里蓝色的部分又用到了sigmoid函数的性质:


PD0ATQ(OO`HAH9HF46A1RIN.png

AL$RK{HT31ECEF)6SJ__S5H.png


三、醒眠算法


  1. 算法


UWH`Z_]95$WSIH5T}2NOLG8.png维度过高的情况下,变量之间相互影响交织在一起,难以分解,可以尝试采用平均场理论来分解后验分布,即%6[DG_E)3Y@BLYDWY]E2X0P.png依次求解5~SR)%WUT(RMZ1FW`N}CNV2.png,然后应用坐标上升的方法,这个方法我们已经在变分推断那一节讲过了。这里的问题在于对于梯度上升的方法来说,这是一个迭代的过程,而在每次迭代时都要用坐标上升的方法求解后验分布,也就是说又要嵌套一个迭代的过程,因而这种方法的主要问题在于比较耗时。


Neal在1995年提出了一种启发式算法叫做醒眠算法(Wake-Sleep Algorithm),可以近似推断这个后验。他把后验看做一个函数,而非一个分布,理论上神经网络可以近似任意一个连续函数,而sigmoid理论上可以近似任意一个离散函数,因此这属于近似推断的方法,后验分布是学习出来的。醒眠算法如下图所示,除了自上而下的连接(称为Generative Connection)以外,还假设存在自下而上的反向连接(称为Recognization Connection),参数为44]YZ6I8N$%`6`MQPYO5EH8.png

VRCCSX~LY5DM}X8EI9)`]4H.png

                                                       醒眠算法


醒眠算法的算法流程为:

CH6`T[ABOV8}0BB8RD%`5HO.png


这里的Recognization Connection同样使用sigmoid函数作为激活函数,因此每次采样都是从0-1分布中进行采样。另外,Wake Phase时使用训练数据中来初始化观测变量,而Sleep Phase时无论隐变量还是观测变量都是采样得到的,没有使用训练数据。


  1. 目标函数

809XND~72IUDOF{5ZFHR{C3.png

]%9VO8]}BFD)6]JC5UI~HYP.png


也就是说在醒眠两个阶段的目标函数是不一样的,两个阶段最小化的是不一样的KL散度。在Sleep Phase无论隐变量还是观测变量都是采样得到的,没有使用训练数据,而且它的目标函数也与Wake Phase不一样,因此叫做Sleep Phase。事实上,作为一种启发式算法,醒眠算法并非一种精确的算法,是不能保证收敛的,它追求的并非准确而非效率。


类比EM算法,Wake Phase相当于M步(M步求得近似后验分布以后估计参数),而Sleep Phase相当于E步(E步求解后验分布)。


相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
261 0
|
机器学习/深度学习 数据采集 运维
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
638 19
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
机器学习/深度学习 边缘计算 运维
机器学习在网络安全中的防护:智能化的安全屏障
机器学习在网络安全中的防护:智能化的安全屏障
580 15
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
287 12
|
机器学习/深度学习 人工智能 数据挖掘
打破传统:机器学习与神经网络获2024年诺贝尔物理学奖引发的思考
诺贝尔物理学奖首次授予机器学习与神经网络领域,标志该技术在物理学研究中的重要地位。本文探讨了这一决定对物理学研究的深远影响,包括数据分析、理论物理突破及未来科研方向的启示,同时分析了其对学术跨界合作与全球科研产业的影响。
303 4
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
1055 1
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1552 6

热门文章

最新文章