Sigmoid信念网络|机器学习推导系列（二十八）

2022-06-07 212

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Sigmoid信念网络|机器学习推导系列（二十八）

一、概述

Sigmoid信念网络（Sigmoid Belief Network，SBN）是一种有向图模型，这里的信念网络指的就是贝叶斯网络，也就是有向图模型，sigmoid指的就是sigmoid函数：

$Q~`_O1@288]{5BN6YQ_2@[9.png$

在Sigmoid信念网络中同样有两观测变量和隐变量，不过他们的连接是有向的，并且节点全部服从0-1分布，并且概率值与sigmoid函数有关。Sigmoid信念网络的概率图如下所示：

G8$$%%{}PK}%LB{03B3F{IQ.png

概率图

Sigmoid信念网络最常见的结构时分成许多层的结构。有向图天然地具有比较简单的因子分解，变量之间的关系很清晰，因而Sigmoid信念网络的采样比较简单，从根节点开始采样，由于tail-to-tail的结构，其子节点是相互独立的，最终直至采样到可见层。类似神经网络可以在多于一个隐藏层的情况下可以逼近任意连续函数，Sigmoid信念网络具备逼近任意离散函数的能力。

$_7_EOK~WV7`]SXD5B{NJDWO.png$

S]QRW5[B`[PEX1JZ}IZL2XB.png

尽管有向图模型相比无向图模型具备一些优势，但是在求解Sigmoid信念网络的后验 KU1]~0MQB6FSER]PM3Z6IAR.png 时我们仍然遇到了一些困难，主要原因还是explain away问题，也就是head-to-head结构带来的问题。从概率图中可以看出，由于head-to-head结构的存在，在给定观测变量 E[C%D%E}ZH5TX$LCDAVLLD5.png 时，隐变量之间不是相互独立的，因此求解 KU1]~0MQB6FSER]PM3Z6IAR.png 是相当困难的。那么能不能应用采样的方法呢？事实上在模型相当复杂的情况下，由于维度过高，采样的方法也是相当困难的。下一节我们就来看一下直接应用极大似然估计的方法会遇到什么问题，或者说看一下极大似然估计与后验有什么样的关系。

二、log似然的梯度与后验的关系

}613U@KN~HIH0D(MXU6QQVK.png

对于上面式子中蓝色的部分有：

}QKXXNTV4ATOECUPFOAO@JK.png

这里蓝色的部分又用到了sigmoid函数的性质：

PD0ATQ(OO`HAH9HF46A1RIN.png

$AL$RK{HT31ECEF)6SJ__S5H.png$

三、醒眠算法

算法

在 UWH`Z_]95$WSIH5T}2NOLG8.png 维度过高的情况下，变量之间相互影响交织在一起，难以分解，可以尝试采用平均场理论来分解后验分布，即 %6[DG_E)3Y@BLYDWY]E2X0P.png 依次求解 5~SR)%WUT(RMZ1FW`N}CNV2.png ，然后应用坐标上升的方法，这个方法我们已经在变分推断那一节讲过了。这里的问题在于对于梯度上升的方法来说，这是一个迭代的过程，而在每次迭代时都要用坐标上升的方法求解后验分布，也就是说又要嵌套一个迭代的过程，因而这种方法的主要问题在于比较耗时。

Neal在1995年提出了一种启发式算法叫做醒眠算法（Wake-Sleep Algorithm），可以近似推断这个后验。他把后验看做一个函数，而非一个分布，理论上神经网络可以近似任意一个连续函数，而sigmoid理论上可以近似任意一个离散函数，因此这属于近似推断的方法，后验分布是学习出来的。醒眠算法如下图所示，除了自上而下的连接（称为Generative Connection）以外，还假设存在自下而上的反向连接（称为Recognization Connection），参数为 44]YZ6I8N$%`6`MQPYO5EH8.png ：

VRCCSX~LY5DM}X8EI9)`]4H.png

醒眠算法

醒眠算法的算法流程为：

CH6`T[ABOV8}0BB8RD%`5HO.png

这里的Recognization Connection同样使用sigmoid函数作为激活函数，因此每次采样都是从0-1分布中进行采样。另外，Wake Phase时使用训练数据中来初始化观测变量，而Sleep Phase时无论隐变量还是观测变量都是采样得到的，没有使用训练数据。

目标函数

809XND~72IUDOF{5ZFHR{C3.png

]%9VO8]}BFD)6]JC5UI~HYP.png

也就是说在醒眠两个阶段的目标函数是不一样的，两个阶段最小化的是不一样的KL散度。在Sleep Phase无论隐变量还是观测变量都是采样得到的，没有使用训练数据，而且它的目标函数也与Wake Phase不一样，因此叫做Sleep Phase。事实上，作为一种启发式算法，醒眠算法并非一种精确的算法，是不能保证收敛的，它追求的并非准确而非效率。

类比EM算法，Wake Phase相当于M步（M步求得近似后验分布以后估计参数），而Sleep Phase相当于E步（E步求解后验分布）。

Sigmoid信念网络|机器学习推导系列（二十八）

一、概述

二、log似然的梯度与后验的关系

三、醒眠算法

热门文章

最新文章

相关课程

相关电子书

相关实验场景