配分函数|机器学习推导系列（二十六）

2022-06-07 301

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 配分函数|机器学习推导系列（二十六）

一、概述

对于有向概率图模型来说，由于图中存在天然的拓扑排序关系，所以有向概率图的因式分解的形式很容易写出来。而对于无向图来说就需要根据它图中的最大团来写成一个因式分解的形式，无向图模型在局部并没有表现出是一个概率模型，在整体上才表现地是一个概率模型，由此我们也就遇到了配分函数。在无向图模型的学习和评估问题中，我们会面对概率公式中的配分函数（Partition Function），往往这个配分函数是很难处理的。

对于连续或离散的高维随机变量 GSERBU]IAK7A@7V9OKQ))@0.png ，它可以表示成一个无向概率图，模型参数为 9KVPQH{C7T8{V2J[N$Q%D(F.png ，它的概率公式也就可以写成以下形式：

]R2L5U$%TT1AVD6G9FDT4WB.png

其中 $Q2DLPX)@)}R{T(Y1DA5H_9U.png$ 也就是配分函数，可以表示为：

Q}]J%4D_PKS9C93_4GBP67I.png

对于这个概率模型的参数估计，可以采用极大似然估计的方法，首先，我们有一些样本，表示为 Z]0ZLIJNZ0M8TX%$B9UCO79.png ，然后使用这些样本来做极大似然估计：

`ZJ(8BB(7_%OHQNTZMKYDYT.png

这里我们也就得到了目标函数 TKZIP8FQ@ZA)`G86`_C4N7E.png

~THMH3$@0}VHQLQF2@0SA)1.png

接下来使用梯度上升的方法来求解参数 [90F0(]D)T$~ZP][(IHU3KI.png 求导：

GICP]8V)GF)OMW~I3EL$Q$5.png

这里我们首先看一下②这一项的求导：

}U@PHP0B%_OK`6NHV]C(O_W.png

注意这里的 69DT~O8{HB(0A8RC~UC2RGF.png 之所以能够放到积分号里面，是因为对于任意 GA4VI16DWBRNKT$@7XX)HLE.png 来说都是个常数。

{QKS8[()[O9S5X4D9ESJSQM.png

二、随机最大似然（Stochastic Maximum Likelihood）

$B}J_D[9LJ40{8$)75}V_X`8.png$

这里分别定义等号左边和右边的部分为正相（positive phase）和负相（negative phase）。

BH~O}}JU)U)MQ6V6RIUZZ1C.png

这个方法就叫做Gradient Ascent based on MCMC。

QHH30MPCK)5]%6(5LUR)6YM.png

正负相的作用

可以想象如果 JCH90QR}N3{UL6F28O[}M00.png 已经非常逼近 LR`N_VYJG$Y_P@UIJ()52V9.png ，那么采样得到的幻想粒子和从数据集中采样的样本就会非常一致，这时对这些样本既要增大它们的概率也要压低它们的概率，此时正相和负相的作用就会抵消，也就不会再产生梯度，训练也就必须停止。