Machine Learning-L16-概率图模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: Machine Learning-L16-概率图模型

现实任务涉及多个因素(变量),并且因素之间存在依赖关系。概率图模型(Probabilistic Graphical Model,PGM)为表示、学习这种依赖关系提供了一个强大的框架。


1. 定义


图(graph)是由节点(node)和边组成的集合,记作G = ( V , E ) G=(V,E)G=(V,E),其中V VV和E EE分别表示节点和边的集合,节点v ∈ V v \in Vv∈V,边e ∈ E e \in Ee∈E。


(1)概率图模型

概率图模型(PGM,Probabilistic Graphical Model)是由图表示的概率分布。

设有联合概率分布P ( Y ) ,Y 是一组随机变量,图G = ( V , E ) 表示概率分布P ( Y ) ,即在图G 中,节点v ∈ V表示一个随机变量Y v,Y = ( Y v ) v ∈ V ;边e ∈ E表示随机变量之间的概率依赖关系。


概率图模型相比于其他学习算法的优势在于可以利用图结构来将已知信息带入到知识网络中。


根据边的性质不同,概率图模型分为两类:


有向图模型或贝叶斯网络(Bayesian network):使用有向无环图表示变量间的因果(依赖)关系

包括隐马尔可夫模型(HMM)及卡尔曼滤波器(Kalman filter)

无向图模型或马尔可夫网(Markov networkd):使用无向图(指边没有方向的图)表示变量间的相关关系

包括条件随机场(CRF)及波尔兹曼机(Boltzmann machine)

image.png


(2) 概率图模型的演变过程


横向:由点到线(序列结构)、到面(图结构)


以朴素贝叶斯模型为基础的隐马尔可夫模型用于处理线性序列问题,有向图模型用于解决一般图问题;

以逻辑回归模型(即自然语言处理中ME模型)为基础的线性链式条件随机场用于解决“线式”序列问题,通用条件随机场用于解决一般图问题。

纵向:在一定条件下生成式模型(generativemodel)转变为判别式模型(discriminative model)


朴素贝叶斯模型演变为逻辑回归模型

隐马尔可夫模型演变为线性链式条件随机场

生成式有向图模型演变为通用条件随机场。


image.png


(3)概率图模型的三个基本问题:


  • 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关系。
  • 推断问题:在已知部分变量时算其它变量的后验概率分布。
  • 学习问题:图模型的学习包括图结构的学习和参数的学习。


2. 概率有向图模型


概率有向图使用有向无环图表示变量之间的关系。


变量X1  X2 X 3  的一个联合概率分布:


image.png


对应的有向图如下所示:


20200502160947612.png


每个变量对应一个结点,如果存在从结点X1 到结点 X2的有向边,则X1  是结点 X2的父结点,结点X2 是结点X1 的子结点。

每个条件概率对应一条有向边,起点是条件概率中条件随机变量对应的结点


K个变量的联合概率分布:


image.png

对应的有向图如下所示:


20200502161013940.png


image.png的概率图如下


20200502161023370.png


图中所有结点上定义的联合概率分布由每个结点上的条件概率分布的积表示,每个条件概率分布的条件都是图中结点的父结点所对应的变量。


一个有K 个结点的图,联合概率


image.png

pa k表示结点x k  的父结点的集合p a k ⊆ { x 1 , x 2 , . . . , x k − 1 }

此公式表示有向图模型的联合概率分布的分解属性。


有向图不能存在有向环。


3. 概率无向图模型


3.1 基本概念


(1) 成对马尔可夫性


设u和v  是无向图G GG中任意两个没有边连接的结点,结点u 和v 分别对应随机变量Y u和Y v  。其他所有结点为O (集合),对应的随机变量组是 Y O 。成对马尔可夫性是指给定随机变量组Y O的条件下随机变量 Y u和Y v条件独立,即没有直连边的任意两个节点是独立的。


image.png


(2)局部马尔可夫性

设v ∈ V v 是无向图 G  中任意一个结点,W  是与$ v$ 有边连接的所有结点,O  是v , W 以外的其他所有结点。v 、W 、O  表示的随机变量分别是image.png

局部马尔可夫性是指在给定随机变量组 Y W 的条件下随机变量 v 与随机变量组 Y O 是独立的


image.png


2020050216212439.png



(3)全局马尔可夫性

设结点集合A , B  是在无向图G  中被结点集合 C 分开的任意结点集合。从结点集合Az中的点到达结点集合B 必须经过结点集合C。结点集合 $A,B , C $所对应的随机变量组分别是 Y A , Y B , Y C 全局马尔可夫性是指给定随机变量组条件下随机变量组 Y A和Y B 条件独立。



image.png


20200502161829549.png


概率无向图模型定义


设有联合概率分布P ( Y ),由无向图G = ( V , E ) 表示概率分布P ( Y ) P(Y)P(Y),在图G中,节点v ∈ V 表示随机变量,边e ∈ E 表示随机变量之间的概率依赖关系,如果联合概率分布$ P(Y) $满足成对、局部或全局马尔可夫性,就称联合概率分布为概率无向图模型(probabilistic undirected graphical model)、马尔可夫随机场(Markov random field)或马尔可夫网络(Markov Network)


3.2 因子分解


(1)团(clique):无向图G GG中任何两个结点均有边连接的结点子集


**(2)最大团(maximal clique) ** :若$ C$ 是无向图$ G$ 的一个团,并且不能再加进任何一个$ G$ 的结点使其成为一个更大的团,则称C为最大团


20200502162346869.png

由4个结点组成的无向图,共有7个团:

image.png

两个最大团{ Y 1 , Y 2 , Y 3 } , { Y 2 , Y 3 , Y 4 }


(3)因子分解 :将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式的操作。


(4) Hammersley-Clifford定理


如果一个分部P ( Y ) > 0 满足无向图G 中的局部马尔可夫性质,当且仅当P ( Y ) 可以表示为一系列定义在最大团上的非负函数的乘积形式,即


image.png


其中,Q 为G 中的最大团集合。


Ψ Q ( Y Q ) > 0 是定义在团C 上的势能函数(potential function)


Z 是配分函数(partition function),用来将乘积归一化为概率形式:


image.png

(5)吉布斯分布(Gibbs distribution)


image.png

根据HC定理,概率无向图模型和吉布斯分布是一致的。吉布斯分布一定满足马尔可夫随机场的条件独立性质,并且马尔可夫随机场的概率分布一定可以表示成吉布斯分布。

上图联合概率分布可以写成:


image.png

(6) 玻尔兹曼分布(Boltzmann Distribution)

势能函数通常定义为指数函数:


image.png



这种形式的分布又被称为波尔兹曼分布(Boltzmann Distribution)。

任何一个无向图模型都可以用上述公式来表示其联合概率分布。

相关文章
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(11)--聚类
聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。
112 0
周志华《Machine Learning》学习笔记(11)--聚类
|
算法
周志华《Machine Learning》学习笔记(5)--决策树
顾名思义,决策树是基于树结构来进行决策的,在网上看到一个例子十分有趣,放在这里正好合适。
88 0
周志华《Machine Learning》学习笔记(5)--决策树
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
112 0
周志华《Machine Learning》学习笔记(4)--线性模型
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(10)--集成学习
顾名思义,集成学习(ensemble learning)指的是将多个学习器进行有效地结合,组建一个“学习器委员会”
68 0
周志华《Machine Learning》学习笔记(10)--集成学习
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
贝叶斯分类器是一种概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概率为样本判定最优的类标。
124 0
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(15)--半监督学习
监督学习指的是训练样本包含标记信息的学习任务
162 0
周志华《Machine Learning》学习笔记(15)--半监督学习
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(7)--支持向量机
支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题。
148 0
周志华《Machine Learning》学习笔记(7)--支持向量机
|
机器学习/深度学习 自然语言处理 算法
周志华《Machine Learning》学习笔记(16)--概率图模型
根据一些已观察到的证据来推断未知,更具哲学性地可以阐述为:未来的发展总是遵循着历史的规律。
89 0
周志华《Machine Learning》学习笔记(16)--概率图模型
|
人工智能 算法 关系型数据库
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
|
机器学习/深度学习 算法 vr&ar
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场