条件随机场|机器学习推导系列(二十一)

简介: 条件随机场|机器学习推导系列(二十一)

一、背景


  1. 概述

CL}HFNTDLAO(X64JKX3VNYL.png

如上所示,分类问题分为硬分类和软分类两种。硬分类问题指的是分类结果非此即彼的模型,包括SVM、PLA、LDA等。软分类问题将概率作为分类的依据,分为概率判别模型和概率生成模型两种。其中概率判别模型对概率VNIG]8FC(S6(MDN_JMSEATB.png进行建模,代表算法有逻辑回归(Logistic Regression,LR)。LR的损失函数为交叉熵损失函数,这类模型也叫做对数线性模型,一般地,又叫做最大熵模型(Max Entropy Model),这类模型和指数族分布的概率假设是一致的。朴素贝叶斯算法(Naive Bayes)为概率生成模型的一种,如果将其单元素的条件独立性推广到一系列隐变量,由此得到的模型就是动态模型,如隐马尔可夫模型(Hidden Markov Model,HMM),从概率意义上,HMM也可以看做高斯混合模型(Gaussian Mixture Model,GMM)在时序上的推广。


  1. HMM vs. MEMM


如果将最大熵模型和HMM相结合,就得到了最大熵马尔可夫模型(Max Entropy Markov Model)。MEMM的概率图如下:


ZQZ6]IAX3`{EE~6O%C7}WQ5.png

                                                MEMM


这个概率图就是将HMM的概率图观测变量和隐变量的边反向,这样的话HMM中的观测独立假设就不成立了,也因此@A2FGYB0RTMXQA8ZI(XFD82.png的影响包括局部和全局两种。HMM的观测独立假设是一个很强的假设,如果我们有一个文本样本,那么观测独立假设就意味着样本之中的每个词之间没有任何关系,这显然是不合理的,因此打破这个假设是更加合理的。


HMM的概率图如下:


NQ{U6CYJRTC50M@860MS]DS.png

                                              HMM


HMM是一个概率生成模型,其建模对象W9NV6SF7{0(JN(5SEUL9$OA.png是,可以将HMM的看做是由图中画虚线的部分所组成的,结合其两个假设,可以写出其概率公式为:

5[13FCCPS(_Y(V@{R2YA2PA.png


MEMM的缺陷是其必须满足局部的概率归一化(也就是Label Bias Problem),对于这个问题,我们将($1YRW_47%QT~2$0@A[D1CL.png之间的箭头转为直线从而得到无向图(线性链条件随机场),这样就只要满足全局归一化了(破坏了齐次马尔可夫假设)。


  1. 标注偏置问题


标注偏置问题(Label Bias Problem)是MEMM存在的一个局限性,这也是决定它不流行的主要原因,条件随机场(Conditional Random Field,CRF)通过使用无向图解决了这个问题。


  • 根因


QS]359WOZ[8DKLB)VGG]D1E.png

                                                  MEMM


对于MEMM,上面的概率图由于存在齐次马尔可夫假设可以认为是由一个个方框中的部分组成的,因此有概率公式如下:


QCIZA$T%Z0F}]02TF}X@8PN.png


对于每一个方框中的组件,我们可以看做一个函数,叫做mass score,这个函数对外是有一定能量的,但这个mass score同时必须是一个概率6N{]CUWHKSQXQZ1QB}B}}EO.png,因此被归一化了,叫做局部归一化,这就是导致标注偏置问题的根本原因所在。


而CRF采用无向图的结构,其天然地满足全局归一化,也就打破了齐次马尔可夫假设,从而解决了标注偏置问题。


  • 现象


局部归一化造成了标注偏置问题,这一问题造成的现象可以通过以下例子来解释。


DPZ$80`L{5WF@%$58UA16E0.png

                                                  现象


对于上图中训练得到的MEMM模型,节点表示时刻的状态B(7RNH4Q6}P4WK7A[~J%MME.png,边表示观测MO9HR7HYFV`JV}~XZIA[CAQ.png。可以看出,上述状态从1到2,2到3,4到5,5到3全部都只有一个状态转移的选择,这也就导致无论观测MO9HR7HYFV`JV}~XZIA[CAQ.png是多少,B(7RNH4Q6}P4WK7A[~J%MME.png都不关心而只会向确定的一个状态进行转移。上述状况显然表明训练得到的模型是不合理的,举个更具体的例子,如果对“小明 爱 中国”进行词性标注,模型会根据“小明”和“爱”的词性直接标注“中国”的词性,根本不关心观测“中国”本身。


上述MEMM模型是根据训练数据训练得到的,比如在训练数据中一共有3个rob,1个rib,这样的训练数据得到的模型概率如下图所示:


 %VVOJ8ELLJHQ{V0XAVU@Q)J.png

                                                现象


可以看出由于局部归一化从1到2,2到3,4到5,5到3的状态转移概率全部都是1,这样会造成求解Decoding问题时的标注偏置问题,也就是在观测为rib的条件下,求解最可能的标准序列1OA]K9Z%J`]]M%SBCA((_%P.png时会得到以下结果:

SZF%3%UR675X_J8FV1[EZC9.png

二、条件随机场


  1. 条件随机场的概率密度函数


CRF中条件代表这是一个判别式模型,随机场表示其是一个无向图模型。CRF的概率图如下:


D@()86N88U)X%UEYV)KKXSX.png

                                                           CRF


对于无向图的因子分解,可以参考以前的文章中的讲解:概率图模型-表示|机器学习推导系列(十)


C8)0%4B%DZSF49DPQV3@H~C.png


0]V1FW8Y~R%PG%_VRPC3`LT.png

IA1)3SVMX(JX1G({9YRQ1RU.png

  1. 概率密度函数的向量形式


为了更方便地使用概率密度函数进行后续求导等一系列操作,我们需要对上述概率密度函数进行整理和简化,从而取得其向量的表示形式。

@LZ~`AJ$}@B5AL@T5_%}UXH.png(C5NZLOLKDS@I]J@S$@7EQC.png

三、参数估计和推断


  1. 条件随机场要解决的问题


N5Z`$ZAWFX[X9YSD}THOV56.png


Inference:


H(A%D}JDC92)]_}BXJKK9]V.png


  1. 求解边缘概率


R%U}[@YCT~O4AASW)8}%]0B.png

EW2W$Z%}MF@LKEESDV){Q1O.png~[G7}PW6O3Y55U{9NZS2AYG.png

DQR%F7N99IS)O8$]0TB77V8.png

这个方法类似于HMM中的前向后向算法,其实也就是概率图模型中精确推断的变量消除法(信念传播),相关参考链接为:概率图模型-推断|机器学习推导系列(十一)


  1. 参数估计


对于概率密度函数的以下形式:


ENV86O33LBNVM2E`8[`FP)6.png


这里可以看出这个概率密度函数就是一个指数族分布,其中参数向量就是上面的QUC@4TL(@1R5`9T(NA(1)2R.png,充分统计量也就是)K4BEQX1@EBRW(DAXW[$MCT.png。有关指数族分布的讲解可以参考这个链接:指数族分布|机器学习推导系列(九)


CRF的参数估计问题就是在似然上做梯度上升来求得最优解,而我们用来求导的概率密度函数使用以下形式:


UUNC]5%BL$L)YE]B8)EHIAQ.png

按照极大似然估计的思路,写出公式如下:

QVEPX{LS$%$1YMW7EQLM8[J.png

这个结论和指数族分布|机器学习推导系列(九)中第三部分的推导过程类似,这里我们就不再重复。


对于上述式子,我们可以调整加和符号的位置:

1A)2CLJ{_EZ7$V@KKE6]()F.png

  1. Decoding问题


Decoding问题和HMM中的Viterbi算法类似,同样采样动态规划的思想⼀层⼀层求解最大值,求解方法很类似,这里就不再重复,参考链接:隐马尔可夫模型|机器学习推导系列(十七),更具体的可以参考李航老师的《统计学习方法》中关于CRF的讲解。

相关文章
|
机器学习/深度学习
受限玻尔兹曼机|机器学习推导系列(二十五)
受限玻尔兹曼机|机器学习推导系列(二十五)
677 0
受限玻尔兹曼机|机器学习推导系列(二十五)
|
机器学习/深度学习 人工智能 移动开发
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
285 0
【机器学习】线性分类——高斯判别分析GDA(理论+图解+公式推导)
|
机器学习/深度学习 人工智能 算法
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
186 0
【机器学习】线性分类——线性判别分析LDA(理论+图解+公式推导)
|
机器学习/深度学习 算法 数据挖掘
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
100天搞定机器学习|day44 k均值聚类数学推导与python实现
|
机器学习/深度学习 算法
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
100天搞定机器学习|day38 反向传播算法推导
|
机器学习/深度学习 算法
Sigmoid信念网络|机器学习推导系列(二十八)
Sigmoid信念网络|机器学习推导系列(二十八)
217 0
Sigmoid信念网络|机器学习推导系列(二十八)
|
机器学习/深度学习 算法
近似推断|机器学习推导系列(二十七)
近似推断|机器学习推导系列(二十七)
120 0
近似推断|机器学习推导系列(二十七)
|
机器学习/深度学习 算法
配分函数|机器学习推导系列(二十六)
配分函数|机器学习推导系列(二十六)
229 0
配分函数|机器学习推导系列(二十六)
|
机器学习/深度学习
高斯过程回归|机器学习推导系列(二十四)
高斯过程回归|机器学习推导系列(二十四)
459 0
高斯过程回归|机器学习推导系列(二十四)
|
机器学习/深度学习
贝叶斯线性回归|机器学习推导系列(二十三)
贝叶斯线性回归|机器学习推导系列(二十三)
279 0
贝叶斯线性回归|机器学习推导系列(二十三)