条件随机场|机器学习推导系列（二十一）

2022-06-07 126

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 条件随机场|机器学习推导系列（二十一）

一、背景

概述

CL}HFNTDLAO(X64JKX3VNYL.png

如上所示，分类问题分为硬分类和软分类两种。硬分类问题指的是分类结果非此即彼的模型，包括SVM、PLA、LDA等。软分类问题将概率作为分类的依据，分为概率判别模型和概率生成模型两种。其中概率判别模型对概率 VNIG]8FC(S6(MDN_JMSEATB.png 进行建模，代表算法有逻辑回归（Logistic Regression，LR）。LR的损失函数为交叉熵损失函数，这类模型也叫做对数线性模型，一般地，又叫做最大熵模型（Max Entropy Model），这类模型和指数族分布的概率假设是一致的。朴素贝叶斯算法（Naive Bayes）为概率生成模型的一种，如果将其单元素的条件独立性推广到一系列隐变量，由此得到的模型就是动态模型，如隐马尔可夫模型（Hidden Markov Model，HMM），从概率意义上，HMM也可以看做高斯混合模型（Gaussian Mixture Model，GMM）在时序上的推广。

HMM vs. MEMM

如果将最大熵模型和HMM相结合，就得到了最大熵马尔可夫模型（Max Entropy Markov Model）。MEMM的概率图如下：

ZQZ6]IAX3`{EE~6O%C7}WQ5.png

MEMM

这个概率图就是将HMM的概率图观测变量和隐变量的边反向，这样的话HMM中的观测独立假设就不成立了，也因此 @A2FGYB0RTMXQA8ZI(XFD82.png 的影响包括局部和全局两种。HMM的观测独立假设是一个很强的假设，如果我们有一个文本样本，那么观测独立假设就意味着样本之中的每个词之间没有任何关系，这显然是不合理的，因此打破这个假设是更加合理的。

HMM的概率图如下：

NQ{U6CYJRTC50M@860MS]DS.png

HMM

HMM是一个概率生成模型，其建模对象 W9NV6SF7{0(JN(5SEUL9$OA.png 是，可以将HMM的看做是由图中画虚线的部分所组成的，结合其两个假设，可以写出其概率公式为：

$5[13FCCPS(_Y(V@{R2YA2PA.png$

MEMM的缺陷是其必须满足局部的概率归一化（也就是Label Bias Problem），对于这个问题，我们将 ($1YRW_47%QT~2$0@A[D1CL.png 之间的箭头转为直线从而得到无向图（线性链条件随机场），这样就只要满足全局归一化了（破坏了齐次马尔可夫假设）。

标注偏置问题

标注偏置问题（Label Bias Problem）是MEMM存在的一个局限性，这也是决定它不流行的主要原因，条件随机场（Conditional Random Field，CRF）通过使用无向图解决了这个问题。

根因

QS]359WOZ[8DKLB)VGG]D1E.png

MEMM

对于MEMM，上面的概率图由于存在齐次马尔可夫假设可以认为是由一个个方框中的部分组成的，因此有概率公式如下：

QCIZA$T%Z0F}]02TF}X@8PN.png

对于每一个方框中的组件，我们可以看做一个函数，叫做mass score，这个函数对外是有一定能量的，但这个mass score同时必须是一个概率 6N{]CUWHKSQXQZ1QB}B}}EO.png ，因此被归一化了，叫做局部归一化，这就是导致标注偏置问题的根本原因所在。

而CRF采用无向图的结构，其天然地满足全局归一化，也就打破了齐次马尔可夫假设，从而解决了标注偏置问题。

现象

局部归一化造成了标注偏置问题，这一问题造成的现象可以通过以下例子来解释。

DPZ$80`L{5WF@%$58UA16E0.png

现象

对于上图中训练得到的MEMM模型，节点表示时刻的状态 B(7RNH4Q6}P4WK7A[~J%MME.png ，边表示观测 MO9HR7HYFV`JV}~XZIA[CAQ.png 。可以看出，上述状态从1到2，2到3，4到5，5到3全部都只有一个状态转移的选择，这也就导致无论观测是多少，都不关心而只会向确定的一个状态进行转移。上述状况显然表明训练得到的模型是不合理的，举个更具体的例子，如果对“小明爱中国”进行词性标注，模型会根据“小明”和“爱”的词性直接标注“中国”的词性，根本不关心观测“中国”本身。