Machine Learning-L19-条件随机场

简介: Machine Learning-L19-条件随机场

词性标注问题指给一个句子中的每个单词注明词性(名词,动词,形容词等)。

比如:“Bob drank coffee at Starbucks”,进行词性标注后:“Bob (名词) drank(动词) coffee(名词) at(介词) Starbucks(名词)”。

条件随机场应用于词性标注时,除了考虑单词本身的词性,还会考虑前后单词的词性,综合进行判定。


1. 基本概念


(1)条件随机场


**条件随机场(CRF,conditional random field)**是给定随机变量X 条件下,随机变量Y 的马尔可夫随机场,是一种直接建模条件概率的判别式无向图模型。


设X 与Y 是随机变量,P ( Y ∣ X ) 是在给定X XX的条件下Y 的条件概率分布。若随机变量Y 构成一个由无向图G = ( V , E ) 表示的马尔可夫随机场,即


image.png

对任意节点v 成立,则称条件概率分布P ( Y ∣ X ) 为条件随机场。


(2)线性链条件随机场


设X = (X1, X2 , . . . Xn ) ,    Y = ( y1   y2   , . . . yn) 均为线性链表示的随机变量序列,若在给定随机变量序列X XX的条件下,随机变量Y的条件概率分布P ( Y ∣ X ) 构成条件随机场,即满足马尔科夫性

image.png单边


则称P ( Y ∣ X ) P(Y \mid X)P(Y∣X)为线性链条件随机场(linear-CRF)。


对于观测序列(X1, X2 , . . . Xn )),隐含序列(( y1   y2   , . . . yn)

HMM模型中,t 时刻的观测x t只取决于状态Yt

Linear-CRF模型中,t 时刻的观测x t 取决于状态Yt-1 , Yt , Yt+1

Linear-CRF是HMM的一种扩展。

20200502172050214.png



2. 线性链条件随机场参数化形式


(1)参数化形式


设P ( Y ∣ X )为线性链条件随机场,则在随机变量X 取值为x的条件下,随机变量Y 取值为y 的条件概率具有如下形式:


image.png


其中,Z ( x ) 为规范化因子:


image.png

t k  是定义在边上的转移特征函数(transition feature function),依赖于当前和前一个位置:t k (Yi-1, Yi , x , i ) ,    k = 1 , 2 , . . . K

其中K是定义在该节点的局部特征函数的总个数,i ii是当前节点在序列的位置。


s l 是定义在节点上的状态特征函数(status feature function),依赖于当前位置:s l ( Yi, x , i ) ,    l = 1 , 2 , . . . L

其中L 是定义在该节点的节点特征函数的总个数,i 是当前节点在序列的位置。


条件随机场完全由特征函数si, t k 对应的权值ui , λ k 决定。特征函数的取值为0或1,即满足特征条件或者不满足特征条件;权值表示对这个特征函数的信任度。


(2)简化形式


假设某一节点有  k1个转移特征和  k2个状态特征,K =   k1 +  k2 ,使用一个特征函数统一表示:


image.png


 

对转移与状态特征在各个位置求和:


image.png


同时,统一f k ( y , x ) 权重:


image.png

因此,linear-CRF的参数化形式简化为:


image.png


  wk  与fk  分别用向量表示:


image.png

则,linear-CRF的参数化形式简化为内积形式如下:


image.png


形式与逻辑回归类似,条件随机场实际是定义在时间序列上的对数线性模型。


(3)矩阵形式


定义m 阶(m 为y 所有可能取值的个数)矩阵:


image.png


引入特殊起点和终点标记y0= s t a r t ,yn+1   = s t o p ,这样,给定观测序列x ,标记序列y 的非规范化概率可以通过n + 1 个矩阵元素的乘积表示:

image.png


3. 条件随机场的三个基本问题


(1)概率计算问题


给定linear-CRF的条件概率分布P ( Y ∣ X ),输入序列x和输出序列y ,计算条件概率P ( y1  ∣ x )和P ( y1   − 1 ,y1   x )以及对应的期望。

一般使用前项-后向算法,通过引入前向-后向向量,递归地计算概率及期望值。


(2)学习问题


给定训练数据集X 和Y ,学习linear-CRF的模型参数w k 和条件概率P w ( y ∣ x )。通常使用极大化似然估计或正则化的极大似然估计,即通过极大化训练数据的对数似然函数来估计模型参数,具体算法包括改进的迭代尺度算法、梯度下降法,拟牛顿法等。


(3)解码问题


给定 linear-CRF的条件概率分布P ( y ∣ x ) ,和输入序列x , 计算使条件概率最大的输出序列y 。

可使用维特比算法解决。


相关文章
|
机器学习/深度学习 算法
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
Machine Learning-L8-SVM:支持向量机全面解析
|
机器学习/深度学习 算法
周志华《Machine Learning》学习笔记(4)--线性模型
笔记的前一部分主要是对机器学习预备知识的概括。
152 0
周志华《Machine Learning》学习笔记(4)--线性模型
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
贝叶斯分类器是一种概率框架下的统计学习分类器,对分类任务而言,假设在相关概率都已知的情况下,贝叶斯分类器考虑如何基于这些概率为样本判定最优的类标。
170 0
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
|
人工智能 算法 关系型数据库
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
|
机器学习/深度学习 算法 Python
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归
|
算法
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L20-降维
Machine Learning-L20-降维
Machine Learning-L20-降维
|
算法 数据建模 数据挖掘
Machine Learning-L4-决策树
Machine Learning-L4-决策树
Machine Learning-L4-决策树
|
存储 算法
Machine Learning-L11-KNN
Machine Learning-L11-KNN
Machine Learning-L11-KNN