HMM,MEMM,CRF模型的比较(转)

简介: CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注; HMM一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而MEMM模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉;而CR

CRFHMM(隐马模型)MEMM(最大熵隐马模型)都常用来做序列标注;

HMM一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而MEMM模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉;而CRF则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

其各自有自身的特点:

HMM模型是对转移概率和表现概率直接建模,统计共现概率。

MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化;

CRF模型,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。

 

举个例子: 对于一个标注任务,我爱北京天安门

                                  标注为" s s  b  e b c e"

1) 对于HMM的话,其判断这个标注成立的概率为 P= P(s转移到s)*P(''表现为s)* P(s转移到b)*P(''表现为s)* ...*P().训练时,要统计状态转移概率矩阵和表现矩阵

2) 对于MEMM的话,其判断这个标注成立的概率为 P= P(s转移到s|''表现为s)*P(''表现为s)* P(s转移到b|''表现为s)*P(''表现为s)*..训练时,要统计条件状态转移概率矩阵和表现矩阵

3) 对于CRF的话,其判断这个标注成立的概率为 P= F(s转移到s,''表现为s)....F为一个函数,是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。


目录
相关文章
|
17天前
|
自然语言处理
N-Gram模型是什么?
N-Gram模型是什么?
|
5月前
|
机器学习/深度学习 运维 算法
自编码器(Autoencoder)在无监督学习和降维中的应用
自编码器(Autoencoder)在无监督学习和降维中的应用
127 0
自编码器(Autoencoder)在无监督学习和降维中的应用
|
自然语言处理
|
机器学习/深度学习 算法 数据可视化
变分自编码器VAE的数学原理
变分自编码器(VAE)是一种应用广泛的无监督学习方法,它的应用包括图像生成、表示学习和降维等。
218 0
|
机器学习/深度学习 算法 计算机视觉
利用VAE和LSTM生成时间序列
利用VAE和LSTM生成时间序列
364 0
利用VAE和LSTM生成时间序列
|
机器学习/深度学习 算法 语音技术
隐马尔科夫模型HMM
本文介绍常见的机器学习模型隐马尔科夫模型HMM。 HMM也是generative model。 我是因为看到一篇论文需要用HMM来优化,所以速成。日后如有新的理解将会持续更新,可以收藏关注本文以待。
隐马尔科夫模型HMM
|
算法框架/工具
实现 AutoEncoder 模型
最近在 kaggle 上学习些 keras 的使用方法,这里总结下 AutoEncoder 使用方式 模型定义 对于 AutoEncoder 模型定义有两种方式: Encoder 和 Decoder 分开定义,然后通过 Model 进行合并 Enco...
1527 0
|
机器学习/深度学习 自然语言处理 数据库
基于GRU和am-softmax的句子相似度模型 | 附代码实现
在我搜索到的资料中,深度学习做句子相似度模型,就只有两种做法:一是输入一对句子,然后输出一个 0/1 标签代表相似程度,也就是视为一个二分类问题。
3271 0
|
机器学习/深度学习 算法 自然语言处理
隐马尔科夫模型HMM(一)HMM模型
隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学习模型了,它在语言识别,自然语言处理,模式识别等领域得到广泛的应用。当然,随着目前深度学习的崛起,尤其是RNN,LSTM等神经网络序列模型的火热,HMM的地位有所下降。
3799 0