HMM,MEMM,CRF模型的比较(转)

简介: CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注; HMM一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而MEMM模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉;而CR

CRFHMM(隐马模型)MEMM(最大熵隐马模型)都常用来做序列标注;

HMM一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择,而MEMM模型则解决了这一问题,可以任意的选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值同时也带来了标记偏见的问题(label bias),即凡是训练语料中未出现的情况全都忽略掉;而CRF则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

其各自有自身的特点:

HMM模型是对转移概率和表现概率直接建模,统计共现概率。

MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率。MEMM容易陷入局部最优,是因为MEMM只在局部做归一化;

CRF模型,统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。

 

举个例子: 对于一个标注任务,我爱北京天安门

                                  标注为" s s  b  e b c e"

1) 对于HMM的话,其判断这个标注成立的概率为 P= P(s转移到s)*P(''表现为s)* P(s转移到b)*P(''表现为s)* ...*P().训练时,要统计状态转移概率矩阵和表现矩阵

2) 对于MEMM的话,其判断这个标注成立的概率为 P= P(s转移到s|''表现为s)*P(''表现为s)* P(s转移到b|''表现为s)*P(''表现为s)*..训练时,要统计条件状态转移概率矩阵和表现矩阵

3) 对于CRF的话,其判断这个标注成立的概率为 P= F(s转移到s,''表现为s)....F为一个函数,是在全局范围统计归一化的概率而不是像MEMM在局部统计归一化的概率。


目录
相关文章
|
前端开发 架构师 搜索推荐
COLA 4.0:直击应用架构本质的最佳实践
COLA 4.0:直击应用架构本质的最佳实践
3822 0
COLA 4.0:直击应用架构本质的最佳实践
|
10月前
|
人工智能 JavaScript API
开发者必备:阿里云百炼 API 调用图文教程
百炼是阿里云推出的大模型服务平台,集成了很多优质的 AI 模型,包括通义千问、DeepSeek 等。
开发者必备:阿里云百炼 API 调用图文教程
|
监控 关系型数据库 MySQL
Flink CDC MySQL同步MySQL错误记录
在使用Flink CDC同步MySQL数据时,常见的错误包括连接错误、权限错误、表结构变化、数据类型不匹配、主键冲突和
568 17
|
Linux Python
用python扫描linux开放的端口(3种方式)
这篇文章介绍了三种使用Python实现Linux端口扫描的方法,包括基础版端口扫描、全端口扫描和多线程扫描技术。
554 16
|
传感器 监控 搜索推荐
智能纺织品:可穿戴科技的新潮流
【9月更文挑战第22天】智能纺织品作为可穿戴科技的新潮流,正以其独特的魅力和卓越的性能,引领着纺织行业的创新发展。随着技术的不断进步和应用领域的不断拓展,智能纺织品将在更多领域得到应用和推广,为人们的生活带来更多便利与可能性。我们有理由相信,在不久的将来,智能纺织品将成为人们生活中不可或缺的一部分,共同推动社会的可持续发展与繁荣。
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
493 3
|
人工智能 安全 数据挖掘
会议之眼报道:助力学术成就!第六版CCF中国计算机学会推荐国际学术会议和期刊目录!
会议之眼快报:CCF中国计算机学会是全国性、学术性、非营利的学术团体,由从事计算机及相关科学技术领域的个人和单位自愿组成。作为独立社团法人,CCF是中国科学技术协会的成员之一,是全国一级学会! CCF的前身是1962年成立的中国电子学会计算机专业委员会。在文革期间的1978年1月,学会恢复了活动,并更名为中国电子学会计算机学会。1985年3月,经过国家体改委批准,正式成立了中国计算机学会。截至2022年4月,CCF下设14个工作委员会、39个专业委员会、4个“计算+行业”分会以及36个地方会员活动中心。
|
存储 Java Unix
(八)Java网络编程之IO模型篇-内核Select、Poll、Epoll多路复用函数源码深度历险!
select/poll、epoll这些词汇相信诸位都不陌生,因为在Redis/Nginx/Netty等一些高性能技术栈的底层原理中,大家应该都见过它们的身影,接下来重点讲解这块内容。
501 0
|
存储
(剑指Offer)10、菲波那切数列I—10、青蛙跳台阶问题II—63、股票的最大利润(2021/12/04)
(剑指Offer)10、菲波那切数列I—10、青蛙跳台阶问题II—63、股票的最大利润(2021/12/04)
147 0
|
数据建模 数据挖掘 BI
为什么要数据建模?
为什么要数据建模?
677 2

热门文章

最新文章