【NLP】基于机器学习角度谈谈CRF(三)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 基于机器学习角度谈谈CRF 作者:白宁超 2016年8月3日08:39:14 【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。

基于机器学习角度谈谈CRF

作者:白宁超

2016年8月3日08:39:14

【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的相关的相关,最后进行大量研究整理汇总成体系知识。文章布局如下:第一节介绍CRF相关的基础统计知识;第二节介绍基于自然语言角度的CRF介绍;第三节基于机器学习角度对CRF介绍,第四节基于统计学习角度对相关知识介绍;第五节对统计学习深度介绍CRF,可以作为了解内容。(本文原创,转载请注明出处基于机器学习角度谈谈CRF。)

目录


【自然语言处理:漫步条件随机场系列文章(一)】:前戏:一起走进条件随机场

【自然语言处理:漫步条件随机场系列文章(二)】:基于自然语言处理角度谈谈CRF

【自然语言处理:漫步条件随机场系列文章(三)】:基于机器学习角度谈谈CRF

【自然语言处理:漫步条件随机场系列文章(四)】:基于统计学习角度谈谈CRF

【自然语言处理:漫步条件随机场系列文章(五)】:条件随机场知识扩展

1 条件随机场(可以看作给定观察值的马尔科随机场)


CRF是一种判别式无向图模型

CRF试图对多个变量在给定观测值后的条件概率进行建模,具体来说,若令为观察序列,为与之对应的标记序列,则CRF的目标是构建条件概率模型P(Y|X)。

注意标记变量y是结构型变量,如在自然语言处理的句子标注任务中,观测数据为句子,标记为相应的词性序列,具有线性序列结构,在语法分析中,输出标记是语法树,具有树形结构。


令G=<V,E>表示结点与标记变量y中元素一一对应的无向图,表示与结点v对应标记变量,n(v)表示结点v的领结点,若图G的每一个变量 都满足马尔科夫性,即

 ,则(y,x)构成一个CRF。

上面形式化在第二章已经通过实例解析介绍过。

2 链式条件随机场


如上面句子标注,因为现象应用中,对标记序列建模时,常有链式结构(具体链式结构前面有介绍

与马尔科夫随机场定义联合概率概率的方式类似,CRF使用势函数和图结构上的团来定义条件概率P(y|x)给定观察序列X,所谓团即单个标记变量{}以及相邻标记变量选择合适的势函数,即形如:

的条件概率定义,其中与Q对应的势函数,为规范因子,实际中,往往Z不需要获得精确值。

在CRF中,通过选用势函数并引入特征函数,条件概率定义如下:

如上参数在第二章有详细讲解。

特征函数

句子标注为例的转移特征函数

表示第i个观察值为“爱”时,相对的标记分别是B,I,其状态特征函数如下:

 

表示观察值x为单字“爱”时,它对应的标注很可能为I

3 参考文献


【1】 数学之美 吴军 著

【2】 机器学习  周志华 著

【3】 统计自然语言处理 宗成庆 著(第二版)

【4】 统计学习方法(191---208) 李航

【5】 知乎 网络资源

4 自然语言相关系列文章


【自然语言处理】:【NLP】揭秘马尔可夫模型神秘面纱系列文章

【自然语言处理】:【NLP】大数据之行,始于足下:谈谈语料库知多少

【自然语言处理】:【NLP】蓦然回首:谈谈学习模型的评估系列文章

【自然语言处理】:【NLP】快速了解什么是自然语言处理

【自然语言处理】:【NLP】自然语言处理在现实生活中运用

声明:关于此文各个篇章,本人采取梳理扼要,顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成,旨在技术分享,知识沉淀。在此感谢原著无私的将其汇聚成书,才得以引荐学习之用。其次,本人水平有限,权作知识理解积累之用,难免主观理解不当,造成读者不便,基于此类情况,望读者留言反馈,便于及时更正。本文原创,转载请注明出处基于机器学习角度谈谈CRF。 

http://www.cnblogs.com/baiboy
目录
打赏
0
0
0
0
49
分享
相关文章
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–4 机器学习LGB 方案
在讯飞英文学术论文分类挑战赛中使用LightGBM模型进行文本分类的方案,包括数据预处理、特征提取、模型训练及多折交叉验证等步骤,并提供了相关的代码实现。
85 0
不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了
【6月更文挑战第30天】基于自然语言的VML简化了机器学习,让模型参数变为人类可读的文本,提高理解和应用性。借助大型语言模型的进展,VML能直接编码先验知识,自动选择模型类,并提供可解释的学习过程。然而,表达能力、训练优化及泛化能力的挑战仍需克服。[论文链接](https://arxiv.org/abs/2406.04344)
84 1
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
117 0
探索机器学习中的自然语言处理技术
【5月更文挑战第27天】 在数字化时代的浪潮中,自然语言处理(NLP)作为人工智能的一个分支,正以前所未有的速度和能力重塑我们与机器的交互方式。本文将深入探讨自然语言处理的核心概念、关键技术以及在不同领域的应用实例。我们将从基础理论出发,逐步解析NLP如何处理和理解人类语言的复杂性,并展示如何利用这些技术解决实际问题,如情感分析、机器翻译和智能问答系统。
探索机器学习中的自然语言处理技术网络安全与信息安全:保护数据的关键策略
【5月更文挑战第27天】 在数字化时代,自然语言处理(NLP)技术是连接人类语言与计算机理解的桥梁。本文将深入探讨NLP的核心概念、关键技术以及在不同领域的应用实例。我们将从基础原理出发,解析词嵌入、语法分析到深度学习模型等关键步骤,并讨论NLP如何推动聊天机器人、情感分析和自动文摘等技术的发展。通过案例分析,揭示NLP在实际应用中的挑战与前景,为未来研究和应用提供参考。
探索机器学习中的自然语言处理技术
【5月更文挑战第25天】 在数字化时代的浪潮中,自然语言处理(NLP)技术正迅速成为机器学习领域的一个重要分支。本文将深入探讨NLP的核心概念、关键技术及其在不同行业中的应用实例。我们将通过实际案例分析来揭示NLP如何改善信息检索、情感分析和智能对话系统,并讨论其在现实世界中所面临的挑战与未来的发展趋势。
探索机器学习中的自然语言处理技术
【5月更文挑战第23天】 随着人工智能领域的飞速发展,自然语言处理(NLP)技术已经成为了机器学习中不可或缺的一部分。本文将深入探讨NLP的核心概念、关键技术以及在不同应用场景下的实践方法。通过理论与实践的结合,旨在为读者提供一个清晰、全面的NLP技术概览,并展示其在解决复杂问题时的巨大潜力。
89 0
探索机器学习中的自然语言处理技术
【5月更文挑战第21天】随着人工智能的迅猛发展,自然语言处理(NLP)已成为机器学习领域的重要分支。本文将深入探讨自然语言处理的核心概念、关键技术及其在不同应用场景下的实际效果。我们将从基础理论出发,逐步解析NLP的处理流程,并结合最新的研究动态,展示该领域的前沿技术和发展趋势。通过实例分析,本文旨在为读者提供对自然语言处理技术的全面认识,以及在解决实际问题时的应用指南。
探索机器学习中的自然语言处理技术
【5月更文挑战第21天】 在数字化时代,自然语言处理(NLP)技术作为人工智能的一个分支,正逐渐改变我们与机器的互动方式。本文将深入探讨NLP的核心概念、关键技术及其在不同领域的应用实例。通过分析当前的挑战和未来的发展趋势,旨在为读者提供一个关于NLP技术全貌的视角,并分享一些实用的技术实现细节,以促进对这一领域的理解和实践能力的提升。

热门文章

最新文章