NLP 基础之分词、向量化、词性标注

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: NLP 基础之分词、向量化、词性标注

基于HMM(隐马尔可夫模型)的分词方法

基本部分

状态值序列

B:Begin;

M:Middle;

E:End;

S:Single;

观察值序列

待切分的词;

初始化概率

BMES这四种状态在第一个字的概率分布情况;

状态转移矩阵

HMM中,假设当前状态只与上一状态相关,则此关系可用转移矩阵表示;

条件概率矩阵

HMM中,观察值只取决与当前状态值(假设条件),条件概率矩阵主要建模在BMES下各个词的不同概率,和初始化概率、状态转移矩阵一样,需要在语料中计算得到对应的数据;

概率分词模型:CRF(条件随机场)

HMM描述的是已知量和未知量的一个联合概率分布,属于generative model,而CRF则是建模条件概率,属于discriminative model;且CRF特征更加丰富,可通过自定义特征函数来增加特征信息,CRF能建模的信息应该包括HMM的状态转移、数据初始化的特征;主要包括两部分特征:


简单特征

只涉及当前状态特征;

转移特征

涉及两种状态间的特征;、

基于深度学习的分词


image.png基本步骤:


首先,训练字向量,使用word2vec对语料的字训练50维的向量;

然后,接入一个bi-LSTM,用于建模整个句子本身的语义信息;

最后,接入一个CFR完成序列标注;

词向量

one-hot编码

每个词只在对应的index置1,其他位置均为0,难点在于做相似度计算;


LSA(矩阵分解方法)

LSA使用词-文档矩阵,矩阵常为系数矩阵,行代表词语,列代表文档;词-文档矩阵表示中的值表示词在文章中出现的次数;难点在于当语料库过大时,计算很耗费资源,且对未登录词或新文档不友好;


Word2Vec


image.png

结构

包括CBOW和Skip-gram模型;CBOW的输入为上下文的表示,然后对目标词进行预测;Skip-gram每次从目标词w的上下文c中选择一个词,将其词向量作为模型输入;

Skip-gram主要结构:


输入one-hot编码;

隐藏层大小为次维度大小;

对常见词或词组,常将其作为当个word处理;

对高频词进行抽样减少训练样本数目;

对优化目标采用negative sampling,每个样本训练时只更新部分网络权重;

词性标注

基于最大熵的词性标注;

基于统计最大概率输出词性;

基于HMM词性标注;

基于CRF的词性标注;


目录
相关文章
|
5月前
|
机器学习/深度学习 自然语言处理 算法
分词算法在自然语言处理中的应用与性能比较
分词算法在自然语言处理中的应用与性能比较
|
4月前
|
机器学习/深度学习 自然语言处理 算法
分词算法在自然语言处理中的应用与性能比较
分词算法在自然语言处理中的应用与性能比较
|
4月前
|
机器学习/深度学习 自然语言处理 算法
分词算法在自然语言处理中的基本原理与应用场景
分词算法在自然语言处理中的基本原理与应用场景
|
6月前
|
机器学习/深度学习 自然语言处理 算法
在NLP中,什么是词性标注?
【2月更文挑战第13天】【2月更文挑战第37篇】在NLP中,什么是词性标注?
200 0
|
6月前
|
自然语言处理 算法 Python
【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)
【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)
225 0
|
机器学习/深度学习 自然语言处理
NLP5:NLTK词性标注
NLP5:NLTK词性标注
155 0
|
机器学习/深度学习 数据采集 人工智能
NLP之文本分词综述
NLP之文本分词综述
512 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理中的应用与挑战
本文探讨了深度学习技术在自然语言处理(NLP)领域的应用,包括机器翻译、情感分析和文本生成等方面。同时,讨论了数据质量、模型复杂性和伦理问题等挑战,并提出了未来的研究方向和解决方案。通过综合分析,本文旨在为NLP领域的研究人员和从业者提供有价值的参考。
|
1月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
48 4

热门文章

最新文章

下一篇
无影云桌面