自然语言处理 NLP(2)

简介: 自然语言处理 NLP(2)

词性标注

  • 标注语料库;
  • 各词性标注及其含义image.pngimage.png自动标注器;


默认标注器;

正则表达式标注器;

查询标注器;

N-gram标注器;


一元标注器;

分离训练和测试数据;

一般的N-gram的标注;

组合标注器;

标注生词;

储存标注器;

性能限制;

跨句子边界标注;

隐马尔科夫标注器;


生成模式;

确定模式;

非确定模式;

隐藏模式;

隐马尔科夫模型 HMM

是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此过程的隐含参数,然后利用这些参数进行下一步的分析,可当做一种转移矩阵;

一个隐马尔科夫模型是一个三元组(pi, A, B);


image.png隐马尔科夫模型的三大基本问题与解决方案包括:

对于一个观察序列匹配最可能的系统一一评估,使用前向算法(forward algorithm)解决;

对于已生成的一个观察序列,确定最可能的隐藏状态序列一一解码,使用维特比算法(Viterbi algorithm)解决;

对于已生成的观察序列,决定最可能的模型参数一一学习,使用前向-后向算法(forward backward algorithm)解决;

文本分类

分类的使用

根据名字判别性别;

文本分类;

词性分类;

句子分割;

识别对话行为;

分类算法

朴素贝叶斯分类器;

决策树

建立分类器的步骤:

确定输入特征—特征提取器;

划分数据集;

使用训练集构建分类器;

使用测试集测试分类器效果;

分类的类别

文档分类

特征提取器:关键字是否在文档中;

分类器训练;

词性判断

特征提取器:词后缀

分类器训练:决策树分类器

基于上下文的词性判断;

序列分类

贪婪序列分类;

隐马尔科夫模型;

句子分割:标点符号的分类任务

识别对话行为类型;

评估

训练集与测试集的划分

准确度

正确分类数目/待分类数目

精确度(precision)

TP/(TP+FP)

召回率(recall)

TP/(TP+FN)

F-度量值(F-score)

(2*Precison*Recall)/(Precison + Recall)

文本聚类

特征选择(feature selection)

近邻测度(proximity measure)

聚类准则(clustering criterion)

聚类算法(clustering algorithm)

结果验证(valida of the results))

结果解释(interpretation of the results)

聚类与分类的区别

聚类:通过把相似对象通过静态分类方法分成不同组别或子集的过程;

聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题;

而在分类中,对于目标数据库中存在哪些类是事先知道的,需要做的是将每一条记录分别属于的类别标记出来;

聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少泪的情况下,希望将所有记录组成不同的类或聚类,并在这种分类情况下,以某种度量为标准的相似度,在同一聚类之间最小化,而在不同聚类之间最大化;

与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记;



目录
相关文章
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
508 4
|
机器学习/深度学习 存储 自然语言处理
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(上)
|
机器学习/深度学习 存储 人工智能
大数据中自然语言处理 (NLP)
【10月更文挑战第19天】
895 60
|
文字识别 自然语言处理 API
如何结合NLP(自然语言处理)技术提升OCR系统的语义理解和上下文感知能力?
通过结合NLP技术,提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别,并通过BERT模型进行语义理解和纠错,最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。
1114 4
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(Natural Language Processing,简称NLP)
自然语言处理(NLP)是人工智能的分支,旨在让计算机理解、解释和生成人类语言。NLP的关键技术和应用包括语言模型、词嵌入、文本分类、命名实体识别、机器翻译、文本摘要、问答系统、情感分析、对话系统、文本生成和知识图谱等。随着深度学习的发展,NLP的应用日益广泛且效果不断提升。
1160 4
|
机器学习/深度学习 人工智能 自然语言处理
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言
自然语言处理(NLP)是AI的重要分支,旨在让计算机理解人类语言。本文探讨了深度学习在NLP中的应用,包括其基本任务、优势、常见模型及具体案例,如文本分类、情感分析等,并讨论了Python的相关工具和库,以及面临的挑战和未来趋势。
1052 1
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
284 1
|
人工智能 自然语言处理 语音技术
利用Python进行自然语言处理(NLP)
利用Python进行自然语言处理(NLP)
402 3
|
机器学习/深度学习 存储 自然语言处理
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
【NLP自然语言处理】探索注意力机制:解锁深度学习的语言理解新篇章(下)
|
机器学习/深度学习 人工智能 自然语言处理
详谈什么是自然语言处理(NLP),特点以及使用场景场景(一)
详谈什么是自然语言处理(NLP),特点以及使用场景场景(一)
693 0