自然语言处理 NLP(2)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 自然语言处理 NLP(2)

词性标注

  • 标注语料库;
  • 各词性标注及其含义image.pngimage.png自动标注器;


默认标注器;

正则表达式标注器;

查询标注器;

N-gram标注器;


一元标注器;

分离训练和测试数据;

一般的N-gram的标注;

组合标注器;

标注生词;

储存标注器;

性能限制;

跨句子边界标注;

隐马尔科夫标注器;


生成模式;

确定模式;

非确定模式;

隐藏模式;

隐马尔科夫模型 HMM

是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此过程的隐含参数,然后利用这些参数进行下一步的分析,可当做一种转移矩阵;

一个隐马尔科夫模型是一个三元组(pi, A, B);


image.png隐马尔科夫模型的三大基本问题与解决方案包括:

对于一个观察序列匹配最可能的系统一一评估,使用前向算法(forward algorithm)解决;

对于已生成的一个观察序列,确定最可能的隐藏状态序列一一解码,使用维特比算法(Viterbi algorithm)解决;

对于已生成的观察序列,决定最可能的模型参数一一学习,使用前向-后向算法(forward backward algorithm)解决;

文本分类

分类的使用

根据名字判别性别;

文本分类;

词性分类;

句子分割;

识别对话行为;

分类算法

朴素贝叶斯分类器;

决策树

建立分类器的步骤:

确定输入特征—特征提取器;

划分数据集;

使用训练集构建分类器;

使用测试集测试分类器效果;

分类的类别

文档分类

特征提取器:关键字是否在文档中;

分类器训练;

词性判断

特征提取器:词后缀

分类器训练:决策树分类器

基于上下文的词性判断;

序列分类

贪婪序列分类;

隐马尔科夫模型;

句子分割:标点符号的分类任务

识别对话行为类型;

评估

训练集与测试集的划分

准确度

正确分类数目/待分类数目

精确度(precision)

TP/(TP+FP)

召回率(recall)

TP/(TP+FN)

F-度量值(F-score)

(2*Precison*Recall)/(Precison + Recall)

文本聚类

特征选择(feature selection)

近邻测度(proximity measure)

聚类准则(clustering criterion)

聚类算法(clustering algorithm)

结果验证(valida of the results))

结果解释(interpretation of the results)

聚类与分类的区别

聚类:通过把相似对象通过静态分类方法分成不同组别或子集的过程;

聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题;

而在分类中,对于目标数据库中存在哪些类是事先知道的,需要做的是将每一条记录分别属于的类别标记出来;

聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少泪的情况下,希望将所有记录组成不同的类或聚类,并在这种分类情况下,以某种度量为标准的相似度,在同一聚类之间最小化,而在不同聚类之间最大化;

与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记;



目录
相关文章
|
2天前
|
云安全 人工智能 自然语言处理
|
9天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
662 56
Meta SAM3开源:让图像分割,听懂你的话
|
6天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
320 116
|
6天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
|
21天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
447 32
|
5天前
|
弹性计算 人工智能 Cloud Native
阿里云无门槛和有门槛优惠券解析:学生券,满减券,补贴券等优惠券领取与使用介绍
为了回馈用户与助力更多用户节省上云成本,阿里云会经常推出各种优惠券相关的活动,包括无门槛优惠券和有门槛优惠券。本文将详细介绍阿里云无门槛优惠券的领取与使用方式,同时也会概述几种常见的有门槛优惠券,帮助用户更好地利用这些优惠,降低云服务的成本。
278 133

热门文章

最新文章