备案控制台

开发者社区云计算文章正文

NLTK词性标注

2023-01-11 81

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文实现基于NLTK的布朗语料库词性标注任务。

from nltk.corpus import brown
from nltk.tag import UnigramTagger, BigramTagger, TrigramTagger

# 从布朗语料库中获取文本数据，切分成句子
sentences = brown.tagged_sents(categories='news')

# 将4000个句子用作训练，623个句子用作测试
train = sentences[:4000]
test = sentences[4000:]

# 创建回退标注器
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# 查看准确率
print(trigram.evaluate(test))

星拱北辰

目录

相关文章

VipSoft

|

3月前

|

机器学习/深度学习自然语言处理 Java

HanLP — 词性标注

HanLP — 词性标注

VipSoft

33 1 1

萝卜大杂烩

|

6月前

|

机器学习/深度学习自然语言处理算法

使用sklearn+jieba完成一个文档分类器

使用sklearn+jieba完成一个文档分类器

萝卜大杂烩

55 0 0

是Yu欸

|

机器学习/深度学习自然语言处理

NLP5：NLTK词性标注

NLP5：NLTK词性标注

是Yu欸

155 0 0

北村南

|

自然语言处理 Python

【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

NLP自然语言处理之NLTK工具的使用，进行英文情感分析、分词、分句、词性标注（附代码）

北村南

906 0 0

二哥不像程序员

|

机器学习/深度学习自然语言处理 Python

使用Python进行词性标注（jieba词性标注实战:jieba.posseg）

jieba分词词性标注实战。

二哥不像程序员

1578 0 0

使用Python进行词性标注（jieba词性标注实战:jieba.posseg）

GoAlaaa

|

自然语言处理算法 Python

情感分析-SnowNLP

SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。

GoAlaaa

376 0 0

致Great_VIP

|

机器学习/深度学习人工智能自然语言处理

中文分词工具 MiNLP-Tokenizer

中文分词工具 MiNLP-Tokenizer

致Great_VIP

420 0 0

中文分词工具 MiNLP-Tokenizer

村雨遥

|

机器学习/深度学习自然语言处理

NLP 基础之分词、向量化、词性标注

NLP 基础之分词、向量化、词性标注

村雨遥

319 0 0

NLP 基础之分词、向量化、词性标注

DrugAI

|

机器学习/深度学习自然语言处理算法

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

DrugAI

171 0 0

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

一个处女座的程序猿

|

机器学习/深度学习自然语言处理

NLP之BoW&NLTK：自然语言处理中常用的技术——词袋法Bow、NLTK库

NLP之BoW&NLTK：自然语言处理中常用的技术——词袋法Bow、NLTK库

一个处女座的程序猿

386 0 0

热门文章

最新文章

Flink SQL 实战：双流 join 场景应用

Webpack构建library时的踩坑经历

《UVM实战》——3.3节field automation机制

关于规则引擎的选型和疑惑思考

线性排序算法（1）

数据泵 TTS（传输表空间技术）

新用户来自哪里新用户因何而来

NYOJ714-Card Trick

RMAN简明教程之二——RMAN的启动与运行

“单播”、“组播”和“多播”

通义灵码与微软 Azure 的融合创新

“后全球化”时代，IBM和IBM中国如何穿越新的周期？

远离生成式AI大乱斗，SAS公司揭示亚太区千亿AI市场蓝图

引领企业未来数字基础架构浪潮，中国铁塔探索超大规模分布式算力

CIO如何驱动业务增长：IT战略与业务目标深度融合

数字孪生：解锁端到端供应链增长的关键

AI助力电子邮件安全防护，CISO解析新策略

Google Gemini意外超越OpenAI，跃居第一，但基准测试结果并不能说明全部情况

使用GenAI反增工作量的七大途径

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

无影云桌面