NLTK词性标注

简介: 本文实现基于NLTK的布朗语料库词性标注任务。
from nltk.corpus import brown
from nltk.tag import UnigramTagger, BigramTagger, TrigramTagger

# 从布朗语料库中获取文本数据,切分成句子
sentences = brown.tagged_sents(categories='news')

# 将4000个句子用作训练,623个句子用作测试
train = sentences[:4000]
test = sentences[4000:]

# 创建回退标注器
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# 查看准确率
print(trigram.evaluate(test))
相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 Java
HanLP — 词性标注
HanLP — 词性标注
33 1
|
6月前
|
机器学习/深度学习 自然语言处理 算法
使用sklearn+jieba完成一个文档分类器
使用sklearn+jieba完成一个文档分类器
|
机器学习/深度学习 自然语言处理
NLP5:NLTK词性标注
NLP5:NLTK词性标注
155 0
|
自然语言处理 Python
【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注(附代码)
NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
906 0
|
机器学习/深度学习 自然语言处理 Python
|
自然语言处理 算法 Python
情感分析-SnowNLP
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
376 0
|
机器学习/深度学习 人工智能 自然语言处理
中文分词工具 MiNLP-Tokenizer
中文分词工具 MiNLP-Tokenizer
420 0
中文分词工具 MiNLP-Tokenizer
|
机器学习/深度学习 自然语言处理
NLP 基础之分词、向量化、词性标注
NLP 基础之分词、向量化、词性标注
319 0
NLP 基础之分词、向量化、词性标注
|
机器学习/深度学习 自然语言处理 算法
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
171 0
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
|
机器学习/深度学习 自然语言处理
NLP之BoW&NLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库
NLP之BoW&NLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库