NLTK词性标注

简介: 本文实现基于NLTK的布朗语料库词性标注任务。
from nltk.corpus import brown
from nltk.tag import UnigramTagger, BigramTagger, TrigramTagger

# 从布朗语料库中获取文本数据,切分成句子
sentences = brown.tagged_sents(categories='news')

# 将4000个句子用作训练,623个句子用作测试
train = sentences[:4000]
test = sentences[4000:]

# 创建回退标注器
unigram = UnigramTagger(train)
bigram = BigramTagger(train, backoff=unigram)
trigram = TrigramTagger(train, backoff=bigram)

# 查看准确率
print(trigram.evaluate(test))
相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 Java
HanLP — 词性标注
HanLP — 词性标注
31 1
|
6月前
|
数据采集 自然语言处理 Serverless
使用Gensim库进行情感分析
【4月更文挑战第21天】使用Gensim进行情感分析,首先安装Gensim库(`pip install gensim`),然后导入所需模块,包括Word2Vec和KeyedVectors。对数据进行预处理,如分词和去除停用词。训练Word2Vec模型并保存,或加载预训练模型。最后,定义函数计算句子情感分数,并应用到文档上。代码示例展示了基本流程,实际应用中可按需调整。
83 10
|
12月前
|
机器学习/深度学习 自然语言处理
NLP5:NLTK词性标注
NLP5:NLTK词性标注
146 0
|
自然语言处理 Python
【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注(附代码)
NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
849 0
|
机器学习/深度学习 自然语言处理 Python
|
自然语言处理 Java Python
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
自然语言处理hanlp------10HanLP的词典分词实现
|
网络安全
nltk安装
nltk安装
165 0
nltk安装
|
机器学习/深度学习 自然语言处理 算法
Python数据分析(4):jieba分词详解
Python数据分析(4):jieba分词详解
1096 0
Python数据分析(4):jieba分词详解
|
自然语言处理
自然语言处理---------jieba调整词频与词性标注
自然语言处理---------jieba调整词频与词性标注
149 0
自然语言处理---------jieba调整词频与词性标注
|
自然语言处理 算法 Python
情感分析-SnowNLP
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
376 0