自然语言处理---------jieba调整词频与词性标注

简介: 自然语言处理---------jieba调整词频与词性标注

有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用 ”调整词频来解决这个问题”

import jieba
import jieba.posseg as pg  # 词性标注的包
# 加载自定义字典
jieba.load_userdict("./data/user_dic.txt")
# 添加词
jieba.add_word("石墨烯")
jieba.add_word("凯特琳")
# 删除词
jieba.del_word("自定义词")
# 元组类型测试数据
test_sent = (
    "李小福是创新办主任也是云计算方面专家;什么是八一双鹿\n"
    "例如我输入一个带“韩玉鉴赏”的标题,在自定义词库中也增加了此词为N类\n"
    "[台中]报道指出,mac上可分为[石墨烯];此时又可以分出来凯特琳了。\n"
    "物联网"
)
words = jieba.cut(test_sent)
print("使用/把分词结果分开:       " + "/".join(words))
print("++" * 120)
# 用于此行词性标注
result = pg.cut(test_sent)
# 使用for循环把分出的词及其词性用/分开,并添加,和空格
for x in result:
    print(x.word, "/", x.flag, ",", end=' ')
print("\n")
print("++" * 120)
# 对英文进行分割
terms = jieba.cut("How to easy_install jieba library")
print("/".join(terms))
#对英文和汉字进行分割
terms_1=jieba.cut("python 是一门很好的语言")
print("/".join(terms_1))
print("++" * 120)
#测试词频
test_terms=[
    ("我们中出了一个叛徒",('中','出'))
            ]
for sent ,seg in test_terms:
    print("/".join(jieba.cut(sent,HMM=False)))
    words=''.join(seg)
    print('%s Before :%s ,After :%s'%(words,jieba.get_FREQ(words),jieba.suggest_freq(words,True)))
    print('/'.join(jieba.cut(sent,HMM=False)))

image.png

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
在NLP中,什么是词性标注?
【2月更文挑战第13天】【2月更文挑战第37篇】在NLP中,什么是词性标注?
|
11月前
|
自然语言处理 算法 Python
|
11月前
|
自然语言处理 Python
【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注(附代码)
NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
523 0
|
机器学习/深度学习 人工智能 自然语言处理
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
199 0
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
|
自然语言处理 物联网
自然语言处理--------jieba分词(文章中含有源码)
自然语言处理--------jieba分词(文章中含有源码)
102 0
自然语言处理--------jieba分词(文章中含有源码)
|
机器学习/深度学习 自然语言处理
NLP 基础之分词、向量化、词性标注
NLP 基础之分词、向量化、词性标注
263 0
NLP 基础之分词、向量化、词性标注
|
自然语言处理
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
|
自然语言处理 Python
python实战,中文自然语言处理,应用jieba库来统计文本词频
模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
2398 0
|
2月前
|
机器学习/深度学习 自然语言处理
利用深度学习技术改进自然语言处理中的命名实体识别
命名实体识别(Named Entity Recognition, NER)在自然语言处理领域扮演着重要角色,但传统方法在处理复杂语境和多样化实体时存在局限性。本文将探讨如何利用深度学习技术,特别是基于预训练模型的方法,来改进命名实体识别,提高其在现实场景中的性能和适用性。
|
2月前
|
机器学习/深度学习 自然语言处理 监控
利用深度学习技术实现自然语言处理中的情感分析
本文将深入探讨如何利用深度学习技术在自然语言处理领域中实现情感分析。通过介绍情感分析的背景和原理,结合深度学习模型如LSTM、BERT等的应用,帮助读者了解情感分析的重要性以及如何利用最新技术实现更准确的情感识别。