自然语言处理---------jieba调整词频与词性标注

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 自然语言处理---------jieba调整词频与词性标注

有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用 ”调整词频来解决这个问题”

import jieba
import jieba.posseg as pg  # 词性标注的包
# 加载自定义字典
jieba.load_userdict("./data/user_dic.txt")
# 添加词
jieba.add_word("石墨烯")
jieba.add_word("凯特琳")
# 删除词
jieba.del_word("自定义词")
# 元组类型测试数据
test_sent = (
    "李小福是创新办主任也是云计算方面专家;什么是八一双鹿\n"
    "例如我输入一个带“韩玉鉴赏”的标题,在自定义词库中也增加了此词为N类\n"
    "[台中]报道指出,mac上可分为[石墨烯];此时又可以分出来凯特琳了。\n"
    "物联网"
)
words = jieba.cut(test_sent)
print("使用/把分词结果分开:       " + "/".join(words))
print("++" * 120)
# 用于此行词性标注
result = pg.cut(test_sent)
# 使用for循环把分出的词及其词性用/分开,并添加,和空格
for x in result:
    print(x.word, "/", x.flag, ",", end=' ')
print("\n")
print("++" * 120)
# 对英文进行分割
terms = jieba.cut("How to easy_install jieba library")
print("/".join(terms))
#对英文和汉字进行分割
terms_1=jieba.cut("python 是一门很好的语言")
print("/".join(terms_1))
print("++" * 120)
#测试词频
test_terms=[
    ("我们中出了一个叛徒",('中','出'))
            ]
for sent ,seg in test_terms:
    print("/".join(jieba.cut(sent,HMM=False)))
    words=''.join(seg)
    print('%s Before :%s ,After :%s'%(words,jieba.get_FREQ(words),jieba.suggest_freq(words,True)))
    print('/'.join(jieba.cut(sent,HMM=False)))

image.png

目录
相关文章
|
7月前
|
机器学习/深度学习 自然语言处理 算法
在NLP中,什么是词性标注?
【2月更文挑战第13天】【2月更文挑战第37篇】在NLP中,什么是词性标注?
245 0
|
机器学习/深度学习 自然语言处理
NLP5:NLTK词性标注
NLP5:NLTK词性标注
163 0
|
自然语言处理 算法 Python
|
自然语言处理 Python
【NLP Tool -- NLTK】NLTK进行英文情感分析、分词、分句、词性标注(附代码)
NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
1090 0
|
机器学习/深度学习 人工智能 自然语言处理
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
252 0
python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析
|
自然语言处理 物联网
自然语言处理--------jieba分词(文章中含有源码)
自然语言处理--------jieba分词(文章中含有源码)
136 0
自然语言处理--------jieba分词(文章中含有源码)
|
机器学习/深度学习 自然语言处理
NLP 基础之分词、向量化、词性标注
NLP 基础之分词、向量化、词性标注
340 0
NLP 基础之分词、向量化、词性标注
|
自然语言处理
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
NLP之TEA:基于SnowNLP实现自然语言处理之对输入文本进行情感分析(分词→词性标注→拼音&简繁转换→情感分析→测试)
|
自然语言处理 Python
python实战,中文自然语言处理,应用jieba库来统计文本词频
模块介绍 安装:pip install jieba 即可 jieba库,主要用于中文文本内容的分词,它有3种分词方法: 1. 精确模式, 试图将句子最精确地切开,适合文本分析: 2. 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 3. 搜索引擎模式,在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
2450 0
|
1月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller

热门文章

最新文章