python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析-阿里云开发者社区

python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析

2022-10-22 266

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

简介： python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析

自然语言处理（NLP）是指用算法对人类口头表达或书面提供的自然语言信息进行处理的技术，自然语言处理属于人工智能和语言学的交叉学科

中文分词工具主要是Jieba。不仅能提供分词，还提供关键词提取和词性标注等功能。以下是Jieba分词的三种模式

1:精确模式试图将句子最精确的切开适合文本分析

2:全模式把句子中所有可以成词的词语都扫描出来速度非常快但是不能解决歧义

3:搜索引擎模式在精确模式的基础上对长词进行切分提高召回率适合用于搜索引擎分词

同时Jieba还支持繁体分词自定义词典 MIT授权协议等等...

分词效果如下

代码如下

import  jieba.posseg as pseg
import jieba.analyse
list0=jieba.cut('东北林业大学的猫科动物专家判定，这只野生东北虎属于定居虎',cut_all=True)
print('全模式',list(list0))
list1=jieba.cut('东北林业大学的猫科动物专家判定，这只野生东北虎属于定居虎',cut_all=False)
print('精确模式',list(list1))
list2=jieba.cut('东北林业大学的猫科动物专家判定，这只野生东北虎属于定居虎')
print('搜索引擎模式',list(list2))

同样可以使用停用词对文本进行分词停用词就是在自然语言处理时可以自动或手动选择忽略的某些字和词

代码如下

import  jieba.posseg as pseg
import jieba.analyse
def stopwords(filepath):
    f=open(filepath,'r',encoding='utf-8')
    txt=f.readlines()
    stopwords=[]
    for line in txt:
        stopwords.append(line.strip())
    return stopwords
inputs=open('zhangsan.txt','rb')
stopwords=stopwords('zhangsan.txt')
outstr=''
for line in inputs:
    sentence_seged=jieba.cut(line.strip())
    for word in sentence_seged:
        if word not in stopwords:
            if word!='\t':
                outstr+=''+word
                outstr+=''
print(outstr)

python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

python机器学习入门之自然语言处理(NLP)工具Jieba的使用及解析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像