Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略

简介: Py之jieba:Python包之jieba包(中文分词最好的组件)简介、安装、使用方法之详细攻略
+关注继续查看

jieba简介


        jieba应该算得上是分词领域的佼佼者,想要使用python做文本分析,分词是必不可少的一个环节。


支持三种分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

支持繁体分词

支持自定义词典

MIT 授权协议

官网github地址:GitHub - fxsjy/jieba: 结巴中文分词


jieba安装


pip install jieba

image.png


image.png



好啦,大功告成,开始使用吧!


jieba使用方法


1、进行分词


import jieba

text='周杰伦(Jay Chou),1979年1月18日出生于台湾省新北市,祖籍福建省泉州市永春县,中国台湾流行乐男歌手、原创音乐人、演员、导演等,毕业于淡江中学。'

text_cut = jieba.cut(text, cut_all=False)

print(list(text_cut))

['周杰伦', '(', 'Jay', ' ', 'Chou', ')', ',', '1979', '年', '1', '月', '18', '日出', '生于', '台湾省', '新北市', ',', '祖籍', '福建省', '泉州市', '永春县', ',', '中国台湾', '流行乐', '男歌手', '、', '原创', '音乐', '人', '、', '演员', '、', '导演', '等', ',', '毕业', '于', '淡江', '中学', '。']


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
meego中css主题文件的使用方法
转载时请注明出处和作者联系方式文章出处:http://blog.csdn.net/jack0106作者联系方式:冯牮 fengjian0106@yahoo.com.cn1. qtwidget里面有stylesheet(CSS)的概念,而原始的qtgraphicsview里面,并没有stylesheet概念,到了mtf里面,又引入了stylesheet,但是没有专门的文档进行介绍,我只能参照qtwidget里面关于stylesheet的介绍,在猜测验证的基础上,做出一些总结。
736 0
每周分享之JS数组的使用
    数组,一堆数字归为一组,就是一个数组,一堆对象放在一个组里,也是一个数组,概念很容易懂,说白了就是一个有限集合。     JS数组的语法无法两种,插入和移除(语法自行科普)。用处挺常见的,既然数组是一个集合,那么用到集合的地方就会用到数组,常见于页面上的表格数据渲染,一般的,异步加载的表格数据就是从数组来的,比如后台接口把一个数据表,格式化成JSON对象并返回,这个JSON对象其实就是一个数组,因为这个对象里有N个子对象,这个N个子对象都在一个大的JSON对象里,这个大的JSON对象就是一个集合,就是一个数组。
705 0
CentOS下火狐浏览器安装flash插件以及中文输入法
一、flash 在adobe官网下载install_flash_player_11_linux.x86_64.tar.gz; su 输入密码得到root权限; tar -xvf install_flash_player_11_linux.x86_64.tar.gz    解压得到插件 libflashplayer.so; 寻找 firefox 安装目录;   whereis
1547 0
ActiveReports 报表控件官方中文入门教程 (1)-安装、激活以及产品资源
原文:ActiveReports 报表控件官方中文入门教程 (1)-安装、激活以及产品资源 本系列文章主要是面向初次接触 ActiveReports 产品的用户,可以帮助您在三天之内轻松的掌握ActiveReports控件的基本使用方法,包括安装、激活、创建报表、绑定数据源以及发布等内容。
949 0
通用社区登陆组件技术分享(开源)中篇:OAuth 登陆组件流程及组件集成方法
原文http://www.cnblogs.com/cyq1162/archive/2012/11/06/2756247.html   上节内容:通用社区登陆组件技术分享(开源)上篇:OAuth 授权登陆介绍   本节包括以下内容: 1:第三方社区账号登陆的授权流程 2:OAuth2 组件的下载及web.
793 0
H5 Web App 的性能测试平台 : 使用 Frida 实现 AOP 拦截 hook Android 原生应用的方法
H5 Web App 的性能测试平台 : 使用 Frida 实现 AOP 拦截 hook Android 原生应用的方法 在做 App 上的 WebView 容器中的 H5 Web App 的性能测试平台的时候,用到了这个 Frida MIS (6).png 简单记录下。
1109 0
使用ElementUi的table组件自定义添加升序、降序按钮和点击事件及排序
使用ElementUi的table组件自定义添加升序、降序按钮和点击事件及排序
7805 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载