备案控制台

开发者社区人工智能文章正文

中文分词工具比较

2018-10-10 5156

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 五款中文分词工具的比较，尝试的有jieba，SnowNLP，thulac（清华大学自然语言处理与社会人文计算实验室），StanfordCoreNLP，pyltp（哈工大语言云），环境是Win10，anaconda3.

五款中文分词工具的比较，尝试的有jieba，SnowNLP，thulac（清华大学自然语言处理与社会人文计算实验室），StanfordCoreNLP，pyltp（哈工大语言云），环境是Win10，anaconda3.7

1. 安装

Jieba：
pip install jieba

SnowNLP：
pip install snownlp

thulac：
pip install thulac

StanfordCoreNLP：
pip install stanfordcorenlp

下载 CoreNLP 并解压，将中文包下载并解压至 CoreNLP 文件夹

pyltp：

pip install pyltp，安装失败提示c++14 missing，手动编译失败，换成centos安装依然失败

2. 运行

d02ec91b0911cefbf220828d2600cd67f79c4885

a = 'Jimmy你怎么看'


import jieba.posseg as pseg
ws = pseg.cut(a)
for i in ws:
    print(i)

import thulac
thu1 = thulac.thulac()
text = thu1.cut(a)
print(text)

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'./stanford-corenlp-full-2018-10-05/', lang='zh')
print(nlp.pos_tag(a))

from snownlp import SnowNLP
s = SnowNLP(a)
t = s.tags
for i in t:
    print(i)

3. 结果

只有Thulac的结果比较特别，StanfordCoreNLP的运行占用大量内存和CPU，尝试另一句话‘这本书很不错’，jieba无法分出‘本’，其他都可以完整分词，不过StanfordCoreNLP依然占用大量内存和CPU。

Jieba:
Jimmy/eng
你/r
怎么/r
看/v

Thulac:
Model loaded succeed
[['Jimmy你怎', 'x'], ['么', 'u'], ['看', 'v']]

SnowNLP:
[('Jimmy', 'NR'), ('你', 'PN'), ('怎么', 'AD'), ('看', 'VV')]

StanfordCoreNLP:
('Jimmy', 'p')
('你', 'r')
('怎么', 'r')
('看', 'v')

文章标签：

自然语言处理

Linux

jli113

目录

相关文章

Python大数据分析

|

5月前

|

自然语言处理 Rust 搜索推荐

jieba分词-Python中文分词领域的佼佼者

jieba分词-Python中文分词领域的佼佼者

Python大数据分析

35 1 1

全栈技术精选

|

自然语言处理搜索推荐算法

中文分词利器-jieba

中文分词利器-jieba

全栈技术精选

143 0 0

ModelScope运营小助手

|

自然语言处理 BI

中文分词

ModelScope运营小助手

114 0 0

大数据资讯

|

自然语言处理搜索推荐 Java

Hanlp等七种优秀的开源中文分词库推荐

中文分词是中文文本处理的基础步骤，也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词。

大数据资讯

3907 0 1

Hanlp等七种优秀的开源中文分词库推荐

大数据资讯

|

自然语言处理

HanLP分词工具中的ViterbiSegment分词流程

本篇文章将重点讲解HanLP的ViterbiSegment分词器类，而不涉及感知机和条件随机场分词器，也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的，而且ViterbiSegment也是作者直接封装到HanLP类中的分词器，作者也推荐使用该分词器，同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment分词器。

大数据资讯

1134 0 0

verdalee

|

自然语言处理

IKAnalyzer - 轻量级的中文分词工具

采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

verdalee

1216 0 0

大数据资讯

|

自然语言处理

Ansj与hanlp分词工具对比

一、Ansj1、利用DicAnalysis可以自定义词库： 2、但是自定义词库存在局限性，导致有些情况无效：比如：“不好用“的正常分词结果：“不好，用”。（1）当自定义词库”好用“时，词库无效，分词结果不变。

大数据资讯

1136 0 0

大数据资讯

|

自然语言处理算法测试技术

分词工具Hanlp基于感知机的中文分词框架

结构化感知机标注框架是一套利用感知机做序列标注任务，并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架，该框架利用

大数据资讯

2087 0 0

大数据资讯

|

自然语言处理算法

中文分词算法工具hanlp源码解析

词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。

大数据资讯

1705 0 0

蓝天白芸朵

|

机器学习/深度学习人工智能自然语言处理

中文分词利器 jieba 和 HanLP

蓝天白芸朵

3957 0 0

热门文章

最新文章

为什么说流处理即未来？

【实战】锐捷AC+AP配置WLAN基本服务系列

丰富、连接、待集成—MaxCompute 生态再出发

securecrt克隆会话与sshd 的 MaxSessions

阿里云云端即时渲染技术带您“云考古”

Console-算法[for]-输出等腰三角形

asp.net日期显示问题

MFC单文档应用程序显示图像

最新10款精美的免费PSD网站模板下载

嵌入式系统工程师的十个不要

《docker基础篇：5.本地镜像发布到阿里云》

《人工智能可视化：数据洞察的新窗口》

《揭秘人工智能数据安全风险评估方法：守护数字未来的关键》

《探秘人工智能之关联规则挖掘：解锁数据背后的隐藏联系》

《数据质量评估方法大揭秘：精准衡量数据价值的关键》

《数据质量：人工智能模型的成败关键》

发现API安全风险，F5随时随地保障应用和API安全

机器学习在网络安全中的防护：智能化的安全屏障

基于AI的运维资源调度：效率与智能的双重提升

2024年终总结：选择错误、加班三月、降薪、面试无果...

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月