NLP自然语言处理中英文分词工具集锦与基本使用介绍-阿里云开发者社区

开发者社区> 人工智能> 正文

NLP自然语言处理中英文分词工具集锦与基本使用介绍

简介: 一、中文分词工具(1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具1.from stanfordcorenlp import StanfordCoreNLP2.

一、中文分词工具
(1)Jieba

(2_1
)snowNLP分词工具

_2
3)thulac分词工具

_3
4)pynlpir 分词工具
_4

(5)StanfordCoreNLP分词工具
1.from stanfordcorenlp import StanfordCoreNLP
2.with StanfordCoreNLP(r'E:UsersEternal SunPycharmProjects1venvLibstanford-corenlp-full-2018-10-05', lang='zh') as nlp:

  1. print("stanfordcorenlp分词:n",nlp.word_tokenize(Chinese))
    (6)Hanlp分词工具

_5

分词结果如下:
_6

二、英文分词工具

  1. NLTK:
    _7

二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下:
_8

  1. SpaCy:
    _9
  1. StanfordCoreNLP:
    _10

分词结果

_11

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章