前言
Spacy是一个很强大的自然语言处理工具,支持多种自然语言处理的基本功能。主要功能有分词、词性标注、词干化、命名实体识别、名词短语提取等等
一、使用Spacy之前要了解的
# notice: 使用Spacy之前我们需要知道的是Spacy是调用一些统计模型来执行NLP的各种功能的,在使用相应的功能之前我们首先要选择使用哪种模型。 # 常用统计模型介绍 en_core_web_sm:英语多任务CNN,在OntoNotes上训练,大小为11 MB en_core_web_md:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为91 MB en_core_web_lg:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为789 MB # 如何使用? import spacy nlp = spacy.load('en_core_web_sm')
二、Spacy的安装以及功能介绍
2-1、Spacy的安装
# notice:如果下载速度太慢请参见另一篇文章 # https://blog.csdn.net/weixin_42475060/article/details/120779959 pip install spacy # 加载并使用模型 import spacy nlp = spacy.load('en_core_web_sm') doc = nlp('this is a sentence')
2-2、tokenize功能
for token in doc: print(token) This is a sentence .
2-3、词干化
• 1
2-4、词性标注
• 1
2-5、命名实体识别
• 1
2-6、名词短语提取
• 1
二、
参考文章: