自然语言处理工具Spacy使用笔记

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理工具Spacy使用笔记

前言


Spacy是一个很强大的自然语言处理工具,支持多种自然语言处理的基本功能。主要功能有分词、词性标注、词干化、命名实体识别、名词短语提取等等


一、使用Spacy之前要了解的

# notice: 使用Spacy之前我们需要知道的是Spacy是调用一些统计模型来执行NLP的各种功能的,在使用相应的功能之前我们首先要选择使用哪种模型。
# 常用统计模型介绍
en_core_web_sm:英语多任务CNN,在OntoNotes上训练,大小为11 MB
en_core_web_md:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为91 MB
en_core_web_lg:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为789 MB
# 如何使用? 
import spacy
nlp = spacy.load('en_core_web_sm')

二、Spacy的安装以及功能介绍


2-1、Spacy的安装

# notice:如果下载速度太慢请参见另一篇文章
# https://blog.csdn.net/weixin_42475060/article/details/120779959
pip install spacy
# 加载并使用模型
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp('this is a sentence')

2-2、tokenize功能

for token in doc:
    print(token)
This
is
a
sentence
.


2-3、词干化

• 1

2-4、词性标注

• 1

2-5、命名实体识别

• 1

2-6、名词短语提取

• 1


二、


参考文章:

自然语言处理基础技术工具篇之spaCy.

spaCy教程学习.

spacy中的pipelines.


总结

相关文章
|
30天前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
45 2
|
3月前
|
自然语言处理 算法 数据可视化
NLP-基于bertopic工具的新闻文本分析与挖掘
这篇文章介绍了如何使用Bertopic工具进行新闻文本分析与挖掘,包括安装Bertopic库、加载和预处理数据集、建立并训练主题模型、评估模型性能、分类新闻标题、调优聚类结果的详细步骤和方法。
NLP-基于bertopic工具的新闻文本分析与挖掘
|
5月前
|
自然语言处理
【自然语言处理NLP】DPCNN模型论文精读笔记
【自然语言处理NLP】DPCNN模型论文精读笔记
69 2
|
4月前
|
SQL 人工智能 自然语言处理
一款利用人工智能将自然语言查询转换为 SQL 代码的互译工具 - SQL Translator
一款利用人工智能将自然语言查询转换为 SQL 代码的互译工具 - SQL Translator
113 0
|
6月前
|
缓存 自然语言处理 数据处理
Python自然语言处理面试:NLTK、SpaCy与Hugging Face库详解
【4月更文挑战第16天】本文介绍了Python NLP面试中NLTK、SpaCy和Hugging Face库的常见问题和易错点。通过示例代码展示了如何进行分词、词性标注、命名实体识别、相似度计算、依存关系分析、文本分类及预训练模型调用等任务。重点强调了理解库功能、预处理、模型选择、性能优化和模型解释性的重要性,帮助面试者提升NLP技术展示。
108 5
|
6月前
|
机器学习/深度学习 自然语言处理 Java
中文自然语言处理相关资料 | Chinese NLP Toolkits 中文NLP工具
中文自然语言处理相关资料 | Chinese NLP Toolkits 中文NLP工具
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
NLP比赛笔记(基于论文摘要的文本分类与关键词抽取挑战赛)
NLP比赛笔记(基于论文摘要的文本分类与关键词抽取挑战赛)
|
机器学习/深度学习 自然语言处理 数据可视化
nlp入门之spaCy工具的使用
本文作为nlp开山篇的第四篇,简要介绍了spaCy工具的用法
|
机器学习/深度学习 数据采集 自然语言处理
nlp入门之nltk工具的使用
本文作为nlp入门开山第三篇,简要的介绍了nltk工具的使用
|
数据采集 人工智能 自然语言处理
用于提取数据的三个开源NLP工具
用于提取数据的三个开源NLP工具
226 0

热门文章

最新文章