spacy包及trained pipelines安装教程

简介: spacy是自然语言处理中常用的Python包,本文介绍spacy包及其配套语言包的安装方式。

spacy官网:spaCy · Industrial-strength Natural Language Processing in Python

spacy官网安装教程:Install spaCy · spaCy Usage Documentation


可以根据自己的系统等要求来进行选择:

image.png

① 这里的cuda版本可以选anaconda环境中cudatoolit对应的版本,如TensorFlow2.9.0版本会要求安装cuda11.2(可参考我之前写过的博文TensorFlow安装教程),就可以选cuda11.2

② virtual env选项是用virtualenv包来实现Python虚拟环境的管理,创建虚拟环境并在指定虚拟环境下安装spacy包,我用anaconda,所以不用。

③ trained pipelines不用代理很难直接下载,因此我建议不要在这一步选择,我会在后面介绍这些trained pipeline的离线安装方式。

④ 3.3版本spacy似乎需要一个3.8版本以上Python才有的内置库,因此需要3.8版本以上的Python编辑器。(官网说Python版本大于3.6即可,嘛,我之前跑3.2版本的时候确实也可以用3.7.2版本的Python来跑,但是更新到3.8版本的Python更是绝对没问题的了)

这里直接给出的命令是:

pip install -U pip setuptools wheel
pip install -U 'spacy[cuda112]'


使用该命令即可成功安装spacy包。

安装trained_pipelines的方法:

官网:Trained Models & Pipelines · spaCy Models Documentation

方法一:直接使用官网提供的命令安装,如安装英文pipeline,就根据官网进行选择,然后直接安装(这两种loading style本质上差不多),能直接下的话就能直接用了:

image.png

如果因为众所周知的网络原因无法下载,请看方法二。


方法二:可以在Releases · explosion/spacy-models里面直接找需要下载的压缩文件,如我需要下en_core_web_sm,则直接搜索即可:

image.png

下载tar.gz或者whl都可以,我下的是tar.gz文件。

直接调用pip install spacy_model/en_core_web_sm-3.3.0.tar.gz命令即可。

(注意:model的版本需要和spacy的版本对应,如果不对应会强制更新spacy的版本。如我下载了3.3版本的spacy,但是我pip install了3.2版本的en_core_web_sm,就会自动重新安装3.2版本的spacy:

image.png

(后面的输出略))

相关文章
|
自然语言处理 算法 Python
掌握SpaCy:初级指南
SpaCy是一个非常强大的Python自然语言处理库,它包含了众多强大功能,如词性标注、命名实体识别、依赖关系解析等等。这篇文章的目标是帮助你了解SpaCy的基本功能和如何使用。
|
存储 SQL NoSQL
深入探究neo4j: 完全指南(安装、常用命令、错误汇总、python连接)
深入探究neo4j: 完全指南(安装、常用命令、错误汇总、python连接)
|
机器学习/深度学习 存储 Shell
Google Colab免费GPU大揭晓:超详细使用攻略
Google Colab免费GPU大揭晓:超详细使用攻略
|
设计模式 前端开发 Java
从Langchain到ReAct,在大模型时代下全新的应用开发核心
什么是ReAct框架关于什么是langchain,在使用langchain的过程中,大模型给人留下最深刻的印象无疑是Agent功能。大模型会自己分析问题,选择合适的工具,最终解决问题。这个功能背后的原理就是来自ReAct框架。ReA
15189 2
从Langchain到ReAct,在大模型时代下全新的应用开发核心
|
数据采集 机器学习/深度学习 数据挖掘
【机器学习4】构建良好的训练数据集——数据预处理(一)处理缺失值及异常值
【机器学习4】构建良好的训练数据集——数据预处理(一)处理缺失值及异常值
582 0
apt-get update时卡在 [0%]waiting for headers
apt-get update时卡在 [0%]waiting for headers
|
自然语言处理 Python
解决spacy3.2报错:Can‘t find model ‘en‘.
(1)下载spacy一直没成功,把pip install spacy改成conda install spacy就可以了; (2)在命令行输入 python3 -m spacy download en 来下载英语语言包(如果是其他语言则下载其他包了),不过en现在最好用全称en_core_web_sm,这一步也可以先下载tar再pip install en_core_web_md-2.2.5.tar.gz(但是注意把文件放对路径)。 然后测试下代码:
657 0
|
9月前
|
安全 网络协议 网络安全
2023 金砖国家职业技能大赛网络安全省赛理论题样题(金砖国家未来技能挑战赛)
2023 金砖国家职业技能大赛网络安全省赛理论题样题(金砖国家未来技能挑战赛)
|
Linux
wait() 函数和 waitpid() 函数
wait() 函数和 waitpid() 函数
775 0
wait() 函数和 waitpid() 函数
|
存储 机器学习/深度学习 运维
PAI DSW挂载NAS存储 Quick Start
PAI-DSW是一款云端机器学习开发IDE,为您提供交互式编程环境,适用于不同水平的开发者。集成了开源JupyterLab,并以插件化的形式进行深度定制化开发。开发者无需任何运维配置,即可进行Notebook编写、调试及运行Python代码。DSW采用计算和存储分离的架构,提供了适合开发者的数据存储方式。 DSW本身提供算力资源和非持久的本地存储,您可以将您的NAS盘或者OSS Bucket挂载到DSW的指定路径下,从而获得更高的安全性和更高的数据存储容量。使用远程磁盘存储后,如果实例因为某种原因退出,数据不会丢失。启动实例进行计算时,磁盘会自动挂载到您的实例,数据能立即可用。
689 0
PAI DSW挂载NAS存储 Quick Start

热门文章

最新文章