spacy官网:spaCy · Industrial-strength Natural Language Processing in Python
spacy官网安装教程:Install spaCy · spaCy Usage Documentation
可以根据自己的系统等要求来进行选择:
① 这里的cuda版本可以选anaconda环境中cudatoolit对应的版本,如TensorFlow2.9.0版本会要求安装cuda11.2(可参考我之前写过的博文TensorFlow安装教程),就可以选cuda11.2
② virtual env选项是用virtualenv包来实现Python虚拟环境的管理,创建虚拟环境并在指定虚拟环境下安装spacy包,我用anaconda,所以不用。
③ trained pipelines不用代理很难直接下载,因此我建议不要在这一步选择,我会在后面介绍这些trained pipeline的离线安装方式。
④ 3.3版本spacy似乎需要一个3.8版本以上Python才有的内置库,因此需要3.8版本以上的Python编辑器。(官网说Python版本大于3.6即可,嘛,我之前跑3.2版本的时候确实也可以用3.7.2版本的Python来跑,但是更新到3.8版本的Python更是绝对没问题的了)
这里直接给出的命令是:
pip install -U pip setuptools wheel pip install -U 'spacy[cuda112]'
使用该命令即可成功安装spacy包。
安装trained_pipelines的方法:
官网:Trained Models & Pipelines · spaCy Models Documentation
方法一:直接使用官网提供的命令安装,如安装英文pipeline,就根据官网进行选择,然后直接安装(这两种loading style本质上差不多),能直接下的话就能直接用了:
如果因为众所周知的网络原因无法下载,请看方法二。
方法二:可以在Releases · explosion/spacy-models里面直接找需要下载的压缩文件,如我需要下en_core_web_sm,则直接搜索即可:
下载tar.gz或者whl都可以,我下的是tar.gz文件。
直接调用pip install spacy_model/en_core_web_sm-3.3.0.tar.gz命令即可。
(注意:model的版本需要和spacy的版本对应,如果不对应会强制更新spacy的版本。如我下载了3.3版本的spacy,但是我pip install了3.2版本的en_core_web_sm,就会自动重新安装3.2版本的spacy:
(后面的输出略))