Python NLP库top6的介绍和比较-阿里云开发者社区

Python NLP库top6的介绍和比较

2018-07-23 1724

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 文章来源：ActiveWizardshttps://medium.com/activewizards-machine-learning-company/comparison-of-top-6-python-nlp-libraries-c4ce160237eb译者 | Revolver编辑 | 磐石出品 | 磐创AI技术团队自然语言处理（NLP）在今天已经变得越来越流行，尤其是在深度学习迅猛发展的大背景下变得更加引人注目。

文章来源：ActiveWizards

https://medium.com/activewizards-machine-learning-company/comparison-of-top-6-python-nlp-libraries-c4ce160237eb

译者 | Revolver

编辑 | 磐石

出品 | 磐创AI技术团队

自然语言处理（NLP）在今天已经变得越来越流行，尤其是在深度学习迅猛发展的大背景下变得更加引人注目。NLP属于人工智能的一个领域，旨在理解文本和从中提取重要信息，并在文本数据上做进一步的训练。NLP的主要任务包括了语音识别和生成，文本分析，情感分析，机器翻译等。

现下已经有许多工具库被设计来解决NLP问题。今天，我们根据我们的经验列举概述了六个最实用最受欢迎的自然语言处理库，并对它们进行比较。不过我们列举的这几个库在功能上，在解决的任务目标上，只有部分的重叠，所以有时很难对它们进行直接比较。我们将围绕一些每个NLP库共有的特性来进行比较。

一、综述

NLTK (Natural Language Toolkit) 用于执行诸如分词，词形还原，词干提取，解析，词性标注等任务。该库包含的工具可用于几乎所有NLP任务。

Spacy NLTK的主要竞争对手。这两个库可用于相同的任务。

Scikit-learn 为机器学习提供了一个包罗万象的工具库，这其中就包含了用于文本预处理的工具。

Gensim 一个被用于主题和向量空间建模，计算文档相似性的工具包。

Pattern 主要作为Web挖掘模块被使用。因此，它仅被用来执行NLP的辅助类任务。

Polyglot NLP的另一个python包。它不是很受欢迎，但也可以用于各种NLP任务。

为了使比较更加清晰具体，我们制作了一张表格来展示每个库的优缺点。

二、结论

在本文中，我们比较了六个十分流行的自然语言处理库的部分功能。虽然它们大多数提供了解决相同任务的工具，但有些也使用独特的方法来解决特定问题。当然，今天NLP最受欢迎的软件包依然是NLTK和Spacy。他们彼此也是NLP领域的主要竞争对手。在我们看来，它们之间的区别主要在于解决问题的方法论不一样。

NLTK更具学术性。您可以使用它来尝试不同的方法和算法，或将它们组合起来等等。相反，Spacy为每个问题提供了一个开箱即用的解决方案。你不必考虑哪种方法更好：Spacy的作者已经给你想好了。此外，Spacy非常快（比NLTK快几倍）。一个缺点是Spacy支持的语言数量有限，但是支持的语言数量一直在增加。所以，我们认为Spacy在大多数情况下都是最佳选择，但如果你想尝试一些特别的东西，你可以使用NLTK。

尽管这两个库很受欢迎，但你依然还有许多其他不同的选择，如何选择NLP包取决于您希望解决的具体问题是什么。所以，如果你碰巧知道其他有用的NLP库，也可以在评论区告诉我们的读者。

Python NLP库top6的介绍和比较

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python NLP库top6的介绍和比较

热门文章

最新文章

相关课程

相关电子书

推荐镜像