13. Snips NLU
3.6k GitHub stars.
注意:该库已经2年没有更新了
Snips NLU 是一个可以从用自然语言编写的句子中提取结构化信息的 Python 库。每当用户使用自然语言与人工智能交互时,他们的文字都需要被翻译成机器可读的形式(向量)。Snips NLU 的 NLU(自然语言理解)引擎首先检测用户的意图是什么(也就是意图),然后提取查询的参数(称为slots)。
14. NLP Architect
2.8k GitHub stars.
NLP Architect 是一个用于探索用于优化自然语言处理和自然语言理解神经网络的最先进的深度学习拓扑和技术的Python 库。它允许在应用程序中轻松快速地集成 NLP 模型,并展示优化的模型。
15. PyTorch-NLP
2k GitHub stars.
PyTorch-NLP 扩展了 PyTorch并提供基本的文本数据处理功能。
16. Polyglot
1.9k GitHub stars.
Polyglot 是一个支持大量多语言应用程序的自然语言管道:标记化(165 种语言)、语言检测(196 种语言)、命名实体识别(40 种语言)、部分语音标记(16 种语言)、情感分析(136 种语言)、Word 嵌入(137 种语言)、形态分析(135 种语言)和音译(69 种语言)。
但是该库的最新更新时间是3年前。
17. TextAttack
1.8k GitHub stars.
TextAttack 是一个用于 NLP 中的对抗性攻击、数据增强和模型训练 的Python 框架。
18.Word Forms
513 GitHub stars.
Word forms可以准确地生成一个英语单词的所有可能形式。它可以连接不同的词性,例如名词与形容词、形容词与副词、名词与动词等。
19. Rosetta
420 GitHub stars.
Rosetta 是一个基于 TensorFlow 的隐私保护框架。它集成了主流的隐私保护计算技术,包括密码学、联邦学习和可信执行环境。Rosetta 重用了 TensorFlow 的 API,只需极少的代码更改,就可以将传统的 TensorFlow 代码转换为隐私保护的方式运行。
必备基础库
这里列出了一些并非特定于 NLP 但仍然经常用于 NLP 项目的数据科学库。
20.Scikit-learn
48.6k GitHub stars.
Scikit-learn(也称为 sklearn)是 Python 编程语言的免费软件机器学习库。它具有各种分类、回归和聚类算法,包括支持向量机、随机森林、梯度提升、k-means 和 DBSCAN,是建立在 Python 数值和科学库 NumPy 和 SciPy 之上的。
21.Pandas
32.4k GitHub stars.
Pandas 是一个提供了操作表格数据的Python 包。它已经成为在 Python 中进行实际的、真实的数据分析的基础模块。它可以被称作最强大、最灵活的开源数据分析/操作工具。