目前常用的自然语言处理开源项目/开发包大汇总

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
简介:


中文主要有NLTKFoolNLTKHanLPjava版本),pyhanlppython版本),AnsjTHULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATESnowNLP,东北大学NiuTransNLPIR,;

英文主要有NLTKGenismTextBlobStanford NLPSpacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp

相关问题&文章:

1)如何用 Python 中的 NLTK 对中文进行分析和处理? 这个问题下的回答也详说了其他的语音处理包

2)中文分词项目总结

详细介绍

HanLPHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

开发语言:Java

网址:hankcs/HanLP

开发机构:大快搜索

协议:Apache-2.0

功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具

活跃度:github star 超过45,近期(201711)仍在保持更新

 

Ansj中文分词:一个基于n-Gram+CRF+HMM的中文分词的java实现.

开发语言:Java

网址:NLPchina/ansj_seg

协议:Apache License 2.0

功能:中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记

性能:分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上

活跃度:github star 数量超过3500,近期(2017.11)仍在保持更新

 

THULAC:一个高效的中文词法分析工具包,具有中文分词和词性标注功能。

开发语言:

网址:THULAC:一个高效的中文词法分析工具包

开发机构:清华大学自然语言处理与社会人文计算实验室

协议:研究目的免费开放源代码,商用目的需洽谈许可证

功能:中文分词和词性标注

 

感谢石墨用户@hain 的补充

Synonyms: 中文近义词工具包

开发语言:Python

开发机构:个人

协议:MIT

功能:获取近义词集合,句子相似度计算

性能:见网站

活跃度:~1k Star

 

结巴分词:Python中文分词组件

开发语言:Python

网址:fxsjy/jieba

开发机构:

协议:MIT授权协议

功能:中文分词

FNLPFNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。

开发语言:

网址: FudanNLP/fnlp

开发机构:复旦

协议:LGPL3.0许可证。

功能:信息检索: 文本分类 新闻聚类;中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别;结构化学习: 在线学习 层次分类 聚类

 

GenismGensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

开发语言:Python

网址:RaRe-Technologies/gensim

协议:LGPL-2.1 license

活跃度:github star数超过五千,近期(201711)仍在更新

 

TextBlobSimple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

开发语言:Python

网址:sloria/TextBlob

功能:情感分析、词性标注、翻译等

活跃度:github star 超过4千,近期(201711)仍在更新

 

SpacyspaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

开发语言:python

协议:MIT协议

功能: 功能很多,如tagging, parsing and named entity recognition

性能:功能强大,支持二十多种语言(然而目前还不支持中文,可以阅读官方文档了解更多信息https://spacy.io/usage/),号称是工业级强度的Python NLP工具包,区别于学术性质更浓的Python NLTK

活跃度:star 超过7千,近期(201711)仍非常活跃

 

作者:鉴津Jackie

相关文章
|
25天前
|
机器学习/深度学习 人工智能 自然语言处理
【开源项目】自然语言处理领域的明星项目推荐:Hugging Face Transformers
在当今人工智能与大数据飞速发展的时代,自然语言处理(NLP)已成为推动科技进步的重要力量。而在NLP领域,Hugging Face Transformers无疑是一个备受瞩目的开源项目。本文将从项目介绍、代码解释以及技术特点等角度,为您深入剖析这一热门项目。
45 10
|
2月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
2月前
|
TensorFlow 算法框架/工具 C++
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
|
2月前
|
分布式计算 自然语言处理 MaxCompute
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
构建NLP 开发问题之如何在数据加载框架中实现从两个ODPS表中分别读取正样本和负样本,并在batch内以1:1的方式混合
|
4月前
|
人工智能 自然语言处理 机器人
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人
如今,大模型层出不穷,这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。 但不能不承认的是,普通人使用大模型还是有一定门槛的,首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能的图形处理单元(GPU)或者专用的张量处理单元(TPU),以及大内存和高速存储器。说白了,本地没N卡,就断了玩大模型的念想吧。 其次,大模型的性能往往受到模型调优和微调的影响。这需要对模型的超参数进行调整和优化,以适应特定任务或数据集。对大模型的调优需要一定的经验和专业知识,包括对深度学
自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人
|
人工智能 自然语言处理 搜索推荐
NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
 NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
|
人工智能 自然语言处理 PyTorch
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
NLP文本匹配任务Text Matching [有监督训练]:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
深度学习应用篇-自然语言处理-命名实体识别[9]:BiLSTM+CRF实现命名实体识别、实体、关系、属性抽取实战项目合集(含智能标注)
|
自然语言处理 API 开发工具
百度语言处理应用技术API:NLP开发SDK的简单调用
百度语言处理应用技术API:NLP开发SDK的简单调用
74 0
|
自然语言处理
NLP项目(二)——拼写纠错
NLP项目(二)——拼写纠错

热门文章

最新文章