目前常用的自然语言处理开源项目/开发包大汇总-阿里云开发者社区

开发者社区> 大数据资讯> 正文

目前常用的自然语言处理开源项目/开发包大汇总

简介:
+关注继续查看


中文主要有NLTKFoolNLTKHanLPjava版本),pyhanlppython版本),AnsjTHULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATESnowNLP,东北大学NiuTransNLPIR,;

英文主要有NLTKGenismTextBlobStanford NLPSpacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp

相关问题&文章:

1)如何用 Python 中的 NLTK 对中文进行分析和处理? 这个问题下的回答也详说了其他的语音处理包

2)中文分词项目总结

详细介绍

HanLPHanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

开发语言:Java

网址:hankcs/HanLP

开发机构:大快搜索

协议:Apache-2.0

功能:非常多,主要有中文分词,词性标注,命名实体识别,关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析,文本分类:情感分析,word2vec,语料库工具

活跃度:github star 超过45,近期(201711)仍在保持更新

 

Ansj中文分词:一个基于n-Gram+CRF+HMM的中文分词的java实现.

开发语言:Java

网址:NLPchina/ansj_seg

协议:Apache License 2.0

功能:中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记

性能:分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上

活跃度:github star 数量超过3500,近期(2017.11)仍在保持更新

 

THULAC:一个高效的中文词法分析工具包,具有中文分词和词性标注功能。

开发语言:

网址:THULAC:一个高效的中文词法分析工具包

开发机构:清华大学自然语言处理与社会人文计算实验室

协议:研究目的免费开放源代码,商用目的需洽谈许可证

功能:中文分词和词性标注

 

感谢石墨用户@hain 的补充

Synonyms: 中文近义词工具包

开发语言:Python

开发机构:个人

协议:MIT

功能:获取近义词集合,句子相似度计算

性能:见网站

活跃度:~1k Star

 

结巴分词:Python中文分词组件

开发语言:Python

网址:fxsjy/jieba

开发机构:

协议:MIT授权协议

功能:中文分词

FNLPFNLP主要是为中文自然语言处理而开发的工具包,也包含为实现这些任务的机器学习算法和数据集。

开发语言:

网址: FudanNLP/fnlp

开发机构:复旦

协议:LGPL3.0许可证。

功能:信息检索: 文本分类 新闻聚类;中文处理: 中文分词 词性标注 实体名识别 关键词抽取 依存句法分析 时间短语识别;结构化学习: 在线学习 层次分类 聚类

 

GenismGensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.

开发语言:Python

网址:RaRe-Technologies/gensim

协议:LGPL-2.1 license

活跃度:github star数超过五千,近期(201711)仍在更新

 

TextBlobSimple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.

开发语言:Python

网址:sloria/TextBlob

功能:情感分析、词性标注、翻译等

活跃度:github star 超过4千,近期(201711)仍在更新

 

SpacyspaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.

开发语言:python

协议:MIT协议

功能: 功能很多,如tagging, parsing and named entity recognition

性能:功能强大,支持二十多种语言(然而目前还不支持中文,可以阅读官方文档了解更多信息https://spacy.io/usage/),号称是工业级强度的Python NLP工具包,区别于学术性质更浓的Python NLTK

活跃度:star 超过7千,近期(201711)仍非常活跃

 

作者:鉴津Jackie

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
项目心得:广度遍历搜索部门处理业务
部门树节点 平常在做后台管理系统的时候,多多少少都会涉及部门管理,部门有上下级,所以架构会呈现出树形,下图是一个简单的部门节点图:                         这个和平时的二叉树很像,如果部门比较多的话,那么这个树就会很复杂。
792 0
2014秋C++第13周项目2参考-成绩处理
课程主页在http://blog.csdn.net/sxhelijian/article/details/39152703,课程资源在云学堂“贺老师课堂”同步展示,使用的帐号请到课程主页中查看。  【项目2- 成绩处理】在数组score中将要存储某小组C++程序设计的成绩,请设计实现下面的各功能函数,并在main函数中调用,组合成一个完整的应用:(1)输入小组人数及成绩,要保证成绩在0-10
1091 0
解读OpenMessaging开源项目,阿里巴巴发起首个分布式消息领域的国际标准
OpenMessaging项目由阿里巴巴发起,与雅虎、滴滴出行、Streamlio公司共同参与创立,项目意在创立厂商无关、平台无关的分布式消息及流处理领域的应用开发标准。据发起人介绍,随着标准的不断演进,会有更多的互联网、云计算厂商参与到该项目以及生态体系中来。
11093 0
iOS中 Apple开发相关邮箱汇总 韩俊强的博客
每周更新关注:http://weibo.com/hanjunqiang  新浪微博!手机加iOS开发者交流QQ群: 446310206 收集整理下来的邮箱列表,附上简单说明,希望对广大开发者有帮助:------------------------------------------------...
1107 0
【转】VC++/MFC(VC6)开发技术精品学习资料下载汇总 (2011.3.10更新)
from:http://club.topsage.com/thread-361504-1-1.html   Visual C++ (VC) / MFC 电子书下载:Visual C++ 2008 入门经典 (中文版) 下载Windows核心编程 第5版 (Windows via C/C++, 5...
2475 0
H5移动前端开发常用高能css3汇总
1.禁止a标签点击高亮,这些都是非官方属性,但实用性超强  html,body{ -webkit-touch-callout: none; //禁止或显示系统默认菜单 -webkit-user-select: none; //禁止长按复制选择 -webki...
728 0
+关注
大数据资讯
hadoop爱好者
149
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载