文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是指从文本中获取高质量信息的过程。高质量的信息通常是通过设计模式和趋势通过统计模式学习等手段获得的。
文本挖掘计算机程序可从许多商业和开放源码公司和源代码获得。
Commercial
- Amenity Analytics——开发基于云的文本分析解决方案,使用自然语言处理和机器学习,从任何非结构化数据的来源获取大规模的见解。
- Angoss文本分析通过嵌入式提供实体和主题提取、主题分类、情感分析和文档摘要功能
- AUTINDEX -是Saarbrucken应用信息科学研究所开发的一个基于复杂语言学的商业文本挖掘软件包。
- Autonomy -文本挖掘,聚类和分类软件
- Averbis 提供文本分析,聚类和分类软件,以及术语管理和企业搜索
- Basis Technology 提供一套文本分析模块来识别语言,支持在20多种语言中搜索,提取实体,并有效地搜索和翻译实体。
- Clarabridge文本分析(文本挖掘)软件,包括自然语言(NLP),机器学习,集群和分类。提供SaaS,托管和现场文本和情感分析,使公司能够收集,听取,分析,并采取行动,对客户的声音(VOC)从外部(Twitter, Facebook, Yelp!内部资源(呼叫中心notes、CRM、企业数据仓库、BI、调查、邮件等)。
- DigitalMR -社会媒体听力和文本+图像分析工具的市场研究
- Endeca技术-提供分析和集群非结构化文本的软件。
- FICO评分-领先的分析供应商。
- General Sentiment -社交智能平台,利用自然语言处理,发现品牌粉丝与传统电视节目粉丝在社交媒体上的亲密关系。独立的文本分析,以获取社会知识库的数十亿主题存储到2004年。
- IBM语言软件——用于文本分析的IBM套件(工具和运行时)。
- IBM SPSS—Modeler Premium(以前称为IBM SPSS Modeler和IBM SPSS文本分析)的提供者,它包含高级基于nlp的文本分析功能(多语言情感、事件和事实提取),可以与预测建模结合使用。调查文本分析提供了使用基于nlp的功能对调查响应进行分类的能力,以便进行进一步的分析或报告。
- Inxight -提供文本分析、搜索和非结构化可视化技术。(Inxight被SAP AG于2008年收购的Business Objects收购)。
- 语言计算机公司-文本提取和分析工具,可在多种语言。
- Lexalytics -提供一个文本分析引擎,用于社交媒体监控、客户语音、调查分析和其他应用。突出引擎。该软件提供了将非结构化、基于文本的分析输出与结构化数据合并的独特功能,从而为改进的预测模型和关联分析提供额外的预测变量。
- LexisNexis -基于广泛的新闻和公司信息内容集提供商业智能解决方案。LexisNexis收购DataOps进行搜索
- Linguamatics 提供基于自然语言处理(NLP)的企业文本挖掘和文本分析软件,I2E,用于高价值的知识发现和决策支持。
- Luminoso -经过麻省理工学院媒体实验室十多年的自然语言处理(NLP)、机器学习和人工智能研究,开发出企业反馈和文本分析解决方案
- Mathematica -为文本对齐、模式匹配、聚类和语义分析提供内置工具。参见Wolfram语言,Mathematica的编程语言。
- MATLAB提供文本分析工具箱,用于导入文本数据,将其转换为数字形式,用于机器和深度学习、情绪分析和分类任务
- MeaningCloud 以前被称为text talytics:一组文本分析api,以SaaS模式和内部环境提供,完全可定制,以获得最高的精确度,并且由于其SDKs和插件,非常容易集成到任何系统或环境中。
- Medallia -提供一个记录系统的调查,社会,文字,书面和在线反馈。
- Megaputer Intelligence—从大量文本和结构化数据中获取可操作的知识,包括自然语言处理(NLP)、机器学习、情感分析、实体提取、聚类和分类。
- NetOwl -多语言文本和实体分析产品套件,包括实体提取、链接和事件提取、情感分析、地理标记、名称翻译、名称匹配和身份解析等。
- PoolParty Semantic Suite允许您开发一个知识图——从而构建并表示您的优先级知识域。高性能的PoolParty服务按照复杂的文本挖掘算法提取实体和术语。
- RapidMiner及其文本处理扩展-数据和文本挖掘软件。
- SAS - SAS文本挖掘和字谜;用于信息管理的商业文本分析、自然语言处理和分类软件。
- Semantria -通过API和Excel插件提供服务。它是文本分析软件Lexalytics的一个分支,但不同之处在于它是通过API和Excel插件提供的,而且它包含了更大的知识库并使用深度学习。
- Sketch Engine -一个语料库管理器和分析软件,提供从上传的文本或网络创建文本语料库,包括词性标注和引理或检测一个特定的网站
- Smartlogic -信号;内容智能平台包含商业文本分析、自然语言处理、基于规则的分类、本体/分类法建模和用于信息管理的信息可视化软件。
- StatSoft -为预测分析解决方案提供了一个可选的扩展。
- Sysomos -提供社交媒体分析软件平台,包括文本分析和在线消费者对话的情绪分析。
- WordStat -用于分析大量文本数据的QDA Miner的内容分析和文本挖掘附加模块。
Open source
- Carrot2 -文本和搜索结果聚类框架。
- Coding Analysis Toolkit - CAT是一个免费的、基于web的、开源的文本分析服务。在团队中加载、编码和注释文本数据。衡量评估者之间的可靠性,并判断程序员之间的差异。报告代码和编码器的准确性。通过系统迭代训练更好的程序员。
- GATE-文本工程的通用架构,一个自然语言处理和语言工程的开源工具箱。
- Gensim 大型主题建模和从非结构化文本(Python)中提取语义信息。
- Natural Language Toolkit (NLTK)——一套用于Python编程语言的符号和统计自然语言处理(NLP)的库和程序。
- OpenNLP 自然语言处理。
- Orange及其文本挖掘附加组件。
- Stanbol 一个针对语义内容管理的开源文本挖掘引擎。
- 编程语言R 为包tm中的文本挖掘应用程序提供了一个框架。自然语言处理任务视图包含tm和其他文本挖掘库包
- KNIME 文本处理扩展。
- The PLOS 文本挖掘集合
- Voyant Tools 一个基于web的文本分析环境,创建为一个学术项目。
- spaCy - Python的开源自然语言处理库
参考文献
- ^阿尔巴,大卫(2015年2月12日)。“帮助你实时分析Twitter聊天记录的初创公司”。《连线》杂志。2015年3月4日检索。
- ^史蒂夫·洛尔(2014年6月27日)。“美国-德国通过社交媒体镜头比赛。《纽约时报》。2015年3月4日检索。
- ^“文本分析工具箱”。www.mathworks.com。检索2019-07-10。
- ^“文本分析与素描引擎”。素描引擎。词汇计算CZ s.r.o检索于2018年1月17日。
- ^ tm包简介:R语言文本挖掘
- ^ CRAN任务视图:自然语言处理
- ^“目录:文本挖掘”。PLOS。
外部链接PLO
- Mashape上的文本挖掘api[永久死链接]
- 可编程Web上的文本挖掘api
- 用于研究的文本分析门户中的文本挖掘api