《R语言数据挖掘》----1.5 文本挖掘

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.5节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 文本挖掘

文本挖掘基于文本数据,关注从大型自然语言文本中提取相关信息,并搜寻有意义的关系、语法关系以及提取实体或各项之间的语义关联。它也被定义为自动或半自动的文本处理。相关的算法包括文本聚类、文本分类、自然语言处理和网络挖掘。

文本挖掘的特征之一是数字与文本混合,或者用其他的观点来说,就是源数据集中包含了混合数据类型。文本通常是非结构化文件的集合,这将被预处理并变换成数值或者结构化的表示。在变换之后,大部分的数据挖掘算法都可以应用,并具有不错的效果。

文本挖掘的过程描述如下:
第一步准备文本语料库,包括报告、信函等。

第二步基于文本语料库建立一个半结构化的文本数据库。

第三步建立一个词语文档矩阵,包含词语的频率。

第四步进行进一步的分析,比如文本分析、语义分析、信息检索和信息总结。

1.5.1 信息检索和文本挖掘

信息检索帮助用户查找信息,经常与在线文档相关联,它着重于信息的获取、组织、存储、检索和分布。信息检索(Information Retrieval,IR)的任务是根据查询检索有关的文档。信息检索的基本技术是测量相似性。其基本步骤如下所述:
指定一个查询。下面是一些查询类型:
关键词查询(keyword query):由一个关键词列表表示,用来查找包含至少一个关键词的文档。

布尔查询(boolean query):由布尔运算符和关键词构建的查询。

短语查询(phrase query):由组成短语的一系列词语所构成的查询。

近邻查询(proximity query):短语查询的降级版本,它可以是关键词和短
语的组合。

全文档查询(full document query):一个完整文档的查询,用于寻找类似于查询文档的其他文档。

自然语言问题(natural language questions):该查询有助于将用户的需求表示成一个自然语言问题。

搜索文档集。
返回相关文档的子集。

1.5.2 文本挖掘预测

预测文本的结果与预测数值数据挖掘一样耗力,并且有与数值分类相关联的相似问题。文本挖掘预测通常是一个分类问题。

文本预测需要先验知识,通过样本了解如何对新文档做出预测。一旦文本变换成数值数据,就可以应用预测方法。

相关文章
|
JSON 自然语言处理 供应链
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化
R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化
|
10月前
|
数据采集 机器学习/深度学习 算法
R语言数据挖掘:从“挖井”到“淘金”
R语言数据挖掘:从“挖井”到“淘金”
221 9
|
自然语言处理 数据可视化 大数据
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
R语言《红楼梦》文本挖掘:词频统计、词云可视化及前后对比分析
|
自然语言处理 数据可视化
R语言文本挖掘:twitter推特LDA主题情感分析
R语言文本挖掘:twitter推特LDA主题情感分析
|
人工智能 自然语言处理 数据可视化
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
|
机器学习/深度学习 存储 算法
【数据分享】R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
【数据分享】R语言SVM和LDA文本挖掘分类开源软件存储库标签数据和词云可视化
|
机器学习/深度学习 数据采集 自然语言处理
使用R语言进行文本挖掘和自然语言处理
【4月更文挑战第26天】R语言在文本挖掘和自然语言处理(NLP)中扮演重要角色,得益于其强大的统计分析功能、灵活的数据处理和丰富的扩展包。活跃的社区开发了如"tm"、"SnowballC"、"text2vec"、"topicmodels"和"syuzhet"等包,支持数据预处理、向量化、主题建模和情感分析。
288 1
|
存储 自然语言处理 数据可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享

热门文章

最新文章