开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《R语言数据挖掘》----1.3 数据挖掘

简介:
+关注继续查看

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.3节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数据挖掘

数据挖掘就是在数据中发现一个模型,它也称为探索性数据分析,即从数据中发现有用的、有效的、意想不到的且可以理解的知识。有些目标与其他科学,如统计学、人工智能、机器学习和模式识别是相同的。在大多数情况下,数据挖掘通常被视为一个算法问题。聚类、分类、关联规则学习、异常检测、回归和总结都属于数据挖掘任务的一部分。
数据挖掘方法可以总结为两大类数据挖掘问题:特征提取和总结。

1.3.1 特征提取

这是为了提取数据最突出的特征并忽略其他的特征。下面是一些例子:
频繁项集(Frequent itemset):该模型对构成小项集篮子的数据有意义。(找出一堆项目中出现最为频繁、关系最为密切的一个子集。——译者注)
相似项(Similar item):有时你的数据看起来像数据集的集合,而目标是找到一对数据集,它们拥有较大比例的共同元素。这是数据挖掘的一个基本问题。

1.3.2 总结

目标是简明且近似地对数据集进行总结(或者说摘要),比如聚类,它是这样一个过程:检查数据的集合并根据某些度量将数据点分类到相应的类中。目标就是使相同类中的点彼此之间的距离较小,而不同类中的点彼此之间的距离较大。

1.3.3 数据挖掘过程

从不同的角度定义数据挖掘过程有两种比较流行的过程,其中更广泛采用的一种是CRISP-DM:
跨行业数据挖掘标准过程(Cross-Industry Standard Process for Data Mining,CRISP-DM)。
采样、探索、修正、建模、评估(Sample, Explore, Modify, Model, Assess,缩写为SEMMA),这是由美国SAS研究所制定的。

1.3.3.1 CRISP-DM

这个过程共分6个阶段,如下图所示。它不是一成不变的,但通常会有大量的回溯。

QQ_20170524141240

让我们详细地看一看每个阶段:
业务理解(business understanding):这项任务包括确定业务目标、评估当前形势、建立数据挖掘目标并制订计划。

数据理解(data understanding):这项任务评估数据需求,包括原始数据收集、数据描述、数据探索和数据质量的验证。

数据准备(data preparation):一旦获得数据,在上一步中确定数据源。然后需要对数据进行选择、清洗,并形成期望的形式和格式。

建模(modeling):可视化和聚类分析对于初步分析是有用的。可以应用像广义规则归纳(generalized rule induction)这样的工具开发初始关联规则。这是一个发现规则的数据挖掘技术,从条件因素与给定的决策或者结果之间的因果关系来对数据进行说明。也可以应用其他适用于数据的模型。

评估(evaluation):结果应该在第一阶段中的业务目标指定的环境下对模型结果进行评估。在大多数情况下,这会导致新需求的确定,转而返回到前一个阶段。

部署(deployment):可以使用数据挖掘来验证之前的假设或者知识。

1.3.3.2 SEMMA

下图是SEMMA过程的概览。

QQ_20170524141515

让我们详细地看一看这些过程:
采样(sample):在该步中,提取一个大数据集的一部分。

探索(explore):为了更好地理解数据集,在此步中搜索未预料的趋势和异常。

修正(modify):创建、选择和转换变量,以便专注于模型构建过程。

建模(model):搜索多种模型的组合,以便预测一个满意的结果。

评估(assess):根据实用性和可靠性对数据挖掘过程的结果进行评估。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《R语言游戏数据分析与挖掘》一导读
随着大数据的概念越来越流行,越来越多的企业开始重视数据,期待从数据中寻找有价值的结论,以指导公司管理层决策,最终创造更大的价值。但是在游戏行业,数据分析的发展相对缓慢,很多游戏公司是在发现人口红利消失后才逐渐重视数据,希望利用数据驱动产品。
1658 0
《R语言游戏数据分析与挖掘》一1.2 游戏数据分析的流程
本节书摘来华章计算机《R语言游戏数据分析与挖掘》一书中的第1章 ,第1.2节,谢佳标 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1468 0
10057
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载