开发者社区> 华章计算机> 正文

《R语言数据挖掘:实用项目解析》——第1章 使用R内置数据进行数据处理 1.1 什么是数据挖掘

简介:
+关注继续查看

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第1章,第1.1节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

使用R内置数据进行数据处理

本书主要介绍在R语言平台上实现数据挖掘的方法和步骤。因为R是一种开源工具,所以对各层次的学习者而言,学习使用R语言进行数据挖掘都会很有意思。本书的设计宗旨是,读者可以从数据管理技术着手,从探索性数据分析、数据可视化和建模开始,直至建立高级预测模型,如推荐系统、神经网络模型等。本章将概述数据挖掘的原理及其与数据科学、分析学和统计建模的交叉。在本章,读者将初识R编程语言基础,并通过一个真实的案例,了解怎样读取和写入数据,熟悉编程符号和理解句法。本章还包含了R语言脚本,可供读者动手实践,以加深对原理和术语的理解,领会数据挖掘任务的来龙去脉。本章之所以这样设计,是为了让那些编程基础薄弱的读者也可以通过执行R语言命令来完成一些数据挖掘任务。

本章将简述数据挖掘的意义以及它与其他领域(如数据科学、分析学和统计建模)的关系,还会就使用R进行数据管理的话题展开讨论。通过学习本章的内容,读者应掌握以下知识点:

  • 了解R语言中所使用的各种数据类型,包括向量和向量运算。
  • 数据框的索引及因子序列。
  • 数据框的排序与合并以及数据类型的转换。
  • 字符串操作以及数据对象格式化。
  • 缺失值(NA)的处理方法。
  • 流控制、循环构建以及apply函数的应用。

1.1 什么是数据挖掘

数据挖掘可以定义为这样的过程:从现有数据库中“解读”出有意义的信息,然后加以分析,并将结果提供给业务人员。从不同数据源分析数据,进而归纳出有意义的信息和洞见——这属于统计知识的探索,不仅有助于业务人员,也有助于多个群体,如统计分析员、咨询师和数据科学家。通常,数据库中的知识探索过程是不可预知的,对探索结果也可以从多个角度进行解读。

硬件设备、平板、智能手机、计算机、传感器等电子设备的大规模增长促使数据以超前的速度产生与收集。随着现代计算机处理能力的提升,可以对增长的数据进行预处理和模型化,以解决与商业决策过程相关的各种问题。数据挖掘也可以定义为利用统计方法、机器学习技术、可视化和模式匹配技术从离散的数据库和信息资源库中进行知识密集型搜索。

零售商店内所有物品的条形码、制造业所有货物的射频识别标签、推特简讯、Facebook上的贴子、遍布城市用于监控天气变化的传感器、录像分析、基于观看信息统计的视频推荐……这些结构化和非结构化数据的增长创造了一个催生各种各样的工具、技术和方法的生态系统。前文提到应用于各种数据的数据挖掘技术,不仅提供了有用的数据结构信息,也就企业未来可采取的决策提出了建议。

image

数据挖掘包括以下几个步骤:

1)从数据库和数据仓库中抽取需要的数据。
2)检查数据,删除冗余特征和无关信息。
3)有时需要与其他未关联数据库中的数据相合并。所以,需要找到各个数据库的共同属性。
4)应用数据转换技术。有时,一些属性和特征需要包含在一个模型中。
5)对输入的特征值进行模式识别。这里可能会用到任何模式识别技术。
6)知识表达。其中包括把从数据库中提炼出来的知识通过可视化方式展示给利益相关者。

image

在讨论了数据挖掘的流程和核心组成之后,我们也需注意到实施数据挖掘时可能遇到的挑战,比如运算效率、数据库的非结构化以及怎样将其与结构化数据结合、高维数据的可视化问题,等等。这些问题可以通过创新的方法来解决。本书在项目实践中会涉及一些解决方法。

它是怎么与数据科学、分析和统计建模关联的

数据科学是个很宽泛的话题,其中也包含了一些数据挖掘的概念。根据之前对数据挖掘的定义,即它是从数据中发现隐藏模式,找出有意思的关联并能提供有用的决策支持的过程,可知数据挖掘是数据科学项目的子集,涉及模式识别、特征提取、聚类以及监督分类等技术。分析学和统计建模包含了很多预测模型——基于分类的模型,通过应用这些方法解决实际业务问题。数据科学、分析学和统计建模、数据挖掘这些术语之间明显是有重叠的,所以不应该把它们看作完全独立的术语。根据项目要求和特定的业务问题,它们重叠的部分可能有所不同。但总的来说,所有概念都是相关联的。数据挖掘过程也包括基于统计和机器学习方法来提取数据,提取自动化规则,也需要利用好的可视化方法来展示数据。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
iOS网络编程之六——数据缓存类NSURLCache使用解析
iOS网络编程之六——数据缓存类NSURLCache使用解析
44 0
使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎
Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。
2973 0
从 0 到 1 通过 Flink + Tablestore 进行大数据处理与分析
阿里云实时计算Flink版是一套基于 Apache Flink 构建的⼀站式实时大数据分析平台。在大数据场景下,实时计算 Flink 可提供端到端亚秒级实时数据流批处理能力。表格存储 Tablestore (又名 OTS)是阿里云自研的多模型结构化数据存储,可提供海量结构化数据的存储、查询分析服务。表格存储的双引擎架构支持千万TPS和毫秒级延迟的服务能力,可作为大数据计算的极佳上下游存储。
468 0
SAS进阶《深入解析SAS》之对多数据集的处理
SAS进阶《深入解析SAS》之对多数据集的处理 1. 数据集的纵向串接: 数据集的纵向串接指的是,将两个或者多个数据集首尾相连,形成一个新的数据集。 据集的横向合并: 数据集的横向合并,指的是将两个或者多个数据集根据某种原则横向合并起来,形成新的数据集。 2. 数据集的纵向串接两种方法:1)使用SAS DATA步的SET语句。2)使用SAS过程步的APPEND过程。
1315 0
在医疗保健中使用AI:将数据转化为行动
在医疗保健领域,不乏支持人工智能(AI)好处的统计、调查和行业炒作。人工智能已经在我们的日常生活中发挥了重要作用。医疗保健可能是人工智能对我们日常生活影响最大的领域之一。尽管如此,我们才刚刚开始了解人工智能在医疗服务方面的作用。
260 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载