《R语言数据挖掘》----第1章 预备知识 1.1大数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 第1章 预备知识 本章中,你将学习基本的数据挖掘术语,比如数据定义、预处理等。 最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前,我们来看一看将要介绍的主题: 数据挖掘 社交网络挖掘 文本挖掘 网络数据挖掘

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.1节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

预备知识

本章中,你将学习基本的数据挖掘术语,比如数据定义、预处理等。
最重要的数据挖掘算法将通过R语言进行说明,以便帮助你快速掌握原理,包括但不局限于分类、聚类和异常值检测。在深入研究数据挖掘之前,我们来看一看将要介绍的主题:
数据挖掘
社交网络挖掘
文本挖掘
网络数据挖掘
为什么选择R
统计学
机器学习
数据属性与描述
数据测量
数据清洗
数据集成
数据降维
数据变换与离散化
结果可视化

在人类历史上,来自每个方面的数据结果都是广泛的,例如网站、由用户的电子邮件或姓名或账户构成的社交网络、搜索词、地图上的位置、公司、IP地址、书籍、电影、音乐和产品。

数据挖掘技术可应用于任何类型的旧数据或者新数据,每种数据类型都可以运用特定的技术(并不需要全部技术)得到最好的处理。也就是说,数据挖掘技术受到数据类型、数据集大小以及任务应用环境等条件的限制。每一种数据集都有自己适合的数据挖掘解决方案。

一旦旧的数据挖掘技术不能应用于新的数据类型或者如果新的数据类型不能转换成传统的数据类型,那么总是需要研究新的数据挖掘技术。应用于Twitter庞大资源集的流数据挖掘算法的演变是一个典型的例子,针对社交网络开发的图挖掘算法是另一个例子。

最流行且最基本的数据形式来自数据库、数据仓库、有序数据或者序列数据、图形数据以及文本数据等。换句话说,它们是联合数据、高维数据、纵向数据、流数据、网络数据、数值数据、分类数据或者文本数据。

1.1 大数据

大数据是数据量很大的数据,它不适合存储在单台机器中。也就是说,在研究大数据时,数据本身的大小成为了问题的一部分。除了容量(Volume),大数据的其他两个主要特征就是多样性(Variety)和速度(Velocity),这就是大数据著名的三个特征。速度指的是数据处理的速率或者数据处理有多快;多样性指的是各种数据源类型。大数据源集合产生的噪声更频繁并且影响挖掘的结果,这就需要高效的数据预处理算法。

因此,分布式文件系统用来作为对大量数据成功执行并行算法的工具,可以肯定的是,每过1秒,我们将得到更多的数据。数据分析和可视化技术是与海量数据相关的数据挖掘任务的主要部分。海量数据的特性吸引了许多与平台相关的新的数据挖掘技术,其中一个就是RHadoop。我们将在后面的内容中对它进行描述。

大数据中的一些重要数据类型如下所述:
第一种数据类型来自摄像机视频,它包含了用于加快犯罪调查分析、增强零售分析以及军事情报分析等更多的元数据。

第二种数据类型来自嵌入式的传感器,如医用传感器,用来监测病毒的任何潜在爆发。

第三种数据类型来自娱乐,由任何人通过社交媒体自由发布的信息。

第四种数据类型来自消费者图像,它们源自社交媒体,像这种图像的标注是很重要的。

下面的表说明了数据大小增长的历史。该表显示信息每两年翻一番多,改变着研究人员或者公司的管理方式,通过数据挖掘技术从数据中获取价值,揭示着新的数据挖掘研究。

QQ_20170524135137

可扩展性和效率

效率、可扩展性、性能、优化以及实时执行的能力对于几乎所有的算法都是很重要的问题,它对数据挖掘也是如此。数据挖掘算法始终有一些必要的衡量指标或者基准因素。

随着数据量的持续增长,保持数据挖掘算法的效率和可扩展性对于有效地从众多数据存储库或数据流中的海量数据集里提取信息是很有必要的。

从单台机器到广泛分布的数据存储、众多数据集的庞大规模以及数据挖掘方法计算的复杂性,这些都是驱动并行和分布式数据密集型挖掘算法发展的因素。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
3月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
90 10
|
3月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
3月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
52 1
|
3月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
85 0
|
6月前
|
数据可视化 大数据 数据处理
大数据处理时的python和R语言
【5月更文挑战第5天】本文讨论了在语言Python 和R中数据处理时的框架,比如Python中的 OpenCV, Matplotlib, NumPy, Pandas, 和Seaborn。
41 1
大数据处理时的python和R语言
|
6月前
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
6月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
6月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
6月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分