数据挖掘概述 -2|学习笔记

简介: 快速学习数据挖掘概述 -2

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践数据挖掘概述 -2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15424


数据挖掘概述 -2

 

内容介绍:

一、数据挖掘的定义

二、简介

三、数据挖掘与数据分析的区别

四、数据挖掘算法/模型的分类

五、总结

 

一、数据挖掘的定义

什么是数据挖掘呢?

image.png在1995年加拿大蒙特利尔召开了第一届支持发现与数据挖掘学术会议,在这个会议上提出了数据挖掘和前面第一节讲的内容一样,在那个时候很多单位已经有了对接如山的数据,那人们自然会想到怎么从数据里面去挖掘知识来帮助管理和决策关于数据挖掘的定义,有许多学者和研究单位给出了他们的理解例如在1997年应该数据化学研究所叫sars研究所,也是一个软件数据化的软件,是目前世界上面最大的数据化软件。他对数据挖掘的定义是这样子的,是大量相关数据基础之上进行数据探索和建立相关模型的先进方法,大家注意,他这个定义里面有两个要素,一个是大量相关数据数据另一个就是在数据上面进行探索和建立模型那么还有一些学者给了数据外面的一些建议,我们不展开叙述。如下:

数据挖掘的定义

SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。

Michael和Gordon:“自动或半自动化探索和分析大量数据,以发现其中有意义的模式和规则的过程”Bhavani (1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。

Hand et al (2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”

数据挖掘有各种定义,本门课程给数据挖掘一个定义:数据挖掘英文单词是 data mining,就是从大量的,不完全的,有造成的模糊的,随机的实际应用数据中提取,隐含在其中的人们实事先不知道的,但又是潜在有用的信息和知识的过程。大家注意这个定义有这样几层含义:第一个在数据前面有了大量的定义,说明数据是复杂的数据,只要经过处理以后,才能被使用另一层含义。我们要在数据中挖掘的知识是隐含在起来的,人们事先不知道的,但是又是潜在有用的,另外我们还要知道数据挖掘挖掘到的知识是用户感兴趣的,也就是前面讲的潜在有用的数据是可理解的,挖掘的知识是可以理解的,可接收的,可运用的另外要注意数据挖掘,不是自然科学在数据里面挖掘的知识并不要求放置四海接触,它仅支持特定问题的发现。

我们来看一下从数据里发现的知识,是人们意料之外的例子。大家看一下睡眠时间和死亡率的关系,从这张图当中可以看出睡眠时间太少,死亡率会增加睡眠时间太多,死亡的也会增加,所以同学们一定要合理的安排好作息时间,这都是从大量的数据里面看出来的。

image.png

 

二、简介

要注意数据挖掘,他不是一个简单的技术,数据挖掘是一套方法论,他综合了各种方法,挖掘的过程有很多标准,我们给大家介绍一个标准及跨行业数据挖掘构成标准,简称cp标准,这个标准将数据挖掘分成六个阶段,大家在这张图当中可以看出来,这六个阶段分别是商业理解然后到数据理解,然后数据准备,然后再是建立模型。我先清理好了以后一定要进行评估,评估以后模型比较正确,再进行部署应用。

image.png我们下面把这六个阶段给大家详细介绍一下:

首先商业理解,商业理解可以认为是数据挖掘最重要的阶段,我们都知道任何事情都要有一个源头,如果没有商业理解,你就无法去进行具体的数据挖掘,商业理解包括确定商业业务对象评估的情况、定数据挖掘的目标,以及制定一些数据挖掘的计划。然后再到数据理解阶段,数据理解主要是要了解数据挖掘中的原材料数据的详细情况,比如说数据有哪些指标?要收集哪些数据?数据的分布和质量如何?然后再下一个段是数据准备,及对于数据挖掘需要的数据理解明确以后,那么就需要准备这些数据,准备数据包括数据的选择,心理构建集成格式化等工作。数据准备是数据挖掘过程当中最花费时间的阶段,可以认为大多数的数据挖掘任务60%~90的时间在做数据准备。然后第四个阶段就是建立模型,这是数据挖掘的核心部分,我们这门课程主要就是学习数据挖掘的建模方法,各种各样的数据挖掘模型算法。来从数据当中提取信息。第五个阶段是评估我们建立的模型并不是一定靠谱的,一定就能够用的,一定要通过评估,如果模型经过评估是正确的,那么就可以用于后续序目中。最后的步骤是数据挖掘模型的部署,应用部署到生产环境里面去解决实际业务问题。

下面我们来讨论一下学者最容易问的一个问题,数据挖掘与数据分析到底有什么区别?

 

三、数据挖掘与数据分析的区别

我们把数据挖掘认为是数据驱动的一种方法,数据分析属于传统的的统计学,是人为系统,前者是数据渠道,而后者是认为驱动的。这两者的区别从字面上大家可以去理解一下,第一个是数据是主动的,一个是人是主动的。那么这俩者的区别通过一个直观的例子的帮助同学们理解。

那么下面我们来看一下垃圾邮件是如何识别的这个例子,如果使用数据分析来识别垃圾邮件,那一般会从邮件的内容特征,它的用词特征,邮件的发送时间,来源主体来判断一封邮件。

如果是数据驱动,用数据挖掘的方法在完全另外的一套过程,一般先需要标注一些样品邮件,只要标注这封邮件是不是垃圾邮件,不是垃圾邮件标成no,是垃圾邮件标成yes,或者标成一,另外一个标成零。然后把样本数据给分类模型,有分类模型去判断这封邮件是不是垃圾邮件。这一个概念的理解可能刚开始有点抽象,那么希望通过后面课程的学习,大家一定要能够清楚数据挖掘和传统的统计分析的区别,我们刚刚学过了数据挖掘的基本概念,我们知道数据挖掘不是一个纯粹的技术问题,他是有一套系列的构成标准。

1. 应用场景

我们把数据挖掘认为是数据驱动的一种方法,数据分析属于传统的的统计学,是人为系统,前者是数据渠道,而后者是人为的。这两者的区别,从字面上大家可以去理解一下,第一个是数据是主动的,后一个是人是主动的。那么这俩者的区别通过直观的例子的帮助同学们的理解。那么下面我们来看一下垃圾邮件是如何识别的这个例子,如果使用数据分析来识别垃圾邮件,那一般会从邮件的内容特征,它的用词特征,邮件的发送时间,来源主体来判断一封邮件是不是垃圾邮件?如果是数据驱动,用数据挖掘的方法是完全另外的一套过程,一般先需要标注一些样品邮件,只要标注这封邮件是不是垃圾邮件,是垃圾邮件标为yes,不是垃圾邮件标成no。或者标成1,另外一个标成0,然后把样本数据给分类模型,由分类模型去判断这封邮件是不是垃圾邮件。这一个概念的理解可能刚开始有点抽象,那么希望通过后面课程的学习,大家一定要能够你清楚数据挖掘和传统的统计分析的区别,我们刚刚学过了数据挖掘的基本概念,我们知道数据挖掘不是一个纯粹的技术问题。

后者过程的标准按照我们学过的过程标准,可以分成六个步骤,通过下面一个英文场景再来回顾一下,大家看一下下面这张表,我们首先看第一个步骤是商业理解,那么这是一个判断用户他的信用状况的一个商业问题。第二个是数据理解,那么我们看一下这张表,每一行是一个客户的基本信息,然后他的属性有性别,里面的值是male和female以及婚姻状况等。single的收入,是一个连续值,关键一个属性小,信用不良里面指的是yes和no,分别表示信用是好和不好。然后第三个步骤是数据准备,哪怕这份表格已经把数据给我们准备好了,但是我们要注意我们左边一张表,右边一张表,我们将数据分成两部分,一部分是训练期,一部分是测试几点,是为了以后对模型进行评估的。然后第四个步骤是建模及建筑模型、建立模型,具体如何建立,这是我们课程要学习的重点,我们模型建立好了以后,如果经过评估以后,模型比较正确,那么模型就可以进行进行部署应用。

image.png

2.数据挖掘的数据表示

那么我们对于刚刚的例子里面,再理解一下数据挖掘当中需要使用的数据的表示是什么样子,及数据一般是什么样的形式,刚刚看到的数据是一张二维表,那么我们再看一下这张PPT里面的例子,一般做数据挖掘,我们会将一个整体的数据,比如说用x表示,它表示一个二维表或者一个矩阵。我们会将数学分成两部分,一部分叫训练集training set,一部分是测试集。是连着的比例的话,没有一个标准的答案,一般情况下面70%用于训练,把30%用于测试。那么大家特别要注意我们刚刚的判断用户信用状况的例子里面,最后面那一列信用状况特别重要,我们一般为了理解数据挖掘,会把那一列单独拿出来,用y表示,那么y就是我们要做数据挖掘里面最重要的一个判断的一个字段,同样的y也对应着与x也分成训练集和测试集,我们现在脑子里面先放这样一些问题,那么在我们时候在整个样本数据里面,首先y有无和,这是一个问题。第二个问题,如果有个y的话,它里面的值是字符型的,另外一种如果只是数字性的,那将会是什么样的数据挖掘方法?那么另外一种如果一门数据里面没有小y,那又是什么样的数据挖掘方法?因为我们要讲到数据挖掘的算法的分类,所以大家也要以样本数据分成两部分,大的样本的属性数据,y是样本的最关键的指标类别数据,二者的关系进行数据挖掘算法的分类,这样我们以后理解起来就比较方便。所以大家要重点考虑在整个样本数据里面有没有y,这作为我们学习的一个很重要的一个抓手。

image.png

 

四、数据挖掘算法/模型的分类

样本数据中有特别的一列,这一列我们目前叫做y,按照有无y可以把数据挖掘算法分为有监督的数据挖掘模型和没有有监督数据化挖掘模型,现在样本数据中有y这一列,有监督数据的模型又可以分为分类算法和预测算法,分配算法是指y的取值是字符型的分类。算法具体又有在回归判别分析,决策数,神经网络算法进为0。这是限量集的,如果y的取值是数字性的话,运程方法和历史方法。

里面又有回归分析,回归数,时间,网络算法等等,如果没有y的话,在五千多的数据挖掘模型,有描述与可视化分析。我们后面要详细讲解的,还有关联分析。关联分析里面最重要的是关联规则,后面也要重点讲解另外5600的数据挖掘模型,还有异常检测。

总结一下:样本数据是一张二维表,每一行是一个样本,每一列是样本的一个属性,数据中有很特别的一列,我们单独把他拿出来。那么剩下的样本属性数据把它叫做大x。用大x和小y的原因是因为样本属性的数据是一张二维的表,是一个矩阵,所以用x表示。特别的一列是一个一维的向量,用小y表示在之中每一行,每一列是样本的一个属性。如果有小y的话,我们叫做有监督的数据化者模型,没有小y的话,我们叫做无监督的数据挖掘模型。有小y,它的取值如果是字符型的话就是分类算法,如果它的取值是数值型的话,这是预测算法。如果没有小y的话,那么看我们研究的对象,如果是样本和样本之间的关系的话,最常见的是距离分析,若研究的是属性和属性的关系的话,常见的是关联。希望大家能够记住这张图,可以非常好的帮助理解数据挖掘的算法的分类。数据化挖掘分为无监督和有监督俩大类。当然数据挖掘的算法的分类还有其他一些标准那么我们在这里就不相信展开了,大家可以看一些资料,可以进一步去理解。

image.png

五、总结

首先我们给数据挖掘进行了定义,回忆一下,可以从几个层次来理解,一个是数据,数据前面有那么多定义,说明数据是非常复杂的。数据只有经过处理后能够使用。再一个层次,我们数据挖掘,挖掘它的知识是隐藏在其中的,是人们视线不知道的,但是又是有用的。

数据挖掘不是自然科学,它是一个概率,它只是对于特定问题的发现。数据挖掘不是存在于一个技术,它是一个标准,这个标准有很多,我们介绍了一个跨行业数据挖掘构成的crisp-dm标准,这个标准分为六个阶段,第一阶段是数据商业理解,然后是数据理解,再是数据准备,然后进行建模,建模搞了以后要进入评估是否正确,就可以部署应用了。介绍了数据挖掘与传统统计分析的区别,大家要注意这个思考点,一个是数据驱动,一个是人为驱动,刚开始学的时候可能有点抽象。

关于数据挖掘的算法的分类,我们给大家一个技巧,我们按照整个样本数据,它有一个很特别的一列叫做小y,其他的属性数据叫大x,思考有没有小y作为一个抓手,如果有小y的话,就是有监督数据挖掘算法。如果没有小y的话,就是无监督的挖掘算法。组织算法有小y,如果小y取值是字符型的话,就是分类算法。小y取值是数字型的话,主要是回归算法。

如果没有小y的话,我们研究的是样本和样本之间关系的话,那主要就是距离算法。没有小y,如果研究的是属性和属性之间的关系的话,主要就是观点规则。

相关文章
|
2月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
277 0
|
2月前
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
94 3
|
运维 安全 算法
数据仓库与数据挖掘(3)|学习笔记
快速学习数据仓库与数据挖掘(3)
103 0
数据仓库与数据挖掘(3)|学习笔记
|
监控 数据可视化 搜索推荐
数据仓库与数据挖掘(2)|学习笔记(二)
快速学习数据仓库与数据挖掘(2)
154 0
数据仓库与数据挖掘(2)|学习笔记(二)
|
机器学习/深度学习 传感器 自然语言处理
数据仓库与数据挖掘(2)|学习笔记(一)
快速学习数据仓库与数据挖掘(2)
88 0
数据仓库与数据挖掘(2)|学习笔记(一)
|
数据挖掘 大数据 数据处理
数据仓库与数据挖掘(1)|学习笔记
快速学习数据仓库与数据挖掘(1)
110 0
数据仓库与数据挖掘(1)|学习笔记
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
137 0
数据挖掘概述-4|学习笔记
|
存储 机器学习/深度学习 人工智能
数据挖掘概述 -1|学习笔记
快速学习数据挖掘概述 -1
139 0
数据挖掘概述 -1|学习笔记
|
机器学习/深度学习 SQL 算法
数据挖掘概述-5|学习笔记
快速学习数据挖掘概述-5
143 0