Why data mining| 学习笔记

简介: 快速学习 Why data mining。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):Why data mining】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/14494


Why data mining

 

继续数据挖掘与数据仓库的学习,关于知识挖掘的过程,业内并没有一个明显的界定,不同的行业不同背景的人对知识发掘的理解是不一样的。

首先,从数据管理的角度,也就是从数据库和数据仓库的角度,向大家介绍知识发现的过程。

image.png

知识发现的过程包括数据清理,数据集成,数据的选择和变化,数据挖掘和知识评估这几个阶段。

数据清理主要是把数据中的脏数据通过清理变成有干净的数据,因为现实数据是存在噪音异常,甚至是存在错误的。数据挖掘不能直接在这些有问题的数据上进行,所以首先要进行数据清理,因为数据挖掘所使用的数据,可能来源于多个数据源,因此,需要把这些来源于不同地方的数据集成。

经过数据清理和集成的数据,把它放到数据仓库中进行统一的管理。在数据仓库中,面向特定的数据挖掘任务,需要进行选择,选择和任务相关的数据进行数据挖掘。

由于数据挖掘算法对数据格式是有要求的,有些算法需要要求数据是离散的,因此,必须要把数据转换成能直接运用数据挖掘算法的数据,然后再得到和数据相关任务符合的基础上进行数据挖掘,从而得到相关的模式或知识。

这些模式和知识经过知识评估,最后得到我们想要的知识。在数据挖掘过程中,可能会产生数据仓库,和任务相关的数据,以及产生一些重数据,挖掘技术的模式以及最后想要得到的知识。

在学习知识挖掘过程的知识点的时候,有两点需要注意,第一点就是在数据挖掘之前的步骤,把它称之为数据应预处理,数据预处理占道整个过程的70%以上,也就是数据挖掘的70%以上的人力和精力都会消耗在数据预处理上。

其次,要注意数据挖掘过程不可能是一帆风顺的,通过知识评估,有可能会发现得到的知识或模式,他们不是有效的。这个时候需要有效分析错误产生的原因,到底是之前哪个环节没有做好,数据清理还是数据转换没有做好,是不是数据挖掘的算法不合适?甚至是不是数据清理的工作没有做好?如果这些环节都考虑到了,依然没有得到合适的知识和模式,那甚至需要考虑使用的数据是不是有效的?是不是考虑的信息比较少?需要别的数据员的信息进行分析,也就是说,在知识发现的过程中,各种步骤是迭代循环的,必须在数据挖掘中倒回到各个步骤,查看到底是哪个环节产生的问题。

从数据管理的角度,对知识发掘的过程进行理解,来看一下在商业智能这个领域对知识发现过程的理解。

image.png

她的最底层依然是收集数据,在收集数据后,是对数据进行预处理,数据的集成,然后会做一个叫数据探索的工作,之后再做数据挖掘,得到数据之后,再做一个数据的展示,最后把得到的知识用于决策。在商务智能领域,能够发现这是挖掘多了两个环节,一个是数据探索,一个是数据展示,数据探索是指利用数据可视化,和数据统计感受使用的数据,分析状态和分布。数据展示是指在得到挖掘结果之后,把数据和数据挖掘的结果,用图表展示出来,也就是说,在商务智能领域,数据挖掘是非常重视数据可视化阶段的,那为什么数据可视化在商业智能领域这么重要呢?

这主要是因为商务智能中,数据发现主要是为管理人员提供服务的,管理员会用这些知识去做决策,数据挖掘的算法并不是非常的专业,所以必须要用数据可视化的方式将数据和得到的结果,用图表的形式展示给用户,这样管理人员就能更好地理解数据挖掘的结果,也便于他们有效的做决策,这就是在商务智能领域数据挖掘的过程。再看一下,从机械学习的角度学习数据挖掘的过程,

image.png

数据挖掘的过程主要分为三步,在数据挖掘之前的步骤被称为数据预处理,在数据挖掘之后,把这些步骤叫做数据后处理,数据的预处理包含了数据的集成,正则化,特征范围选择等操作,后处理包含了模式的评估,模式选择,模式的解释和模式的可视化。

相关文章
|
Oracle 关系型数据库 网络安全
笔记:2 Day + Real Application Clusters Guide
ndy database 远程awr Domain server cluster 对ASM 的增强,使ASM以服务的方式进行提供。
109 0
《The 10 Statistical Techniques Data Scientists Need to Master》电子版地址
The 10 Statistical Techniques Data Scientists Need to Master
70 0
《The 10 Statistical Techniques Data Scientists Need to Master》电子版地址
《40 Must Know Questions to test a data scientist on Dimensionality Reduction techniques》电子版地址
40 Must Know Questions to test a data scientist on Dimensionality Reduction techniques
98 0
《40 Must Know Questions to test a data scientist on Dimensionality Reduction techniques》电子版地址
|
算法 搜索推荐 数据挖掘
What is data mining| 学习笔记
快速学习 What is data mining。
What is data mining| 学习笔记
|
搜索推荐 数据挖掘 开发者
Data mining process| 学习笔记
快速学习 Data mining process。
Data mining process| 学习笔记
|
数据可视化 数据挖掘 开发者
Data-Basic Statistical Descriptions of Data| 学习笔记
快速学习 Data-Basic Statistical Descriptions of Data。
Data-Basic Statistical Descriptions of Data| 学习笔记
|
数据挖掘 开发者
Data-Measuring Data Similarity and Dissimilarity| 学习笔记
快速学习 Data-Measuring Data Similarity and Dissimilarity。
Data-Measuring Data Similarity and Dissimilarity| 学习笔记
Data Structures and Algorithms (English) - 7-8 File Transfer(25 分)
Data Structures and Algorithms (English) - 7-8 File Transfer(25 分)
112 0
|
存储 NoSQL 关系型数据库