开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):Why data mining】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/14494
Why data mining
继续数据挖掘与数据仓库的学习,关于知识挖掘的过程,业内并没有一个明显的界定,不同的行业不同背景的人对知识发掘的理解是不一样的。
首先,从数据管理的角度,也就是从数据库和数据仓库的角度,向大家介绍知识发现的过程。
知识发现的过程包括数据清理,数据集成,数据的选择和变化,数据挖掘和知识评估这几个阶段。
数据清理主要是把数据中的脏数据通过清理变成有干净的数据,因为现实数据是存在噪音异常,甚至是存在错误的。数据挖掘不能直接在这些有问题的数据上进行,所以首先要进行数据清理,因为数据挖掘所使用的数据,可能来源于多个数据源,因此,需要把这些来源于不同地方的数据集成。
经过数据清理和集成的数据,把它放到数据仓库中进行统一的管理。在数据仓库中,面向特定的数据挖掘任务,需要进行选择,选择和任务相关的数据进行数据挖掘。
由于数据挖掘算法对数据格式是有要求的,有些算法需要要求数据是离散的,因此,必须要把数据转换成能直接运用数据挖掘算法的数据,然后再得到和数据相关任务符合的基础上进行数据挖掘,从而得到相关的模式或知识。
这些模式和知识经过知识评估,最后得到我们想要的知识。在数据挖掘过程中,可能会产生数据仓库,和任务相关的数据,以及产生一些重数据,挖掘技术的模式以及最后想要得到的知识。
在学习知识挖掘过程的知识点的时候,有两点需要注意,第一点就是在数据挖掘之前的步骤,把它称之为数据应预处理,数据预处理占道整个过程的70%以上,也就是数据挖掘的70%以上的人力和精力都会消耗在数据预处理上。
其次,要注意数据挖掘过程不可能是一帆风顺的,通过知识评估,有可能会发现得到的知识或模式,他们不是有效的。这个时候需要有效分析错误产生的原因,到底是之前哪个环节没有做好,数据清理还是数据转换没有做好,是不是数据挖掘的算法不合适?甚至是不是数据清理的工作没有做好?如果这些环节都考虑到了,依然没有得到合适的知识和模式,那甚至需要考虑使用的数据是不是有效的?是不是考虑的信息比较少?需要别的数据员的信息进行分析,也就是说,在知识发现的过程中,各种步骤是迭代循环的,必须在数据挖掘中倒回到各个步骤,查看到底是哪个环节产生的问题。
从数据管理的角度,对知识发掘的过程进行理解,来看一下在商业智能这个领域对知识发现过程的理解。
她的最底层依然是收集数据,在收集数据后,是对数据进行预处理,数据的集成,然后会做一个叫数据探索的工作,之后再做数据挖掘,得到数据之后,再做一个数据的展示,最后把得到的知识用于决策。在商务智能领域,能够发现这是挖掘多了两个环节,一个是数据探索,一个是数据展示,数据探索是指利用数据可视化,和数据统计感受使用的数据,分析状态和分布。数据展示是指在得到挖掘结果之后,把数据和数据挖掘的结果,用图表展示出来,也就是说,在商务智能领域,数据挖掘是非常重视数据可视化阶段的,那为什么数据可视化在商业智能领域这么重要呢?
这主要是因为商务智能中,数据发现主要是为管理人员提供服务的,管理员会用这些知识去做决策,数据挖掘的算法并不是非常的专业,所以必须要用数据可视化的方式将数据和得到的结果,用图表的形式展示给用户,这样管理人员就能更好地理解数据挖掘的结果,也便于他们有效的做决策,这就是在商务智能领域数据挖掘的过程。再看一下,从机械学习的角度学习数据挖掘的过程,
数据挖掘的过程主要分为三步,在数据挖掘之前的步骤被称为数据预处理,在数据挖掘之后,把这些步骤叫做数据后处理,数据的预处理包含了数据的集成,正则化,特征范围选择等操作,后处理包含了模式的评估,模式选择,模式的解释和模式的可视化。