开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):What is data mining】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/14492
What isdata mining
简介部分,我们学习什么是数据挖掘,为什么要学习数据挖掘,数据挖掘过程,数据挖掘中使用的数据,数据挖掘的任务,知识的评估,这六个方面的内容。
什么是数据挖掘?
先来看一下数据挖掘的概念,数据挖掘就是从大量的数据中提取或抽取有趣的模式和知识,在学习这个概念的时候,需要把握两点,第一点是数据挖掘的输入,数据挖掘的输入指的是 data 数据,具备体量巨大的特点,此外,这些数据还可能是高维稀疏,多元易构的。
第二点,数据挖掘的输出,输出是有趣的模式或知识,要求满足有趣,必须要达到以下四个要求,重要,隐含,以前未知和潜在有用。
数据挖掘概念的学习,可以分析哪些数据工作是数据,挖掘哪些数据工作不是数据挖掘,比如在客户数据中查询一个名叫张三的客户信息,虽然这样的操作也是在大量的数据中抽取有用的信息,但是因为张三这个顾客的信息本来就已经存在,并且存放在数据库中,他不是隐藏在数据背后,以前未知的,所以这样的工作并不是数据挖掘。但是如果要找和张三有相似购物性质的客户,这样的操作就是属于数据挖掘。首先,这样的知识是重要有用的,他能运用于推荐系统实现更精准的推荐,其次,这样的数据是必须经过数据挖掘的算法才能得到的,在数据挖掘,算法挖掘这些特征之前,这些特征是未知的,而且这些特征是隐藏在数据背后的,所以这样的操作就是属于数据挖掘的操作。在现实生活中,还有许多和数据挖掘相同含义的名词,比如说知识发现,数据捕捞和数据考古。
为什么要进行数据挖掘?要回答这个问题,必须联系我们所处的时代,现在所处的时代是一个数据爆发增长的时代,在大数据时代,我们身边每天都在产生大量的数据,这主要是因为计算机技术的普及和发展。
比如云计算的普及,改变了IT服务支付消费的方式,计算机的普及,物联网的普及以及信息系统在各行业的普及,都产生了大量的数据。在电商网络购物会产生大量的电商购物行为,在银行存款会产生大量的存款交易数据,由于数据量巨大,传统的数据计量单位比如说兆和吉,已经不能满足对数据计量的要求,所以产生了新的数据计量单位,比如说泽帕。
虽然身边产生了大量的数据,但是因为数据的结构复杂,高维稀疏,所以只有有效的数据能够及时被处理,造成了一个现象,就是大家淹没在数据的海洋里,因此,需要数据挖掘技术,帮助人们从大量的数据中提取有效的数据,这就是为什么需要运用数据挖掘技术。