What is data mining| 学习笔记

简介: 快速学习 What is data mining。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):What is data mining】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/14492


What isdata mining

 

简介部分,我们学习什么是数据挖掘,为什么要学习数据挖掘,数据挖掘过程,数据挖掘中使用的数据,数据挖掘的任务,知识的评估,这六个方面的内容。

 

什么是数据挖掘?

image.png

先来看一下数据挖掘的概念,数据挖掘就是从大量的数据中提取或抽取有趣的模式和知识,在学习这个概念的时候,需要把握两点,第一点是数据挖掘的输入,数据挖掘的输入指的是 data 数据,具备体量巨大的特点,此外,这些数据还可能是高维稀疏,多元易构的。

第二点,数据挖掘的输出,输出是有趣的模式或知识,要求满足有趣,必须要达到以下四个要求,重要,隐含,以前未知和潜在有用。

数据挖掘概念的学习,可以分析哪些数据工作是数据,挖掘哪些数据工作不是数据挖掘,比如在客户数据中查询一个名叫张三的客户信息,虽然这样的操作也是在大量的数据中抽取有用的信息,但是因为张三这个顾客的信息本来就已经存在,并且存放在数据库中,他不是隐藏在数据背后,以前未知的,所以这样的工作并不是数据挖掘。但是如果要找和张三有相似购物性质的客户,这样的操作就是属于数据挖掘。首先,这样的知识是重要有用的,他能运用于推荐系统实现更精准的推荐,其次,这样的数据是必须经过数据挖掘的算法才能得到的,在数据挖掘,算法挖掘这些特征之前,这些特征是未知的,而且这些特征是隐藏在数据背后的,所以这样的操作就是属于数据挖掘的操作。在现实生活中,还有许多和数据挖掘相同含义的名词,比如说知识发现,数据捕捞和数据考古。

为什么要进行数据挖掘?要回答这个问题,必须联系我们所处的时代,现在所处的时代是一个数据爆发增长的时代,在大数据时代,我们身边每天都在产生大量的数据,这主要是因为计算机技术的普及和发展。

比如云计算的普及,改变了IT服务支付消费的方式,计算机的普及,物联网的普及以及信息系统在各行业的普及,都产生了大量的数据。在电商网络购物会产生大量的电商购物行为,在银行存款会产生大量的存款交易数据,由于数据量巨大,传统的数据计量单位比如说兆和吉,已经不能满足对数据计量的要求,所以产生了新的数据计量单位,比如说泽帕。

虽然身边产生了大量的数据,但是因为数据的结构复杂,高维稀疏,所以只有有效的数据能够及时被处理,造成了一个现象,就是大家淹没在数据的海洋里,因此,需要数据挖掘技术,帮助人们从大量的数据中提取有效的数据,这就是为什么需要运用数据挖掘技术。

相关文章
|
6月前
|
存储 NoSQL 数据处理
什么是 Data-Centric Applications 架构
什么是 Data-Centric Applications 架构
37 1
|
11月前
|
Oracle 关系型数据库 网络安全
笔记:2 Day + Real Application Clusters Guide
ndy database 远程awr Domain server cluster 对ASM 的增强,使ASM以服务的方式进行提供。
|
数据采集 算法 数据可视化
Why data mining| 学习笔记
快速学习 Why data mining。
59 0
Why data mining| 学习笔记
|
搜索推荐 数据挖掘 开发者
Data mining process| 学习笔记
快速学习 Data mining process。
98 0
Data mining process| 学习笔记
|
数据可视化 数据挖掘 开发者
Data-Basic Statistical Descriptions of Data| 学习笔记
快速学习 Data-Basic Statistical Descriptions of Data。
103 0
Data-Basic Statistical Descriptions of Data| 学习笔记
|
数据挖掘 开发者
Data-Measuring Data Similarity and Dissimilarity| 学习笔记
快速学习 Data-Measuring Data Similarity and Dissimilarity。
151 0
Data-Measuring Data Similarity and Dissimilarity| 学习笔记
Data Structures and Algorithms (English) - 6-14 Count Connected Components(20 分)
Data Structures and Algorithms (English) - 6-14 Count Connected Components(20 分)
114 0
|
传感器 关系型数据库 PostgreSQL
Real-time Monitoring and Alerts for Senior Citizens - Big Data for Healthcare
This article discusses Alibaba Cloud PostgreSQL best practices for healthcare applications. In particular, we will explore how Big Data can be applied.
2450 0
Real-time Monitoring and Alerts for Senior Citizens - Big Data for Healthcare
|
JavaScript 前端开发