数据理解与预处理-5|学习笔记

简介: 快速学习数据理解与预处理-5

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践情感分析 上】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15443


数据理解与预处理-5

 

内容介绍:

一、数据挖掘

二、数据、信息、知识和智慧

三、举例

四、数据

 

一、数据挖掘

数据挖掘从字面构成看:一个是数据,一个是挖掘。学习数据挖掘首先要了解数据,学习对数据的理解以及数据的预处理。

这一讲的内容主要有数据极其类型、数据的质量、数据的预处理、和对后面的数据挖掘算法应用很重要的样本数学的相似性与相应性的相关知识。

学习这部分知识以及学习后面的数据挖掘,还需要补充一些数学统计、概率方面的知识。例如需要了解样本的集中趋势、离散趋势、样本的分布。对于这些知识,不熟悉的进行补充。

在统计的基本概念中,前面的总体和样本集中趋势、离散趋势是比较容易理解的,但对于分布要花时间去再学习。

例如在分布中,知道较多的是正态分布,但正态分布下面的偏度和分布也要进行了解。

image.png一个正常的正态分布,图形中是有偏度的(一个往左偏,一个往右偏),这说明是偏度的问题,如图看到偏度小于零和偏度大于零,这是它的偏的情况。

image.png正常的正态分布是中间这一条方圆的线,如图,它的波峰可以向上也可以向下。向下也很高也可以很低,高时是风度大于零,低时是风度小于零,这是有关风度的概念。而上一张图是有关偏度的概念。不清楚的查询资料或复习有关统计的基本概念。

 

二、数据、信息,知识和智慧

image.png在学习数据及其类型前,先了解几个概念的区别。

数据、信息,知识和智慧四个概念间的区别是什么?对于数据理解越深,数据间的联系越多,数据到信息到知识到智慧的过程。

数据是孤立、互不关联的客观事实,文字,数据和符号是数据data。信息是对数据进行系统的采集、组织、整理和分析的结果,目的使数据成为一种结构化的,有序的且具有相关性的产品。

知识是针对特定用户的需求和问题,在信息分析的基础上提供解决方案,知识有显性和隐性。

现在提到很多有关智慧的概念,例如智慧图书馆、智慧城市、智慧交通、智慧教师。智慧指人对事物的发展基础具有前瞻性的看法,能够洞察事物的本质和规律。

image.png如果知识是静态的,智慧就是动态的。智慧是利用掌握的知识,做出前瞻性的判断,能够更深的洞察事物的本质和规律。

进一步了解数据和智慧的过程。假如有大量的交易数据,记录下来后是数据,从数据里进行各种加工变成信息产品。比如invent资讯、各种财经新闻后接触者可以做出决策。

对于信息加上领域,加上问题还有需求,能够解决具体问题时,就变成知识了。从知识到智慧这一步很难,它难在于知识也许懂,但是后面要进行行动时,实际上是比较困难的。

 

三、举例

比如经常运动有助于健康。但有多少人能够坚持?学生说要在学校多花时间学习,少玩游戏,但是游戏的诱惑力几个学生能够完全抗拒。新冠病毒,在2003年人们已经受到SARS非常大的侵害和痛苦,一旦有相似的冠状病毒要足够重视。以上讲述基本的概念以及它们的区别,下面来具体了解数据及其类型。

 

四、数据

数据是数据对象和它们属性的集合。数据对象Objects是二维表里的一条条记录,一行行数据。属性是二维表里面的每一列。整体是数据对象和他们属性的结合,数据对象是二维表中的每一行数据,属性是二维表里面的每一列,每一个属性。

image.png属性是每个数据对象的特征或特性,二维表中的每一个客户是否还款。他的婚姻状况、税后收入、是否有欺诈欺骗行为。属性是数据对象的特性和特征。还有其他一些属性的举例,例如眼睛的颜色、温度等等。属性有很多名字,除了属性本身之外还可以称为变量、字段、特征、特性。

属性的集合来描述数据对象。数据对象有很多名字可以称作记录样本点、案例样本、实体实例。遇到这些概念时,在表达方面有时说样本,有时说记录,有时会说实体,有时会说案例,但是表达的都是同一个含义。

接下来了解一下属性值,给它赋的值叫做属性值。属性值是附给一个属性的数字的或字符的值。主要考虑的有两大类,数字的和字符的值。在讲数值挖掘算法的分类时,它分为有监督和无监督。有监督表示有小Y,小Y的值取数字时一般为预测的算法,主要的是回归算法。小Y的值取字符时,主要是分类算法。

接下来再进一步了解属性和属性值之间的区别。属性和属性值相同的属性可以意识到不同的属性值。

怎么理解呢?看如下举例,比如对于高度来讲,可以用英尺或者米度量,英尺和米就是不同的属性值,但是都能付给高度这个属性,相同的属性可以取不同的属性值。

另外不同的属性也可以映射到同一组值。不同的属性是不一样的,但取的值可以在同一组值中。比如一个数据对象的ID,人的年龄可以取整数值,但是他们的属性是不一样的。一个是用户的编号,一个是用户的年龄,但是要知道。一个用户的编号ID是无线的,但年龄会有最大值和最小值。

刚刚学习了属性值的类型,从大的方面来说有两大类:一类是字符型,一类是数值型。但是细分一下,可以分为标称、序数、区间和比例。这个划分标准是按照在属性值上可以进行哪些操作来划分的。

第一种标称属性类型,它主要是在这类数据上面进行判断是不是相等,它没有大小,不能进行加减乘除。例如编号,眼睛的颜色有这些编码,这些数据值,是不能够判断大小,可进行算术计算的。

第二类是序数,例如一些等级。比如按照一到十来给某些食品进行等级划分,葡萄酒的品质、土豆饼的品质等,可以划分等级的,是有顺序有大小的。再例如身高可以是高、中等、矮,这是有顺序的。在这个数据上可以比较大小,当然也可以判断是否相等。但是不能进行加减乘除等计算的。

第三类数据叫区间数据,例如日期、温度等等。它是可以进行算术运算的,比如温度加几度减几度。

第四类是比率,例如人的身高、时间、一些计数等等。这一类型的数据既可以进行判断它的大小,又可以进行算术计算。

所以区间和比率这两个类型的属性有什么区别呢?注意区间的数据可以进行算术计算,但是一般配加减计算。比如说温度乘以温度,似乎没有什么概念,但对于比率的数据来讲,那它的计算范围很广。可以加减,可以乘除,可以各种计算。

刚刚讲解在数据之上可以进行的操作,将属性划分四个类型,标称、序数、区间和比率。那么接下来,在数据属性类型上面进行的操作,这些操作分为四类。第一类叫Distinctnss,判断是否相等;第二类Order,判断大小顺序,第三类是加减,第四类是乘除。

对于刚讲的标称的数据属性Nominal attribute,它只可以判断是否相等;而对于前面讲的序数的属性,Ordinal attribute,它可以判断是否相等,也可以判断大小顺序;对于区间数据属性,既可以判断是否相等还有大小,也可以做加减的运算。对于比率数据来讲,以上四种运算都可以进行。

下面来介绍一下属性类型的变换规律,四个属性类型标称、序数、区间和比率。可以分为两组,一组是分类的,一组是数值的。分类的是它的内容是相当于字符的,是不能进行算数计算的。数值的是可以进行算数计算的,分类的一般用于做定性的分析,数值的一般用于定量的分析。

对于标称数据,它的变换规律可以实现一对一变换。例如对于所有雇员的ID的编号进行重新赋值,这个不会出现任何的不同。

对于序数的变换,它的变化规律是用新值等于旧值进行一个函数处理,这个处理的函数是一个单调函数。包括好,较好,最好这样有一定顺序的属性,可以用123或者ABC来表示。等于用一个函数把旧的值好、较好、最好,替换成了新值123。对于区间数值的变换规律是,用新值等于旧值乘以一个系数,可以再加上一个系数,而系数a和B是一个常数。例如华氏度和摄氏度的转换。

对于区间的变换,在后面的数据挖掘的数据库中经常会用到。比如说把面积的平方米换成平方尺,X方的值,或者把一亩地换成多少平方米。

对于比率的变换,变换的规律是新值等于旧值乘一个系数,比如系数a,长度可以米和英尺度量的。而面积、米和亩等于也是一个比率的变换。

属性有连续属性和离散属性。离散属性,它是有限的和可数的值的集合构成的。例如邮政编码、计数等等都是离散属性。离散属性的取值通常是整数,一般不会用小数。

特别要注意:一种特别的离散属性是二元类型,取值是两个,比如yes和no、真和假、零和一。这个在机器学习和数据挖掘里面特别重要,一般也把它叫做二元分类。

对于连续属性,它是取实数值,它的取值可以有小数,是无限的。比如温度、高度、长度等等。

相关文章
|
2月前
|
编译器 程序员 Linux
C++系列九:预处理功能
C++系列九:预处理功能
|
2月前
|
编译器 C语言
预处理深入
预处理深入
22 0
预处理深入
|
2月前
|
Linux C语言 Windows
C预处理分析
C预处理分析
26 2
|
2月前
|
编译器 C++
c++预处理器
c++预处理器
24 0
|
11月前
预处理的学习
预处理的学习
37 0
|
前端开发
Less预处理——初识Less
Less预处理——初识Less
|
编译器
【学习笔记之我要C】预处理
【学习笔记之我要C】预处理
64 0
|
编译器 C++
深入理解预处理器
深入理解预处理器
深入理解预处理器
|
自然语言处理 编译器 C语言
C/C++ | 预处理详解
所谓预处理是指在进行编译的第一遍扫描(词法扫描和语法分析)之前所作的工作。预处理是`C语言`的一个重要功能,它由预处理程序负责完成。当对一个源文件进行编译时,系统将自动引用预处理程序对源程序中的预处理部分作处理,处理完毕自动进入对源程序的编译
238 1
C/C++ | 预处理详解
|
机器学习/深度学习 算法 数据可视化
数据理解与预处理-4|学习笔记
快速学习数据理解与预处理-4
126 0
数据理解与预处理-4|学习笔记