跟我一起数据挖掘(5)——数据类型

简介:

1、数据对象

相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。

属性:

属性可以标称的、二元的、序列的或数值的。

标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。

二元属性:就是我们常说的bool属性。一种情况是两种属性不带权重,对结果无影响,比如男、女。另外一种是有偏重,比如是否得病,一种表示得病,一种表示未得病。

序列属性:对于记录不能客观度量的主观质量评估,序列属性是有用的。比如用户满意度可以分为0 不满意 1 满意 2 非常满意。

二元和序列属性都是定性的,它们只描述对象的特征,而不给出实际的大小和度量。

数值属性:

与上面不同的是,数值属性是定量的。

1)区间标度

例如温度可以有零上多少度,零下多少度,也可以表示某天的温度高低的最大值和最小值。区间标度属性的中位数、众数和均值都是有意义的。

2)比率标度

比如说一个值是另一个值的倍数,或比率,例如某部作品的字数、章节数等。所以求这些值之间的均值、中位数和众数都是有意义的。

离散属性和连续属性:

在机器学习领域通常分为这两种属性值。例如图书的章节号就是一个离散属性。

2、数据的基本统计描述

对于特定的属性,我们首先关心的是属性的值大部分落在何处。

比如网站的访问页面,某行业的薪水构成等。

最常用的办法就是求平均值,相当于SQL中的AVG。

有的时候需要在每个值上边加上对应的权重,所以需要加权算术平均值,公式为:

如果想去掉某些值对整体均值的影响,则可以用截尾均值,比如某些高管的薪水比普通员工高很多,则会拉高整体均值的水平。截尾均值可以去掉明显离群的偏高或者偏低的值,然后得到更为准确的均值信息。

而中位数,一般就是指一组数中的中间的数,一般表示数据的倾斜趋势。

众数是另一种中心趋势度量,它可以标识出一组数中出现最多的数。

极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。。移动极差(Moving Range)是其中的一种。

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。

四分位数的极差相当于Q3-Q1。

五数概括:

运用五数概括法的最简单的方式是首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。

五数概括法即用下面的五个数来概括数据:
最小值;
第1四分位数(Q1);
中位数(Q2);
第3四分位数(Q3);
最大值。

有关五数分布的快速计算可以使用R语言的fivenum()函数。

标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

目录
相关文章
|
数据挖掘
《R语言数据挖掘:实用项目解析》——第1章,第1.3节数据类型转换
本节书摘来自华章出版社《R语言数据挖掘:实用项目解析》一书中的第1章,第1.3节数据类型转换,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),更多章节内容可以访问云栖社区“华章计算机”公众号查看 1.3 数据类型转换 数据类型有很多种,比如数值型、因子型、字符型、逻辑型等。
1404 0

热门文章

最新文章