1、数据对象
相当于类的概念,在销售系统中,对象可以是顾客、商品和销售情况。
属性:
属性可以标称的、二元的、序列的或数值的。
标签属性:例如充值渠道中的各种充值类型,在数据库中表示为0、1、2这种,每个数字代表一个充值渠道,例如:1代表支付宝,2代表微信支付。在这种情况下众数是有意义的,就是出现最多或者最少的数。
二元属性:就是我们常说的bool属性。一种情况是两种属性不带权重,对结果无影响,比如男、女。另外一种是有偏重,比如是否得病,一种表示得病,一种表示未得病。
序列属性:对于记录不能客观度量的主观质量评估,序列属性是有用的。比如用户满意度可以分为0 不满意 1 满意 2 非常满意。
二元和序列属性都是定性的,它们只描述对象的特征,而不给出实际的大小和度量。
数值属性:
与上面不同的是,数值属性是定量的。
1)区间标度
例如温度可以有零上多少度,零下多少度,也可以表示某天的温度高低的最大值和最小值。区间标度属性的中位数、众数和均值都是有意义的。
2)比率标度
比如说一个值是另一个值的倍数,或比率,例如某部作品的字数、章节数等。所以求这些值之间的均值、中位数和众数都是有意义的。
离散属性和连续属性:
在机器学习领域通常分为这两种属性值。例如图书的章节号就是一个离散属性。
2、数据的基本统计描述
对于特定的属性,我们首先关心的是属性的值大部分落在何处。
比如网站的访问页面,某行业的薪水构成等。
最常用的办法就是求平均值,相当于SQL中的AVG。
有的时候需要在每个值上边加上对应的权重,所以需要加权算术平均值,公式为:
如果想去掉某些值对整体均值的影响,则可以用截尾均值,比如某些高管的薪水比普通员工高很多,则会拉高整体均值的水平。截尾均值可以去掉明显离群的偏高或者偏低的值,然后得到更为准确的均值信息。
而中位数,一般就是指一组数中的中间的数,一般表示数据的倾斜趋势。
众数是另一种中心趋势度量,它可以标识出一组数中出现最多的数。
极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。。移动极差(Moving Range)是其中的一种。
四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的得分就是四分位数。
四分位数的极差相当于Q3-Q1。
五数概括:
运用五数概括法的最简单的方式是首先将数据按递增顺序排列,然后很容易就能确定最小值、3个四分位数和最大值了。
有关五数分布的快速计算可以使用R语言的fivenum()函数。
标准差(Standard Deviation) ,中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。