数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。
1. 特征类型
数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。
标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。
标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。
二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。
序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。
数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。
2. 特征的相关性度量
评估一个属性的值如何随另一个变化:
标称属性:使用χ 2 检验;
数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。
2.1 χ 2 检验
假设标称属性A 有c 个不同值 a1, a2 , . . . , ac,B 有r 个不同值 b1, b2 , . . . , b r
A 和B 描述的数据元组可以用一个相依表显示,( A i , B j ) 表示( A = ai , B = bi) 的联合事件,每个可能的联合事件都在表中有自己的单元。
其中,o i j 是联合事件( A i , B j ) 的观察频度(实际计数),而e i j 是( A i , B j )的期望频度。
χ 2 统计检验假设A 和B是独立的。检验基于显著水平,具有自由度( r − 1 ) × ( c − 1 ) 。如果可以拒绝该假设(拒绝假设的值由χ 2分布上百分点表给出),则A和B是统计相关的。
期望频率根据两个属性的数据分布计算,如
对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于
可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。
2.2 Pearson 系数
数值属性A 和B 的Pearson积矩系数(Pearson’s product moment coefficient)
其中,ai 和bi分别是元组i 在属性A 和B 上的值,A 和 B 分别是的均值:
σ A和 σ b分别是A 和B 的标准差:
是A B 叉积和(即对于每个元组,A的值乘以该元组B的值)。
r A , B > 0 : A 和B 正相关,A 的值随着B 的值增加而增加。
r A , B< 0:A 和B 负相关,A 的值随着B 的值增加而减少。
r A , B= 0 :A 和B 不相关,A 和B相互独立。
相关性并不蕴含因果关系,即A 和B 是相关的,并不意味着A 导致B 或B 导致A 。
2.3 协方差
数值属性A 和B的协方差(covariance)
可以证明
如果A 和B 趋于一起改变,则A 和B 的协方差为正;否则为负。
如果A 和B 是相互独立的,则E ( A ⋅ B ) = E ( A ) ⋅ E ( B ) 协方差为0,不具有相关性。
2.4 相关与相互独立
- 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
- 相互独立必不相关:
- 不相关并非相互独立
- 不相关可能独立
- 不相关可能不独立
- 对于服从二维正态分布的随机变量:不相关等价于相互独立