Machine Learning-L2-数据特征

简介: Machine Learning-L2-数据特征

数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。


1. 特征类型


数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。


标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。


标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。

二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。

序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。

数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。


2. 特征的相关性度量


评估一个属性的值如何随另一个变化:


标称属性:使用χ 2 检验;

数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。


2.1 χ 2 检验


假设标称属性A 有c 个不同值 a1, a2 , . . . , ac,B 有r 个不同值 b1, b2 , . . . , b r

A 和B 描述的数据元组可以用一个相依表显示,( A i , B j ) 表示( A = ai , B = bi) 的联合事件,每个可能的联合事件都在表中有自己的单元。


image.png

其中,o i j 是联合事件( A i , B j ) 的观察频度(实际计数),而e i j  是( A i , B j )的期望频度。


image.png

χ 2 统计检验假设A 和B是独立的。检验基于显著水平,具有自由度( r − 1 ) × ( c − 1 ) 。如果可以拒绝该假设(拒绝假设的值由χ 2分布上百分点表给出),则A和B是统计相关的。


image.png


期望频率根据两个属性的数据分布计算,如


image.png

image.png



对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于


image.png


可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。


2.2 Pearson 系数


数值属性A 和B 的Pearson积矩系数(Pearson’s product moment coefficient)


image.png

其中,ai bi分别是元组i 在属性A 和B 上的值,A 和 B 分别是的均值:


image.png

σ Aσ b分别是A 和B 的标准差:


image.png

image.pngA B 叉积和(即对于每个元组,A的值乘以该元组B的值)。

image.png

 r A , B > 0  : A 和B 正相关,A 的值随着B 的值增加而增加。

 r A , B< 0:A 和B 负相关,A 的值随着B 的值增加而减少。

 r A , B= 0 :A 和B 不相关,A 和B相互独立。


相关性并不蕴含因果关系,即A 和B 是相关的,并不意味着A 导致B 或B 导致A 。


2.3 协方差


数值属性A 和B的协方差(covariance)


image.png

可以证明

image.png

如果A 和B 趋于一起改变,则A 和B 的协方差为正;否则为负。

如果A 和B 是相互独立的,则E ( A ⋅ B ) = E ( A ) ⋅ E ( B ) 协方差为0,不具有相关性。


2.4 相关与相互独立


  • 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
  • 相互独立必不相关:
  • 不相关并非相互独立
  • 不相关可能独立
  • 不相关可能不独立
  • 对于服从二维正态分布的随机变量:不相关等价于相互独立
相关文章
|
7月前
|
机器学习/深度学习 运维 算法
Machine Learning机器学习之向量机(Support Vector Machine,SVM)
Machine Learning机器学习之向量机(Support Vector Machine,SVM)
|
算法 IDE 关系型数据库
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
Machine Learning-L13-频繁模式挖掘
|
机器学习/深度学习 算法 vr&ar
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
Machine Learning-L19-条件随机场
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L20-降维
Machine Learning-L20-降维
Machine Learning-L20-降维
|
存储 编解码 算法
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)
Machine Learning-L14-聚类(下)
|
机器学习/深度学习 存储 算法
|
人工智能 算法 关系型数据库
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
Machine Learning-L17-贝叶斯网络
|
算法
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
Machine Learning-L5-回归分析
|
机器学习/深度学习 自然语言处理 算法
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
Machine Learning-L16-概率图模型
|
机器学习/深度学习 算法 Python
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归
Machine Learning-L6-逻辑回归