协方差
下图即可说明何谓协方差,同时,引出相关系数的定义:
相关系数
如上篇kd树blog所述相关系数 ( Correlation coefficient )的定义是:
(其中,E为数学期望或均值,D为方差,D开根号为标准差,E{ [X-E(X)] [Y-E(Y)]}
称为随机变量X与Y的协方差,记为Cov(X,Y),即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}
,而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数,记为)
相关系数衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。
具体的,如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
- 当相关系数为0时,X和Y两变量无关系。
- 当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
- 当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
根据相关系数,相关距离可以定义为:
这里只对相关系数做个简要介绍,欲了解机器学习中更多相似性距离度量表示法,可以参看上篇kd树blog第一部分内容。
自此,已经介绍完期望方差协方差等基本概念,但一下子要读者接受那么多概念,怕是有难为读者之嫌,不如再上几幅图巩固下上述相关概念吧(来源:大嘴巴满谈数据挖掘):