【数理统计】从协方差到相关系数,原来如此

简介: 【数理统计】从协方差到相关系数,原来如此

1 引入


单变量中出现了很多数据特征统计量。但还有些情况,我们需要研究两个变量之间的关系。比如说在股票投资中我们可以分析两个板块之间的涨跌相关性性情况、房价与土地价格的相关性等。


这类概念,生活中常常使用,所以不过多赘述。

c4f3d0714cd94c3bba74884d62d4ce93.png


一般化

image.png

这里计算的面积是所有的面积和,有正有负,最终数值如果为正即是正相关,反之负相关。更多相关内容,可以参考知乎@马同学参考链接第一条。


2 协方差


用散点图来表示两个变量之间的关系(手机没有防抖,没拍好,见谅!)

image.png

image.png


公式

样本协方差公式

image.png

 

总体数据的协方差

image.png

协方差计算为正值表示x与y存在线性正相关关系,反之类似。学到这里我思考到一个问题,为什么有了协方差还要有相关系数呢?


使用协方差来度量两个变量之间线性关系的强弱存在一个缺陷:


无法根据协方差数值绝对值大小来确定变量之间的关系强弱。


例如:研究公司固定资产投资与利润的关系,固定资产投资计量单位为元时比计量单位为万元时得到的协方差大很多,但是显然两变量之间的相关关系不可能随着计量单位的变化而变化。


3 相关系数


相关系数可以对两个数值变量之间线性关系的相对强度进行度量。


样本相关系数

image.png

总体相关系数

image.png

相关系数的取值在 -1 ~ +1之间,同样,大于0时,意味着两个变量存在线性正相关关系,后面也同理;


绝对值越大,说明两变量线性相关关系越强;


注意点

1 相关系数度量的是两个变量之间的线性关系,而不是因果关系。

2 相关系数强调两个变量之间的线性关系,相关系数接近0并不意味着两个变量不相关。


references

1、如何通俗地理解协方差和相关系数? - 马同学的文章

2、样本方差,协方差,协方差矩阵

目录
相关文章
|
6月前
线性代数——(期末突击)概率统计习题(概率的性质、全概率公式)
线性代数——(期末突击)概率统计习题(概率的性质、全概率公式)
58 1
程序技术好文:统计学基础(一):中位数、方差、标准差、均方误差、估计量、高斯函数、正态分布
程序技术好文:统计学基础(一):中位数、方差、标准差、均方误差、估计量、高斯函数、正态分布
|
7月前
|
资源调度 分布式计算 Python
随机过程:布朗运动
随机过程:布朗运动
155 0
|
机器学习/深度学习 算法
24 正态分布和最大熵
24 正态分布和最大熵
99 0
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
第8章 概率统计——8.3 累积概率分布
|
资源调度 数据可视化
用二元泊松模型预测2022年世界杯淘汰赛结果
双泊松模型有一个严重的缺陷,那就是它假设比赛中两队的比分是条件独立的。而我们都知道,在对抗性比赛中,两队的比分是存在关联的,双泊松模型可以描述比分的这种关联性,提高了比赛结果预测的准确度。
470 1
用二元泊松模型预测2022年世界杯淘汰赛结果
|
资源调度 数据处理
第8章 概率统计——8.1 产生随机变量
第8章 概率统计——8.1 产生随机变量
|
Serverless
第8章 概率统计——8.2 概率密度计算
第8章 概率统计——8.2 概率密度计算
概率论|贝叶斯公式及其推论的理解和运用
概率论|贝叶斯公式及其推论的理解和运用
186 0
【数理统计】一题了解假设检验
【数理统计】一题了解假设检验
360 0
【数理统计】一题了解假设检验