【数理统计】从协方差到相关系数,原来如此

简介: 【数理统计】从协方差到相关系数,原来如此

1 引入


单变量中出现了很多数据特征统计量。但还有些情况,我们需要研究两个变量之间的关系。比如说在股票投资中我们可以分析两个板块之间的涨跌相关性性情况、房价与土地价格的相关性等。


这类概念,生活中常常使用,所以不过多赘述。

c4f3d0714cd94c3bba74884d62d4ce93.png


一般化

image.png

这里计算的面积是所有的面积和,有正有负,最终数值如果为正即是正相关,反之负相关。更多相关内容,可以参考知乎@马同学参考链接第一条。


2 协方差


用散点图来表示两个变量之间的关系(手机没有防抖,没拍好,见谅!)

image.png

image.png


公式

样本协方差公式

image.png

 

总体数据的协方差

image.png

协方差计算为正值表示x与y存在线性正相关关系,反之类似。学到这里我思考到一个问题,为什么有了协方差还要有相关系数呢?


使用协方差来度量两个变量之间线性关系的强弱存在一个缺陷:


无法根据协方差数值绝对值大小来确定变量之间的关系强弱。


例如:研究公司固定资产投资与利润的关系,固定资产投资计量单位为元时比计量单位为万元时得到的协方差大很多,但是显然两变量之间的相关关系不可能随着计量单位的变化而变化。


3 相关系数


相关系数可以对两个数值变量之间线性关系的相对强度进行度量。


样本相关系数

image.png

总体相关系数

image.png

相关系数的取值在 -1 ~ +1之间,同样,大于0时,意味着两个变量存在线性正相关关系,后面也同理;


绝对值越大,说明两变量线性相关关系越强;


注意点

1 相关系数度量的是两个变量之间的线性关系,而不是因果关系。

2 相关系数强调两个变量之间的线性关系,相关系数接近0并不意味着两个变量不相关。


references

1、如何通俗地理解协方差和相关系数? - 马同学的文章

2、样本方差,协方差,协方差矩阵

目录
相关文章
|
存储 缓存 安全
高并发编程之阻塞队列
高并发编程之阻塞队列
133 1
|
运维 网络协议 Java
运维常见问题汇总-tomcat篇
运维常见问题汇总-tomcat篇
|
程序员 C++ 开发者
C++命名空间揭秘:一招解决全局冲突,让你的代码模块化战斗值飙升!
【8月更文挑战第22天】在C++中,命名空间是解决命名冲突的关键机制,它帮助开发者组织代码并提升可维护性。本文通过一个图形库开发案例,展示了如何利用命名空间避免圆形和矩形类间的命名冲突。通过定义和实现这些类,并在主函数中使用命名空间创建对象及调用方法,我们不仅解决了冲突问题,还提高了代码的模块化程度和组织结构。这为实际项目开发提供了宝贵的参考经验。
203 2
|
数据库
C#Winform使用NPOI获取word中的数据
C#Winform使用NPOI获取word中的数据
319 2
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
机器学习/深度学习 人工智能 算法
密钥密码学(二)(4)
密钥密码学(二)
319 0
|
设计模式 存储 前端开发
Java Web开发中MVC设计模式的实现与解析
Java Web开发中MVC设计模式的实现与解析
369 0
|
存储 缓存 监控
提升阿里云 RPA 性能的方法
随着企业对业务流程自动化的需求不断增长,阿里云 RPA(机器人流程自动化)的性能成为了关注的焦点。本文将介绍一些提升阿里云 RPA 性能的方法,帮助您充分发挥其潜力,实现更高效的业务流程自动化。
|
存储 关系型数据库 MySQL
TiDB与MySQL、PostgreSQL等数据库的比较分析
【2月更文挑战第25天】本文将对TiDB、MySQL和PostgreSQL等数据库进行详细的比较分析,探讨它们各自的优势和劣势。TiDB作为一款分布式关系型数据库,在扩展性、并发性能等方面表现突出;MySQL以其易用性和成熟性受到广泛应用;PostgreSQL则在数据完整性、扩展性等方面具有优势。通过对比这些数据库的特点和适用场景,帮助企业更好地选择适合自己业务需求的数据库系统。
2140 4
|
存储 网络协议 Linux
CentOS 7.6 部署 GlusterFS 分布式存储系统
CentOS 7.6 部署 GlusterFS 分布式存储系统
690 0