相关系数 r 和决定系数 R2 的那些事

2023-09-08 1102

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： 有人说相关系数（correlation coefficient， r）和决定系数（coefficient of determination， R2，读作R-Squared）都是评价两个变量相关性的指标，且相关系数的平方就是决定系数？这种说法对不对呢？请听下文分解！

相关系数$r$和决定系数$R^2$的那些事

有人说相关系数（correlation coefficient，$r$）和决定系数（coefficient of determination，$R^2$，读作R-Squared）都是评价两个变量相关性的指标，且相关系数的平方就是决定系数？这种说法对不对呢？请听下文分解！

协方差与相关系数

要说相关系数，我们先来聊聊协方差。在之前的博文《使用Python计算方差协方差相关系数》中提到协方差是计算两个随机变量$X$和$Y$ 之间的相关性的指标，定义如下：

$$\mathrm{Cov}(X, Y) = \mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)]$$

但是协方差有一个确定：它的值会随着变量量纲的变化而变化（covariance is not scale invariant），所以，这才提出了相关系数的概念：

$$r = \mathrm{Corr}(X, Y) = \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y} = \frac{\mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)]}{\sqrt{\mathrm{E}[X - \mathrm{E}X]^2}\sqrt{\mathrm{E}[Y - \mathrm{E}Y]^2}}$$

对于相关系数，我们需要注意：

相关系数是用于描述两个变量线性相关程度的，如果$r \gt 0$，呈正相关；如果$r = 0$，不相关；如果$r \lt 0$，呈负相关。
如果我们将$X - \mathrm{E}X$和$Y - \mathrm{E}Y$看成两个向量的话，那$r$刚好表示的是这两个向量夹角的余弦值，这也就解释了为什么$r$的值域是[-1, 1]。
相关系数对变量的平移和缩放（线性变换）保持不变（Correlation is invariant to scaling and shift，不知道中文该如何准确表达，?）。比如$\mathrm{Corr}(X, Y) = \mathrm{Corr}(aX + b, Y)$恒成立。

决定系数（R方）

下面来说决定系数，R方一般用在回归模型用用于评估预测值和实际值的符合程度，R方的定义如下：

$$R^2 = 1 - \mathrm{FVU} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\sum\limits_i(y_i - f_i)^2}{\sum\limits_i(y_i - \hat{y})^2}$$

上式中$y$是实际值，$f$是预测值，$\hat{y}$是实际值的平均值。$\mathrm{FVU}$被称为fraction of variance unexplained，RSS叫做Residual sum of squares，TSS叫做Total sum of squares。根据$R^2$的定义，可以看到$R^2$是有可能小于0的，所以$R2$不是$r$的平方。一般地，$R^2$越接近1，表示回归分析中自变量对因变量的解释越好。

对于$R^2$可以通俗地理解为使用均值作为误差基准，看预测误差是否大于或者小于均值基准误差。

此外，我们做这样一个变形：$R^2 = 1 - \frac{\sum\limits_i(y_i - f_i)^2 / n}{\sum\limits_i(y_i - \hat{y})^2 / n} = 1 - \frac{\mathrm{RMSE}}{\mathrm{Var}}$，可以看到变成了1减去均方根误差和方差的比值（有利于编程实现）。

另外有一个叫做Explained sum of squares，$\mathrm{ESS} = \sum\limits_i(f_i - \hat{y})^2$

在一般地线性回归模型中，有$\mathrm{ESS} + \mathrm{RSS} = \mathrm{TSS}$（证明过程参见：Partitioning in the general ordinary least squares model）

在这种情况下：我们有$R^2 = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = \frac{\mathrm{ESS}}{\mathrm{TSS}} = \frac{\sum\limits_i(f_i - \hat{y})^2}{\sum\limits_i(y_i - \hat{y})^2}$

对于$R^2$我们需要注意：