对于上图补充几个需要详细说明的地方:
1.全距问题
问题1:容易受异常值的影响。
可以用四分位数来解决,四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间四分位数为中位数。
问题2:全距只表示了数据的宽度,没有描述清楚上下界之间的分布形态
可以用方差和标准差。
2.相关性指标r
反映两者之间互相关系,常用与分析影响因素之间相关性。
想要理解的更透彻的可以去看PCA,
关于r需要注意以下几点:
相关系数r的范围为[-1,1]
r的绝对值越大,表示相关性越强
r的正负代表相关性的方向,正代表正相关,负代表负相关。