对于上图补充几个需要详细说明的地方:
1.全距问题
问题1:容易受异常值的影响。
可以用四分位数来解决,四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间四分位数为中位数。
问题2:全距只表示了数据的宽度,没有描述清楚上下界之间的分布形态
可以用方差和标准差。
2.相关性指标r
反映两者之间互相关系,常用与分析影响因素之间相关性。
![gif.gif gif.gif](https://ucc.alicdn.com/pic/developer-ecology/801e1d21b13d4d67ad41b2f4afaff893.gif)
想要理解的更透彻的可以去看PCA,
![20210305130919631.png 20210305130919631.png](https://ucc.alicdn.com/pic/developer-ecology/a06e4b1c78074c6b98a1bb3b759acee7.png)
关于r需要注意以下几点:
相关系数r的范围为[-1,1]
r的绝对值越大,表示相关性越强
r的正负代表相关性的方向,正代表正相关,负代表负相关。
![c68c5c7e78044a369108ee24c23bc250.png c68c5c7e78044a369108ee24c23bc250.png](https://ucc.alicdn.com/pic/developer-ecology/07679c4cf95746d0af570eb0be5e38c0.png)