ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略

简介: ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略


目录

Spearman相关系数(斯皮尔曼等级相关系数)的简介

(1)、Spearman相关系数(斯皮尔曼等级相关系数)的计算逻辑

Spearman相关系数(斯皮尔曼等级相关系数)的的案例应用


Spearman相关系数(斯皮尔曼等级相关系数)的简介

       在 统计学中, 以查尔斯·斯皮尔曼命名的斯皮尔曼等级相关系数,即spearman相关系数。经常用希腊字母ρ表示。 它是衡量两个变量依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

       Spearman秩相关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearman在1904年提出,用来度量两个变量之间联系的强弱(Lehmann and D'Abrera 1998)。Spearman秩相关系数可以用于R检验,同样可以在数据的分布使得Pearson线性相关系数不能用来描述或是用来描述或导致错误的结论时,作为变量之间单调联系强弱的度量。

       在统计学中,Spearman秩相关系数或称为Spearman的ρ,是由Charles Spearman命名的,一般用希腊字母ρs(rho)或是rs表示。Spearman秩相关系数是一个非参数的度量两个变量之间的统计相关性的指标,用来评估当用单调函数来描述是两个变量之间的关系有多好。在没有重复的数据的情况下,如果一个变量是两外一个变量的严格单调的函数,则二者之间的Spearman秩相关系数就是+1或-1,称变量完全Spearman相关。

(1)、Spearman相关系数(斯皮尔曼等级相关系数)的计算逻辑

       Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中,有更简单的计算ρs的方法。假设原始的数据xi,yi已经按从大到小的顺序排列,记x’i,y’i为原xi,yi在排列后数据所在的位置,则x’i,y’i称为变量x’i,y’i的秩次,则di=x’i-y’i为xi,yi的秩次之差。

       斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为

        原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示

变量Xi

降序位置

等级xi

0.8

5

5

1.2

4

1.2

3

2.3

2

2

18

1

1

        实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为

Spearman相关系数(斯皮尔曼等级相关系数)的的案例应用

相关文章ML之PCC:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略


相关文章
|
6月前
|
数据可视化 知识图谱
数据分享|R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化
数据分享|R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化
|
3月前
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
|
5月前
|
机器学习/深度学习 存储 算法
机器学习之聚类——双聚类简介及简单案例
机器学习之聚类——双聚类简介及简单案例
63 0
|
6月前
|
移动开发 数据可视化
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码
|
6月前
|
存储 数据可视化
R语言软件套保期限GARCH、VAR、OLS回归模型对沪深300金融数据可视化分析
R语言软件套保期限GARCH、VAR、OLS回归模型对沪深300金融数据可视化分析
|
6月前
|
机器学习/深度学习 算法 数据可视化
R语言组lasso改进逻辑回归变量选择分析高血压、易感因素、2型糖尿病和LDL可视化
R语言组lasso改进逻辑回归变量选择分析高血压、易感因素、2型糖尿病和LDL可视化
|
6月前
|
数据可视化
R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析
R语言分位数回归、最小二乘回归OLS北京市GDP影响因素可视化分析
|
6月前
|
数据可视化 知识图谱
R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化
R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化
|
6月前
|
数据可视化 知识图谱
R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化|数据分享
R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化|数据分享
|
6月前
|
人工智能 BI
R语言分位数回归Quantile Regression分析租房价格
R语言分位数回归Quantile Regression分析租房价格