ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略

简介: ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略


目录

Spearman相关系数(斯皮尔曼等级相关系数)的简介

(1)、Spearman相关系数(斯皮尔曼等级相关系数)的计算逻辑

Spearman相关系数(斯皮尔曼等级相关系数)的的案例应用


Spearman相关系数(斯皮尔曼等级相关系数)的简介

       在 统计学中, 以查尔斯·斯皮尔曼命名的斯皮尔曼等级相关系数,即spearman相关系数。经常用希腊字母ρ表示。 它是衡量两个变量依赖性的 非参数 指标。 它利用单调方程评价两个统计变量的相关性。 如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

       Spearman秩相关系数是一个非参数性质(与分布无关)的秩统计参数,由Spearman在1904年提出,用来度量两个变量之间联系的强弱(Lehmann and D'Abrera 1998)。Spearman秩相关系数可以用于R检验,同样可以在数据的分布使得Pearson线性相关系数不能用来描述或是用来描述或导致错误的结论时,作为变量之间单调联系强弱的度量。

       在统计学中,Spearman秩相关系数或称为Spearman的ρ,是由Charles Spearman命名的,一般用希腊字母ρs(rho)或是rs表示。Spearman秩相关系数是一个非参数的度量两个变量之间的统计相关性的指标,用来评估当用单调函数来描述是两个变量之间的关系有多好。在没有重复的数据的情况下,如果一个变量是两外一个变量的严格单调的函数,则二者之间的Spearman秩相关系数就是+1或-1,称变量完全Spearman相关。

(1)、Spearman相关系数(斯皮尔曼等级相关系数)的计算逻辑

       Spearman秩相关系数通常被认为是排列后的变量之间的Pearson线性相关系数,在实际计算中,有更简单的计算ρs的方法。假设原始的数据xi,yi已经按从大到小的顺序排列,记x’i,y’i为原xi,yi在排列后数据所在的位置,则x’i,y’i称为变量x’i,y’i的秩次,则di=x’i-y’i为xi,yi的秩次之差。

       斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为

        原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示

变量Xi

降序位置

等级xi

0.8

5

5

1.2

4

1.2

3

2.3

2

2

18

1

1

        实际应用中,变量间的连结是无关紧要的,于是可以通过简单的步骤计算ρ.被观测的两个变量的等级的差值,则ρ为

Spearman相关系数(斯皮尔曼等级相关系数)的的案例应用

相关文章ML之PCC:PCC皮尔逊相关系数(Pearson correlation coefficient)的简介、案例应用(与spearman相关系数对比及其代码实现)之详细攻略


相关文章
|
安全 Linux iOS开发
Anaconda下载及安装保姆级教程(详细图文)
Anaconda下载及安装保姆级教程(详细图文)
37698 1
Anaconda下载及安装保姆级教程(详细图文)
EndNote参考文献显示中国作者名的第二个字的首字母的方法
本文介绍利用EndNote软件,对论文参考文献中英文文献的汉语拼音姓名(即含有中国作者的英文论文)的名的第二个字的首写字母加以补充显示~
1521 1
EndNote参考文献显示中国作者名的第二个字的首字母的方法
|
6月前
|
存储 缓存 搜索推荐
01_万亿级推荐系统嵌入表的技术挑战与现状
推荐系统中,Embedding表规模随用户与物品增长呈指数膨胀,成为存储与计算瓶颈。传统静态存储导致冗余,而生成式模型更需高维向量与海量参数,加剧资源压力。业界通过Embedding卸载、多级缓存、预取流水线与分片优化等技术,在有限显存下实现超大规模模型训练。美团MTGR框架基于TorchRec构建,支持TB级Embedding与混合并行,显著提升训练效率与推荐效果,推动推荐系统向生成式演进。
445 19
|
8月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
1867 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
机器学习/深度学习 运维 监控
基于特征子空间的高维异常检测:一种高效且可解释的方法
本文探讨了一种替代传统单一检测器的方法,通过构建多个专注于特征子集(子空间)的检测器系统,来提高异常检测的准确性和效率。文章详细介绍了子空间方法在处理高维数据时的优势,包括缓解维度灾难、提高异常检测的可解释性和计算效率。同时,文中还讨论了子空间的选择策略,如基于领域知识、相关性、随机选择等,并介绍了PyOD工具包中实现子空间异常检测的具体方法。通过这些技术,异常检测系统能够更有效地识别数据中的异常记录,尤其是在特征数量众多的情况下。
618 9
基于特征子空间的高维异常检测:一种高效且可解释的方法
|
机器学习/深度学习 人工智能 自然语言处理
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。
1914 20
|
数据可视化 数据挖掘 定位技术
【理论+实操】GeoDa空间自相关
【理论+实操】GeoDa空间自相关
|
Ubuntu Python
全网最简约的Vscode配置Anaconda环境(百分百成功)
全网最简约的Vscode配置Anaconda环境(百分百成功)
38791 0
全网最简约的Vscode配置Anaconda环境(百分百成功)
|
索引 Python
%g是什么
`%g` 是 Python 字符串格式化中的一种格式说明符,用于表示浮点数或整数,能自动选择最合适的表示法。当数值为整数时,它显示整数;当数值较大或含小数时,它选择科学记数法或小数点记数法,并去掉无用的零。例如:
2390 1

热门文章

最新文章