机器学习数学基础十:相关分析

简介: r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切

一,相关分析概述


1,什么叫相关分析?


●衡量事物之间或称变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。

●比如,家庭收入和支出、一个人所受教育程度与其收入、子女身高和父母身高等


2,相关系数:


●衡量变量之间相关程度的一个量值

●相关系数r的数值范围是在-1到+1之间

●相关系数r的正负号表示变化方向。“+”号表示变化方向一致,即正相关;“-”号表示变化方向相反,即负相关

●r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切

●相关系数的值,仅仅是一个比值。它不是由相等单位度量而来(即不等距), 也不是百分比,因此,不能直接作加、减、乘、除运算

相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系,即存在相关的两个变量,不一定存在因果关系


6290e581a06a430197e4e6d1d09b0bed.png


二,皮尔森相关系数


1,连续变量的相关分析


●连续变量即数据变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。如“年龄”、“收入”、 “成绩”等变量。

●当两个变量都是正态连续变量,而且两者之间呈线性关系时,通常用Pearson相关系数来衡量


2,协方差:


协方差是一个反映两个随机变量相关程度的指标,如果-个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值


28843d270951428eaa908320428f19bc.png


虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度。


在二维空间中分布着--些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的


0dde1778673245e2950ee883ec63d60f.png


3,pearson相关系数


为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差


a7c6d3f6c27a4cadba37fbf7188bf6ce.png


pearson是-一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大, 另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。


c155e990d05d44399eb9115fa70ee905.png


4,相关系数的显著性检验:


e9084dbaef1d4eb6bfb2951f278882a1.png


三,斯皮尔曼等级相关


当测量得到的数据不是等距或等比数据,而是具有等级顺序的数据;或者得到的数据是等距或等比数据,但其所来自的总体分布不是正态的,不满足求皮尔森相关系数(积差相关)的要求。这时就要运用等级相关系数。


9bf62e2fbb2645a58b91078cdc71b17f.png


计算得出,他们的皮尔森相关系数r=1,P-vlaue=0, 从以上可以直观看出,如果两个基因的表达量呈线性关系,则具有显著的皮尔森相关性。


以上是两个基因呈线性关系的结果。如果两者呈非线性关系,例如幂函数关系(曲线关系),那又如何呢?我们再试试。



两个基因A、D,他们的关系是D=A^10,在8个样本中的表达量值如下:


4d80bed7c6d645efba66fccd9648c125.png


可以看到,基因A、D相关系数,无论数值还是显著性都下降了。皮尔森相关系数是一种线性相关 系数,因此如果两个变量呈线性关系的时候,具有最大的显著性。对于非线性关系(例如A、D的幂函数关系),则其对相关性的检测功效会下降。这时我们可以考虑另外-一个相关系数计算方法:斯皮尔曼等级相关。


当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两变量之间的相关,称为Spearman等级相关。



简单点说,就是无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。


3eb143200fc84579862f9512642df0bd.png

39b1a7ba5a4446b6bf0e4545d36e7cca.png


这里斯皮尔曼等级相关的显著性显然高于皮尔森相关。这是因为虽然两个基因的表达量是非线性关系,但两个基因表达量在所有样本中的排列顺序是完全相同的,因为具有极显著的斯皮尔曼等级相关性。


四,肯德尔和谐系数


当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间的一致性程度的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生成绩用等级先后评定多次之间的一致性程度。


d57f842bcb364b47bd146dcabcb78565.png


●N-被评的对象数;.

●K-评分者人数或评分所依据的标准数;

●S-每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和


48a4fce6672d425bbc28e3ca98d5f268.png

152787f27a644aa3b7572b333393d3db.png


●mi为第i个评价者的评定结果中有重复等级的个数。

●nij为第i个评价者的评定结果中第j个重复等级的相同等级数。

●对于评定结果无相同等级的评价者,Ti=0,因此只须对评定结果有相同等级的评价者计算Ti。


实例1:同一评价者无相同等级评定时


某校开展学生小论文比赛,请6位教师对入选的6篇论文评定得奖等级,结果如下表所示,试计算6 位教师评定结果的kandall和谐系数。


624cd31167ef4c2dbf812081d40917e3.png

e6cae67efe1e4c1b84bd6bd5098565e4.png


实例2:同一评价者有相同等级评定时


3名专家对6篇心理学论文的评分经等级转换如下表所示,试计算专家评定结果的肯德尔和谐系数


e93593c53b8041c99929709028b05290.png

d9076dcc376c44d7a852127cd4394a9f.png


肯德尔和谐系数的显著性检验


评分者人数(k)在3-20之间,被评者(N)在3-7之间时,可查《肯德尔和谐系数(W)显著性临界值表》,检验W是否达到显著性水平。若实际计算的S值大于k、N相同的表内临界值,则W达到显著水平。

当K=6 N=6,查表得检验水平分别为a = 0.01,a= 0.05的临界值各为S0.01 = 282.4,S0.05=221.4,均小于实算的S=546,故W达到显著水平,认为6位教师对6篇论文的评定相当一致。



当被评者n>7时,则可用如下的x2统计量对W是否达到显著水平作检验。


五,质量相关分析


质量相关是指一个变量为质(属性值,更多的可能是离散的),另一个变量为量(连续值),这两个变量之间的相关。如智商、学科分数、身高、 体重等是表现为量的变量,男与女、 优与劣、及格与不及格等是表现为质的变量。也就是说,将连续和离散的放到一起分析。


质与量的相关主要包括二列相关、点二列相关、多系列相关。


1,二列相关:


当两个变量都是正态连续变量.其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取,把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等), 表示这两个变量之间的相关,称为二列相关。


1)二列相关的使用条件:


●两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。

●两个变量之间是线性关系。

●二分变量是人为划分的,其分界点应尽量靠近中值。

●样本容量应当大于80。


2)公式:


4d518b55e4a0494f9d5bb0b0b18d35d0.png


P表示二分变量中某一类别频数的比率

q表示二分变量中另一类别频数的比率

σ表示连续变量的标准差

Y表示正态曲线下与p相对应的纵线高度


fd65bfb0b8a446d4b41ac22b5bd16029.png


3)例子:


f0a70e996e70463daf5cf1cf2aa745f8.png


2,点二列相关:


当两个变量其中一个是正态连续性变量,另一个是真正的二二分名义变量(例如,男与女,已婚和未婚,色盲与非色盲,生与死,等等),这时,表示这两个变量之间的相关,称为点二列相关。


8a3df441466e4fee8ef81f1feed02558.png


例子:


091d0a60f80e44689909bc0f520970be.png


六,偏相关与复相关


两个变量都是按质划分成几种类别,表示这两个变量之间的相关称为品质相关。


如,一个变量按性别分成男与女,另一个变量按学科成绩分成及格与不及格;又如,一个变量按学校类别分成重点及非重点,另一个变量按学科成绩分成优、良、中、差,等等。


1,列联相关系数:


c2d3ffc218d34773bcaa5e8cfed3fa3e.png


例子:


4be795f6dac9410e8d88722b0ceedee6.png

4d21508a93a94a368a52be7e11162caa.png


251ddb5233f4475fb4422e92c8726ca4.png


2,偏相关分析:


1)定义:


在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。


573b4e56e96e4e6bb00d5ddec6b2f0d6.png

c07ccf3a177840378d7cc11b76fe4750.png


2)性质:


●偏相关系数分布的范围在-1到1之间

●偏相关系数的绝对值越大,表示其偏相关程度越大

●偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1,23>=|r12,3|


3a4480ef66d14437a1b79f0dd8c8ba75.png


3,复相关系数:


●反映几个要素与某-一个要素之间的复相关程度。复相关系数介于0到1之间。

●复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1, 表示完全相关;复相关系数为0, 表示完全无关。

●复相关系数必大于或至少等于单相关系数的绝对值


42ca9bdbf74244e6be9f77bd3fcb949a.png

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
236 3
|
4月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
80 1
|
29天前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
43 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
27天前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
37 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
1月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
37 2
|
29天前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
93 0
|
2月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
48 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
3月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
64 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
2月前
|
机器学习/深度学习 存储 数据挖掘
Hologres 与机器学习的融合:为实时分析添加预测性分析功能
【9月更文第1天】随着数据科学的发展,企业越来越依赖于从数据中获取洞察力来指导决策。传统的数据仓库主要用于存储和查询历史数据,而现代的数据仓库如 Hologres 不仅提供了高性能的查询能力,还能够支持实时数据分析。将 Hologres 与机器学习技术相结合,可以在实时数据流中引入预测性分析,为企业提供更深入的数据洞见。本文将探讨如何将 Hologres 与机器学习集成,以便实现实时的预测性分析。
83 4
下一篇
无影云桌面