开发者学堂课程【人工智能必备基础:概率论与数理统计:偏相关与复相关】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/545/detail/7460
偏相关与复相关
内容介绍
一.品质相关分析
二.列联相关系数
三.φ 相关
四.偏相关分析
五.复相关系数
一.品质相关分析
两个变量都是按质划分成几种类别,表示这两个变量之间的相关称为品质相关。
如,一个变量按性别分成男与女,另一个变量按学科成绩分成及格与不及格;又如,一个变量按学校类别分成重点及非重点,另一个变量按学科成绩分成优良、中、差,等等。
二.列联相关系数
1.概念
当两个变量均被分成两个以上类别,或其中一个变量被分成两个以上类别,这两个变量之间的相关程度可用列联相关系数( contingency coefficient )来测度。如行政人员、现任教师、学生家长与对现有考试制度持赞同、不置可否、反对意见有无相关。
假设变量 x 被分成 a 个类别 y 被分成 b 个类别,而且 a 和 b 至少有一个大于 2 这时变量与变量 y 的列联相关系数记为 C。
记 m 为观察数据属于变量 x 的第 i 类别 ( i=12-a )变量 y 的第 j 类别( j=12-6 )的频数。记
构造 其中 这样可以得到列联相关系数 C 的计算公式
C=
若 X2 检验显著,则列联相关系数也显著。
2.例题
2531 名学生和教师进行了抽样调查,计算调查对象和态度之间的列联相关系数,并进行统计显著检验
解:根据公式 计算值 X2
查 X2 分布表,得到临界值 =12.277
因为 X2=13002>12.277
所以求得的列联系数 C=0.221 具有统计显著意义。
三.φ 相关
1.概念
当两个变量都是二分变量,无论是真正的二分变量还是人为的二分变量
这两个变量之间的相关系数就称为相关系数( phi-coefficient )。如:性别的男与女和体育成绩的达标与不达标之间的相关;户口的城市与农村和创新能力的强与弱之间的相关。
Ф 相关系数的适用条件 2x2 列联( contingency table cross tabulation )表。变量的数据结构如表10-15所示。
相关系数的计算公式如下:
容易证明:
2.例题
为了研究青年大学生对性别与对心里测验态度的关系,选取了 170 名青年进行心里测验,计算性别对测验态度的中相关系数
解:根据公式计算 X2 值
则
查 x 分布表,得到临界值 =3.84。
因为 X2=21577<3.84 所以求得的系数相关系数 =0.1127 不具有统计显著意义,即青年男女大学生的性别与对心理测验反应态度之间是独立无关的。
四.偏相关分析
1.概念
在名要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
在分析变量 x1 和 x2 之间的净相关时,当控制了变量 x3 的线性作用后,1 和 x2 之间的一阶偏相关系数定义为:
2.例题
对于某四个地理要素 x1,x2,x3,x4 的 23 个样本数据,经过计算得到了如下的单相关系数矩阵
计算可得部分偏相关系数:
3.偏相关系数的性质
偏相关系数分布的范围在 -1 到 1 之间
偏相关系数的绝对值越大,表示其偏相关程度越大
偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥/|r123|
4.偏相关系数的显著性检验
服从 t(n-k-2) 分布
n: 样本容量
k 是剔除了的变量数
r 是偏相关系数
当有 3 个要素时,有三个偏相关系数,称为一级偏相关系数
当有 4 个要素时,则有六个偏相关系数,则称他们为二级偏相关系数
五.复相关系数
1.概念
(1)反映几个要素与某一个要素之间的复相关程度。复相关系数介于 0 到 1 之间。
(2)复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关:复相关系数为 0,表示完全无关。
(3)复相关系数必大干或至少等干单相关系数的绝对值。
测定一个变量 y,当有两个自变量时:
当有三个自变量时:
2.实例:
在上例中,若以x4为因变量,x1,x2,x3 为自变量,试计算 x4 与 x1,x2,x3 之间的复相关系数。