质量相关分析 | 学习笔记

简介: 快速学习质量相关分析

开发者学堂课程【人工智能必备基础:概率论与数理统计:质量相关分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7459


质量相关分析


内容介绍

一.质量相关分析

二.列相关

三.点二列相关

 

一.质量相关分析

质量相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。

质与量的相关主要包括二列相关、点二列相关、多系列相关。

 

二.二列相关

1.概念

两个变量都是正态连续变量。其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取。把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。

2.二列相关的使用条件:

两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。

两个变量之间是线性关系。

二分变量是人为划分的,其分界点应尽量靠近中值。

样本容量应当大于 80。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中 p 类别相对应的连续变量的平均数

image.png表示与二分变量中 q 类别相对应的连续变量的平均数

σ 表示连续变量的标准差

Y表示正态曲线下与p相对应的纵线高度

3.二列相关实例:

10 名考生成绩如下,包括总分和一道问答题,试求该问答题的区分度 ( 6 分以上为通过,包括 6 分)

image.png 

问答题,被人为的分成两类,通过和不通过,应求二列相关。

当 p=0.60 时,查正态分布表得到: x=0.25。

当 x-0.25 时,代入标准正态密度数image.png得到:Y=0.3866

image.png

则可以通过公式计算得到二列相关系数:

image.png

区分度略高

 

三.点二列相关

1.概念

当两个变量其中一个是正态连续性变景,另一个是真正的二分名义变量(例如,男与女。已婚和未婚,色方与非色方,生与死,等等)。这时,表示这两个变量之向的租关,称为点二列相关。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中p类别相对应的连续变量的平均数

image.png表示与二分变量中q类别相对应的连续变量的平均数

σ 表示连续变量的标准差

2.点二列相关实例:

有 50 道选择题,每题 2 分,有 20 人的总成绩和第五题的情况,第五题与总分的相关程度如何。

image.png

p (答对学生的比例)=10/20=0.5,q=1-p=0.5

image.png

相关系数较高,第五题的情况与总分有一致性(区分度较高)

3.代码

x:array_like of bools

Input array.

y:array_like

Input array.

correlation : float

R value

pvalue :float

2-tailed p-value

输入x=[1,0,0,0,0,0,0,1,1,1,1,0,1,1,1,1,1,0,0,0]

y=[84,82,76,60,72,74,76,84,88,90,78,80,92,94,96,88,90,78,76,74]

stats.pointbiserialr(x,y)

输出PointbiserialrResult(correlation=07849870641173371, pvalue=41459279734903919e-05)

相关文章
|
4月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
51 0
|
机器学习/深度学习 监控 算法
信用风险评估评分卡建模方法及原理| 学习笔记
快速学习信用风险评估评分卡建模方法及原理。
958 0
信用风险评估评分卡建模方法及原理| 学习笔记
|
2天前
数据分享|R语言回归模型诊断、离群值分析学生考试成绩、病人医护质量满意度、婴儿死亡率和人均收入、针叶树荫面积数据
数据分享|R语言回归模型诊断、离群值分析学生考试成绩、病人医护质量满意度、婴儿死亡率和人均收入、针叶树荫面积数据
|
12天前
|
机器学习/深度学习 算法
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
17 0
|
12天前
R语言逐步多元回归模型分析长鼻鱼密度影响因素
R语言逐步多元回归模型分析长鼻鱼密度影响因素
17 0
|
12天前
|
数据可视化 安全 数据挖掘
R语言在BRFSS数据中可视化分析探索糖尿病的影响因素
R语言在BRFSS数据中可视化分析探索糖尿病的影响因素
22 0
|
12天前
R语言用多重插补法估算相对风险
R语言用多重插补法估算相对风险
17 5
|
1月前
|
数据挖掘 Python
python数据分析——业务指标量化
业务指标量化是衡量企业运营效果的重要手段,通过具体的数据和数值,可以更加直观地了解企业的运营状况,为企业决策提供有力的数据支持。
55 1
|
5月前
典型偏差和非典型偏差练习
典型偏差和非典型偏差练习
42 5
|
5月前
|
项目管理
典型偏差和非典型偏差
典型偏差和非典型偏差。
78 2