开发者学堂课程【人工智能必备基础:概率论与数理统计:质量相关分析】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/545/detail/7459
质量相关分析
内容介绍
一.质量相关分析
二.列相关
三.点二列相关
一.质量相关分析
质量相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。
质与量的相关主要包括二列相关、点二列相关、多系列相关。
二.二列相关
1.概念
两个变量都是正态连续变量。其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取。把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。
2.二列相关的使用条件:
两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。
两个变量之间是线性关系。
二分变量是人为划分的,其分界点应尽量靠近中值。
样本容量应当大于 80。
P 表示分变量中某一类别频数的比率
q 表示二分变量中另一类别频数的比率
表示与二分变量中 p 类别相对应的连续变量的平均数
表示与二分变量中 q 类别相对应的连续变量的平均数
σ 表示连续变量的标准差
Y表示正态曲线下与p相对应的纵线高度
3.二列相关实例:
10 名考生成绩如下,包括总分和一道问答题,试求该问答题的区分度 ( 6 分以上为通过,包括 6 分)
问答题,被人为的分成两类,通过和不通过,应求二列相关。
当 p=0.60 时,查正态分布表得到: x=0.25。
当 x-0.25 时,代入标准正态密度数得到:Y=0.3866
则可以通过公式计算得到二列相关系数:
区分度略高
三.点二列相关
1.概念
当两个变量其中一个是正态连续性变景,另一个是真正的二分名义变量(例如,男与女。已婚和未婚,色方与非色方,生与死,等等)。这时,表示这两个变量之向的租关,称为点二列相关。
P 表示分变量中某一类别频数的比率
q 表示二分变量中另一类别频数的比率
表示与二分变量中p类别相对应的连续变量的平均数
表示与二分变量中q类别相对应的连续变量的平均数
σ 表示连续变量的标准差
2.点二列相关实例:
有 50 道选择题,每题 2 分,有 20 人的总成绩和第五题的情况,第五题与总分的相关程度如何。
p (答对学生的比例)=10/20=0.5,q=1-p=0.5
相关系数较高,第五题的情况与总分有一致性(区分度较高)
3.代码
x:array_like of bools
Input array.
y:array_like
Input array.
correlation : float
R value
pvalue :float
2-tailed p-value
输入x=[1,0,0,0,0,0,0,1,1,1,1,0,1,1,1,1,1,0,0,0]
y=[84,82,76,60,72,74,76,84,88,90,78,80,92,94,96,88,90,78,76,74]
stats.pointbiserialr(x,y)
输出PointbiserialrResult(correlation=07849870641173371, pvalue=41459279734903919e-05)