质量相关分析 | 学习笔记

简介: 快速学习质量相关分析

开发者学堂课程【人工智能必备基础:概率论与数理统计:质量相关分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/545/detail/7459


质量相关分析


内容介绍

一.质量相关分析

二.列相关

三.点二列相关

 

一.质量相关分析

质量相关是指一个变量为质,另一个变量为量,这两个变量之间的相关。如智商、学科分数、身高、体重等是表现为量的变量,男与女、优与劣、及格与不及格等是表现为质的变量。

质与量的相关主要包括二列相关、点二列相关、多系列相关。

 

二.二列相关

1.概念

两个变量都是正态连续变量。其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取。把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等),表示这两个变量之间的相关,称为二列相关。

2.二列相关的使用条件:

两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。

两个变量之间是线性关系。

二分变量是人为划分的,其分界点应尽量靠近中值。

样本容量应当大于 80。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中 p 类别相对应的连续变量的平均数

image.png表示与二分变量中 q 类别相对应的连续变量的平均数

σ 表示连续变量的标准差

Y表示正态曲线下与p相对应的纵线高度

3.二列相关实例:

10 名考生成绩如下,包括总分和一道问答题,试求该问答题的区分度 ( 6 分以上为通过,包括 6 分)

image.png 

问答题,被人为的分成两类,通过和不通过,应求二列相关。

当 p=0.60 时,查正态分布表得到: x=0.25。

当 x-0.25 时,代入标准正态密度数image.png得到:Y=0.3866

image.png

则可以通过公式计算得到二列相关系数:

image.png

区分度略高

 

三.点二列相关

1.概念

当两个变量其中一个是正态连续性变景,另一个是真正的二分名义变量(例如,男与女。已婚和未婚,色方与非色方,生与死,等等)。这时,表示这两个变量之向的租关,称为点二列相关。

image.png

P 表示分变量中某一类别频数的比率

q 表示二分变量中另一类别频数的比率

image.png表示与二分变量中p类别相对应的连续变量的平均数

image.png表示与二分变量中q类别相对应的连续变量的平均数

σ 表示连续变量的标准差

2.点二列相关实例:

有 50 道选择题,每题 2 分,有 20 人的总成绩和第五题的情况,第五题与总分的相关程度如何。

image.png

p (答对学生的比例)=10/20=0.5,q=1-p=0.5

image.png

相关系数较高,第五题的情况与总分有一致性(区分度较高)

3.代码

x:array_like of bools

Input array.

y:array_like

Input array.

correlation : float

R value

pvalue :float

2-tailed p-value

输入x=[1,0,0,0,0,0,0,1,1,1,1,0,1,1,1,1,1,0,0,0]

y=[84,82,76,60,72,74,76,84,88,90,78,80,92,94,96,88,90,78,76,74]

stats.pointbiserialr(x,y)

输出PointbiserialrResult(correlation=07849870641173371, pvalue=41459279734903919e-05)

相关文章
|
11月前
|
存储 移动开发 大数据
HTML5 Web IndexedDB 数据库详解
IndexedDB 是一种高效的浏览器存储方案,允许在本地存储大量结构化数据,支持索引和事务,适用于需要离线和大数据处理的应用。它由数据库、对象仓库等组成,通过键值对存储数据,确保数据一致性和完整性。本介绍展示了如何创建、读取、更新和删除数据,以及事务和错误处理的最佳实践。
|
JavaScript 搜索推荐 前端开发
js冒泡排序
js冒泡排序
169 0
|
负载均衡 NoSQL 中间件
|
11月前
|
数据采集 存储 NoSQL
提高爬虫性能的 5 个关键技巧:从并发到异步执行
本文介绍了提高网络爬虫性能的五个关键技巧:并发请求、异步执行、使用代理IP、限制请求频率与休眠时间、优化数据提取与存储。结合拼多多的实际案例,展示了如何通过这些技术优化爬虫效率,确保数据采集的高效性和稳定性。
763 0
|
安全 网络安全
SimpleWall简单防火墙
SimpleWall是一款小巧的防火墙软件,可以自定义拦截程序联网,对于一些修改软件特别有效.一些恶意的网络操作,因此有了这款工具让用户可以非常详细的了解目前那些程序或者进程进行了网络访问操作并加以控制。Simplewall的使用也非常的简单,比如打开程序后进入设置选择过滤模式为过滤模式:白名单 (允许所选),然后在程序界面中勾选安全需要有联网操作的进程就可以了,非勾选的进程会连不上网络。
316 0
|
SQL Java 数据库连接
myabtis中是否可以映射 Enum 枚举类
myabtis中是否可以映射 Enum 枚举类
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之sap haha数据同步kafka如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
355 6
|
XML Android开发 UED
|
Prometheus Cloud Native 网络安全
Prometheus+Grafana+Alertmanager部署教程(超详细)
Prometheus+Grafana+Alertmanager部署教程(超详细)
1393 1
|
安全 Unix 测试技术
以太网VPN(EVPN)和提供商骨干桥接EVPN(PBB-EVPN)中的以太网树(E-Tree)支持
本文档是 Internet 工程任务组 (IETF) 的产品。它代表了 IETF 团体字的共识。它已接受公众审查,并已被互联网工程指导小组 (IESG) 批准出版。有关 Internet 标准的更多信息,请参见 RFC 7841 的第 2 节。
693 0
以太网VPN(EVPN)和提供商骨干桥接EVPN(PBB-EVPN)中的以太网树(E-Tree)支持