统计学上的试验概述

简介: 在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。 基本概念 ------- 去分析一个问题,我们总需要由一些基本概念开始。 我们总是一个变

在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。

基本概念

去分析一个问题,我们总需要由一些基本概念开始。

我们总是一个变量“variable”去定量地描述一个物体。譬如下面的表格由两个变量描述一个人,Height高度和Sex性别。

Height Sex
170.3 cm M
160.0 cm F
168.0 cm M

统计上,可以把一个变量variable分为qualitative variable和quantitative variable。Qualitative variable是指分类的变量,譬如上面的Sex/性别属于qualitative variable. Quantitative variable是数值型的描述,上面的Height属于quantitative variable。

常用的统计试验 tests

由于每个试验(tests)的值的scale都不一样,最后,统计学家把所有试验的输出值都归一化为p value。

t-test用于对比小群体,这两个群体由quantitative variable组成。t-test一般用于小于30个样本的群体。t-test不需要知道群体的variance。t-test是基于mean,用于对比两个分布是否显著不一样。(当p value低于0.05的时候,两个群体显著不一样)。

z-test用于对打大群体,这两个群体由quantitative variable组成。z-test一般用于大于30个样本的群体。z-test需要知道群体的variance和mean。用于对比两个分布是否显著不一样。当p value低于0.05的时候,两个群体显著不一样。

f-test指基于variance的对比, 这两个群体由quantitative variable组成。当p value低于0.05的时候,两个群体显著不一样。

Pearson's chi-squared test是基于category变量的试验,意思说每个事件的变量输出的独立的,下面的wikipedia的例子计算“男女两个群体和左右手习惯是否两个独立事件”,结论是我们不能否定“男女”和“惯用左右手”没有关系。

https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

总计
43 44 87
9 4 13
总计 52 48 100

这个方法广泛用于AB测试中,对比不同的方法,效果(譬如点击率)是否有明显的增加。

目录
相关文章
|
机器学习/深度学习 数据采集 人工智能
机器学习基础知识——基本原理、常用算法与评估指标
机器学习基础知识——基本原理、常用算法与评估指标
834 0
|
7月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究附录
|
8月前
|
存储 资源调度 数据可视化
R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性
R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性
|
8月前
R语言多臂试验 - 我们应该考虑多重性吗?
R语言多臂试验 - 我们应该考虑多重性吗?
|
8月前
【SPSS】单因素方差分析详细操作教程(附案例实战)
【SPSS】单因素方差分析详细操作教程(附案例实战)
2369 0
【SPSS】单因素方差分析详细操作教程(附案例实战)
|
8月前
【SPSS】多因素方差分析详细操作教程(附案例实战)
【SPSS】多因素方差分析详细操作教程(附案例实战)
1967 0
|
8月前
|
C++
【SPSS】单样本T检验分析详细操作教程(附案例实战)
【SPSS】单样本T检验分析详细操作教程(附案例实战)
2453 0
|
8月前
【SPSS】交叉设计方差分析和协方差分析详细操作教程(附案例实战)
【SPSS】交叉设计方差分析和协方差分析详细操作教程(附案例实战)
473 0
|
机器学习/深度学习
机器学习数学基础十一:方差分析
分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异
271 0
机器学习数学基础十一:方差分析
|
机器学习/深度学习
机器学习数学基础十:相关分析
r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切
306 0
机器学习数学基础十:相关分析