统计学上的试验概述

简介: 在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。 基本概念 ------- 去分析一个问题,我们总需要由一些基本概念开始。 我们总是一个变
+关注继续查看

在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。

基本概念

去分析一个问题,我们总需要由一些基本概念开始。

我们总是一个变量“variable”去定量地描述一个物体。譬如下面的表格由两个变量描述一个人,Height高度和Sex性别。

Height Sex
170.3 cm M
160.0 cm F
168.0 cm M

统计上,可以把一个变量variable分为qualitative variable和quantitative variable。Qualitative variable是指分类的变量,譬如上面的Sex/性别属于qualitative variable. Quantitative variable是数值型的描述,上面的Height属于quantitative variable。

常用的统计试验 tests

由于每个试验(tests)的值的scale都不一样,最后,统计学家把所有试验的输出值都归一化为p value。

t-test用于对比小群体,这两个群体由quantitative variable组成。t-test一般用于小于30个样本的群体。t-test不需要知道群体的variance。t-test是基于mean,用于对比两个分布是否显著不一样。(当p value低于0.05的时候,两个群体显著不一样)。

z-test用于对打大群体,这两个群体由quantitative variable组成。z-test一般用于大于30个样本的群体。z-test需要知道群体的variance和mean。用于对比两个分布是否显著不一样。当p value低于0.05的时候,两个群体显著不一样。

f-test指基于variance的对比, 这两个群体由quantitative variable组成。当p value低于0.05的时候,两个群体显著不一样。

Pearson's chi-squared test是基于category变量的试验,意思说每个事件的变量输出的独立的,下面的wikipedia的例子计算“男女两个群体和左右手习惯是否两个独立事件”,结论是我们不能否定“男女”和“惯用左右手”没有关系。

https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A

总计
43 44 87
9 4 13
总计 52 48 100

这个方法广泛用于AB测试中,对比不同的方法,效果(譬如点击率)是否有明显的增加。

目录
相关文章
|
8月前
|
机器学习/深度学习
机器学习数学基础十一:方差分析
分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响。如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异
81 0
机器学习数学基础十一:方差分析
|
8月前
|
机器学习/深度学习 监控 算法
机器学习测试笔记(23)——综合_拟合线
机器学习测试笔记(23)——综合_拟合线
73 0
机器学习测试笔记(23)——综合_拟合线
|
8月前
|
机器学习/深度学习 人工智能 监控
机器学习测试笔记(10)——K邻近算法(下)
机器学习测试笔记(10)——K邻近算法(下)
80 0
|
8月前
|
机器学习/深度学习 算法 数据可视化
机器学习测试笔记(10)——K邻近算法(上)
机器学习测试笔记(10)——K邻近算法(上)
93 0
机器学习测试笔记(10)——K邻近算法(上)
|
8月前
|
机器学习/深度学习 算法
十二、评估机器学习算法
十二、评估机器学习算法
十二、评估机器学习算法
|
10月前
|
机器学习/深度学习 算法 安全
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)
83 0
机器学习的统计方法 贝叶斯决策理论入门(公式修正版)
|
10月前
|
机器学习/深度学习 算法 安全
机器学习的统计方法 贝叶斯决策理论入门
机器学习的统计方法 贝叶斯决策理论入门
87 0
机器学习的统计方法 贝叶斯决策理论入门
|
11月前
|
自然语言处理 程序员 编译器
Python编程基础:实验4——组合数据的综合实验
Python编程基础:实验4——组合数据的综合实验代码练习
246 0
Python编程基础:实验4——组合数据的综合实验
|
机器学习/深度学习 算法 数据挖掘
带你读《计算机时代的统计推断:算法、演化和数据科学》之三:贝叶斯推断
本书以丰富的案例介绍了计算机时代下的统计推断的发展脉络,从理论的角度剖析统计推断的各类算法、证据等,揭示统计推断如何推动当今大数据、数据科学、机器学习等领域的快速发展并引领数据分析的变革,最后展望了统计学和数据科学的未来方向。
推荐文章
更多