在数据分析上面,群体的数据统计分析非常常用,譬如我进行一个二类分析(二类预测),我们需要对比这两个群体的feature“分布”是否“相似”。如果相似,这个feature作用不大,如果显著不一样,那么这个feature非常有用。然后我们需要进行一些试验(tests)对比feature的分布。
基本概念
去分析一个问题,我们总需要由一些基本概念开始。
我们总是一个变量“variable”去定量地描述一个物体。譬如下面的表格由两个变量描述一个人,Height高度和Sex性别。
Height | Sex |
---|---|
170.3 cm | M |
160.0 cm | F |
168.0 cm | M |
统计上,可以把一个变量variable分为qualitative variable和quantitative variable。Qualitative variable是指分类的变量,譬如上面的Sex/性别属于qualitative variable. Quantitative variable是数值型的描述,上面的Height属于quantitative variable。
常用的统计试验 tests
由于每个试验(tests)的值的scale都不一样,最后,统计学家把所有试验的输出值都归一化为p value。
t-test用于对比小群体,这两个群体由quantitative variable组成。t-test一般用于小于30个样本的群体。t-test不需要知道群体的variance。t-test是基于mean,用于对比两个分布是否显著不一样。(当p value低于0.05的时候,两个群体显著不一样)。
z-test用于对打大群体,这两个群体由quantitative variable组成。z-test一般用于大于30个样本的群体。z-test需要知道群体的variance和mean。用于对比两个分布是否显著不一样。当p value低于0.05的时候,两个群体显著不一样。
f-test指基于variance的对比, 这两个群体由quantitative variable组成。当p value低于0.05的时候,两个群体显著不一样。
Pearson's chi-squared test是基于category变量的试验,意思说每个事件的变量输出的独立的,下面的wikipedia的例子计算“男女两个群体和左右手习惯是否两个独立事件”,结论是我们不能否定“男女”和“惯用左右手”没有关系。
https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A
男 | 女 | 总计 | |
---|---|---|---|
右 | 43 | 44 | 87 |
左 | 9 | 4 | 13 |
总计 | 52 | 48 | 100 |
这个方法广泛用于AB测试中,对比不同的方法,效果(譬如点击率)是否有明显的增加。