一、统计学是个啥
统计学是个历史悠久的学科,有着300年以上历史。随着近代科学的发展,人们不再满足于“普天之下”“众所周知”这一类含糊的描述,希望用精确的数据来描述事物,因此诞生了描述性统计(descriptive statistics)。
这是统计学最早,也是最普遍的应用。我们经常说的平均数、中位数、众数等等概念,都是描述性统计的概念。
另一方面,人们发现:获得数据太难了!尤其在300年前,遍地文盲,口述手抄的时代,想获取数据难如登天。怎么办呢?人们开始思考:能否从总体中,抽一些样本,通过样本情况推断总体情况。这样就一定程度上解决了数据获取难的问题,是所谓的推断性统计(inferential statistics)。
上过《统计学》课的小伙伴,都对假设检验、统计量、分布函数等概念记忆深刻。这些东西很难搞懂,实际工作中似乎又很少用到。因为这些东西,都是推断性统计的概念。
二、统计学有哪些内容
随便百度一本统计学术的目录,可以看到,有以下章节(如下图)
其实大部分统计学书都是这么布局的,大同小异。一般四大部分
- 第一部分:描述性统计。
- 第二部分:概率与抽样。
- 第三部分:假设检验。
- 第四部分:统计模型。(如下图)
那么,到底需要掌握多少呢?
三、初级数据分析师,要掌握哪些
第一部分描述性统计是人人必会的。因为这是做数据分析的最基础知识和基本概念,不管做什么工作都要用到。而且这一部分概念简单,很容易掌握。所以入门的新人,最好人手必备包括
- 基础变量概念(连续、定序、分类)
- 描述集中程度(均值、中位数、众数)
- 描述离散程度(平均差、方差、标准差)
- 描述数据分布形态(箱型图)
- 数据图形展示(8种基础图形)
很多基础的数据分析方法,比如分层分析、矩阵分析等,其实就是描述性统计+数据交叉表。所以如果真的是小白入行,统计学数一般看到前四章就能打住了。不用自己难为自己。
当掌握基础知识,要参加面试的时候,可以适当补充第二部分:概率与抽样的知识。并非因为这一部分用处多,而是很多企业喜欢在面试时候问这些问题(就是一个字:卷)。学这一部分,最好的办法是对着章节后边的习题做。做对题,通过面试是第一目标。
四、中级数据分析师,要掌握哪些
第三部分知识,是中级以后数据分析师要掌握的。因为这一部分,讲的是用抽样方法做统计推断。实际工作中,大部分场景不需要做抽样。比如统计销售、运营、产品情况,都是全量统计,很少做抽样。只有特定场景需要。
最典型的就是质量检测。比如检查产品的使用寿命、耐用程度、物理强度等指标,就一定得对产品做破坏性检测。这就意味着不可能100%检测,一定得抽样。类似的场景,在供应链上还有很多,比如检测生产线生产质量,比如检测药品服用效果等等。
之所以在供应链应用多,还有一个深层次原因,就是:供应链的检测,检测的是一个有固定物理/化学属性的事物。这样有可能通过小样本抽样,推断出总体的物理/化学属性。这样使得抽样检测的结果很稳定,有指导意义。
在营销端也有类似应用,一般是用在未上线的产品/概念/价格。比如传统企业流行的包装测试/口味测试/价格弹性测试,或者互联网企业流行的ABtest。因为这些测试,都是挑选一小批用户参与测试,因此涉及小样本推断总体情况的判断,就得用到概率和假设检验。
但要注意的是:抽样方法,往往和具体业务场景捆绑紧密。都是抽样,质检端可能就是按产品编号抽;调研则得先拦截受访者,再甄别特征;互联网产品的ABtest,则是先对流量做分桶。因此孤零零看统计学知识,无法满足实际工作需要,得结合具体业务场景学习才行。
五、高级数据分析师,要掌握哪些
第四部分回归/预测模型,建议缓看。因为这一部分涉及知识量大,且平时工作中不怎么用得上,并且现在机器学习流行,其计算模型思路和统计学不太一样。所以这一部分,建议在自己已经有积累情况下再看。
另一个问题是:统计模型经常被错用、乱用。特别是相关分析和回归分析,因为这两个非常简单,用excel就能做,所以经常被一知半解的小白拿出来乱用。结果,要么是业务表示看不懂,不认可;要么是做的错误百出,无法自圆其说。所以新人真的慎用。
如果新人真的想看这一块,建议只看时间序列预测。因为时间序列预测使用范围非常广,特别适合领导扔几个数据过来,让我们“做个预测看看”的场景。至于其他方法,建议找个现成的工具(比如SPSS),把数据怼进去,然后对着输出参数做解读。
以上就是我个人在工作中运用心得,供大家参考。估计有小伙伴会表示:“小熊妹,你这完全不够呀!最近招聘越来越内卷了,问的统计学知识越来越多,咋办!”从我的面试经历看,一般这些卷王们,喜欢卷三个话题:
- ABtest(涉及假设检验、抽样)
- 因果推断(涉及统计推断、控制变量)
- 预测模型(时间序列/因果关系模型)
这个只能见招拆招了,大家感兴趣的话,记得点赞+转发+在看,支持下小熊妹,我后边专门分享这三个话题哦,谢谢大家。