做数据分析,需要懂多少统计学

简介: 很多小伙伴会问:做数据分析,需要懂多少统计学知识?今天简单跟大家分享一下。

一、统计学是个啥


统计学是个历史悠久的学科,有着300年以上历史。随着近代科学的发展,人们不再满足于“普天之下”“众所周知”这一类含糊的描述,希望用精确的数据来描述事物,因此诞生了描述性统计(descriptive statistics)。


这是统计学最早,也是最普遍的应用。我们经常说的平均数、中位数、众数等等概念,都是描述性统计的概念。


另一方面,人们发现:获得数据太难了!尤其在300年前,遍地文盲,口述手抄的时代,想获取数据难如登天。怎么办呢?人们开始思考:能否从总体中,抽一些样本,通过样本情况推断总体情况。这样就一定程度上解决了数据获取难的问题,是所谓的推断性统计(inferential statistics)。


上过《统计学》课的小伙伴,都对假设检验、统计量、分布函数等概念记忆深刻。这些东西很难搞懂,实际工作中似乎又很少用到。因为这些东西,都是推断性统计的概念。


二、统计学有哪些内容



随便百度一本统计学术的目录,可以看到,有以下章节(如下图)


image.png


其实大部分统计学书都是这么布局的,大同小异。一般四大部分


  • 第一部分:描述性统计。
  • 第二部分:概率与抽样。
  • 第三部分:假设检验。
  • 第四部分:统计模型。(如下图)


image.png


那么,到底需要掌握多少呢?


三、初级数据分析师,要掌握哪些


第一部分描述性统计是人人必会的。因为这是做数据分析的最基础知识和基本概念,不管做什么工作都要用到。而且这一部分概念简单,很容易掌握。所以入门的新人,最好人手必备包括


  • 基础变量概念(连续、定序、分类)
  • 描述集中程度(均值、中位数、众数)
  • 描述离散程度(平均差、方差、标准差)
  • 描述数据分布形态(箱型图)
  • 数据图形展示(8种基础图形)


很多基础的数据分析方法,比如分层分析、矩阵分析等,其实就是描述性统计+数据交叉表。所以如果真的是小白入行,统计学数一般看到前四章就能打住了。不用自己难为自己。


当掌握基础知识,要参加面试的时候,可以适当补充第二部分:概率与抽样的知识。并非因为这一部分用处多,而是很多企业喜欢在面试时候问这些问题(就是一个字:卷)。学这一部分,最好的办法是对着章节后边的习题做。做对题,通过面试是第一目标。


四、中级数据分析师,要掌握哪些


第三部分知识,是中级以后数据分析师要掌握的。因为这一部分,讲的是用抽样方法做统计推断。实际工作中,大部分场景不需要做抽样。比如统计销售、运营、产品情况,都是全量统计,很少做抽样。只有特定场景需要


最典型的就是质量检测。比如检查产品的使用寿命、耐用程度、物理强度等指标,就一定得对产品做破坏性检测。这就意味着不可能100%检测,一定得抽样。类似的场景,在供应链上还有很多,比如检测生产线生产质量,比如检测药品服用效果等等。


之所以在供应链应用多,还有一个深层次原因,就是:供应链的检测,检测的是一个有固定物理/化学属性的事物这样有可能通过小样本抽样,推断出总体的物理/化学属性。这样使得抽样检测的结果很稳定,有指导意义。


在营销端也有类似应用,一般是用在未上线的产品/概念/价格。比如传统企业流行的包装测试/口味测试/价格弹性测试,或者互联网企业流行的ABtest因为这些测试,都是挑选一小批用户参与测试,因此涉及小样本推断总体情况的判断,就得用到概率和假设检验。


但要注意的是:抽样方法,往往和具体业务场景捆绑紧密。都是抽样,质检端可能就是按产品编号抽;调研则得先拦截受访者,再甄别特征;互联网产品的ABtest,则是先对流量做分桶。因此孤零零看统计学知识,无法满足实际工作需要,得结合具体业务场景学习才行。


五、高级数据分析师,要掌握哪些


第四部分回归/预测模型,建议缓看。因为这一部分涉及知识量大,且平时工作中不怎么用得上,并且现在机器学习流行,其计算模型思路和统计学不太一样。所以这一部分,建议在自己已经有积累情况下再看。


另一个问题是:统计模型经常被错用、乱用。特别是相关分析和回归分析,因为这两个非常简单,用excel就能做,所以经常被一知半解的小白拿出来乱用。结果,要么是业务表示看不懂,不认可;要么是做的错误百出,无法自圆其说。所以新人真的慎用。


如果新人真的想看这一块,建议只看时间序列预测。因为时间序列预测使用范围非常广,特别适合领导扔几个数据过来,让我们“做个预测看看”的场景。至于其他方法,建议找个现成的工具(比如SPSS),把数据怼进去,然后对着输出参数做解读。


以上就是我个人在工作中运用心得,供大家参考。估计有小伙伴会表示:“小熊妹,你这完全不够呀!最近招聘越来越内卷了,问的统计学知识越来越多,咋办!”从我的面试经历看,一般这些卷王们,喜欢卷三个话题:


  • ABtest(涉及假设检验、抽样)


  • 因果推断(涉及统计推断、控制变量)


  • 预测模型(时间序列/因果关系模型)


这个只能见招拆招了,大家感兴趣的话,记得点赞+转发+在看,支持下小熊妹,我后边专门分享这三个话题哦,谢谢大家。

相关文章
|
数据采集 数据可视化 数据挖掘
统计学基础:Python数据分析中的重要概念
统计学基础:Python数据分析中的重要概念
71 2
统计学基础:Python数据分析中的重要概念
|
8月前
|
机器学习/深度学习 数据可视化 算法
数据分析基础:Python 与统计学
在当今数据驱动的世界中,数据分析已成为各个领域的关键技能。Python 作为一种强大的编程语言,结合了丰富的数据分析库,使其成为数据分析的首选工具之一。同时,统计学作为数据分析的理论基础,提供了一套方法来理解和解释数据。本文将介绍 Python 在数据分析中的应用,以及统计学在数据分析中的重要性。
|
机器学习/深度学习 数据采集 人工智能
如何成为一名数据分析师(二)——统计学之描述性统计
本系列文章针对:从未接触过数据分析的小白,准备毕业后做数据分析的大学生,或者接触过数据分析却没有经验的你。本文会继续为你介绍数据分析的理论基础,主要围绕统计学之描述性统计相关内容。
|
SQL 机器学习/深度学习 算法
985统计学硕士的腾讯 飞书 抖音 Tiktok 数据分析面经(均已拿offer)
985统计学硕士的腾讯 飞书 抖音 Tiktok 数据分析面经(均已拿offer)
985统计学硕士的腾讯 飞书 抖音 Tiktok 数据分析面经(均已拿offer)
|
机器学习/深度学习 算法 数据挖掘
代谢组学数据分析的统计学方法综述
代谢组学数据分析的统计学方法综述
587 0
|
数据挖掘 搜索推荐
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之二:广告数据分析中的统计学原理
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
|
5月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
99 2
|
5月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
274 4