数据分析面试手册《统计篇》

简介: 数据分析面试中常见统计类问题。

前言

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!

Q1:描述假设检验?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析:

对于概念类叙述问题,掌握如下的几个问题:

  • 为什么要进行假设检验?
  • 如何证明假设检验?
  • 假设检验的步骤
  • 如何衡量假设检验的结果?

为什么要进行假设检验

  • 想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。
  • 举例:根据之前的大量统计,公司的日销售额从正态分布,标准差为x。公司领导要求,日均销售额不得低于y,现在我们现在得到了A组最近一周每天的销售数据,是否要惩罚该部门呢?对于这类问题最好的方式就是进行假设检验来判断。

假设检验的思想

  • 假设检验基于反证法思想。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。

假设检验的步骤

  1. 提出原假设H0和备择假设H1;
  2. 设置显著性检验水平α
  3. 根据不同的已知条件和需求选择检验方式:Z检验、T检验、卡方检验等;
  4. 根据检验结果得到统计量和P-value,根据二者判定检验结果。

如何衡量假设检验的结果

  • 计算统计量z后如果|z|>z_α/2(角标)则拒绝原假设
  • 计算P值后,如果p<α则拒绝原假设

Q2:简述假设检验的两类错误?

考频:🔥🔥🔥🔥
难度:🔥🔥🔥🔥

简述:

  • 假设检验的时候会提出原假设和备择假设。

    • 第一类错误(弃真错误,通常用α表示):实际上原假设正确,但假设检验的结果上却拒绝原假设;
    • 第二类错误(采伪错误,通常用β表示):实际上原假设不正确,但假设检验的结果上却维持原假设。
  • 注:α通常表示概率,称为显著性水平。α可取单侧也可取双侧,可以根据需要确定α的大小,一般规定α=0.05或α=0.01。

解读:

在这里插入图片描述

  • 根据上图所示,我们将H0看作是原假设,H1看作是备择假设,此时的α就是第一类错误β就是第二类错误,蓝线就是阈值(落在蓝线左侧维持原假设,落在右侧拒绝原假设),随着蓝线的移动α和β呈现此消彼长的关系。
  • 在考虑阈值的时候我们不应该有原假设H0就是正确的这种思想从而想让α越小越好,本质上讲一类错误变小另一类错误就会变大,解决降低两型错误发生率的最好办法是提高样本量,使得二者分母都变大从而使得蓝线的位置更加准确。

补充(如何更好的避免两类错误)

  • 我们往往在做统计推断的时候只考虑一类错误发生情况,那是因为我们往往围绕H0构造统计量(比较好构造);而H1的统计量分布往往不太好求,并且二类错误发生情况必须知道H1的统计量分布才能求出,所以我们一般做简单的统计推断时不考虑二型错误。

Q3:如何进行相关性分析?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析

  • 相关性分析是用于检验两个属性之间关系的一种分析方法,常见的相关性分析方法如下:

    • 图表分析
    • 皮尔逊相关系数
    • 协方差
    • 卡方检验

解答

  • 图表分析

    • 对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。
  • 皮尔逊相关系数

    • image.png
    • 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:

      • 0.8-1.0:极强相关
      • 0.6-0.8:强相关
      • 0.4-0.6:中等程度相关
      • 0.2-0.4:弱相关
      • 0.0-0.2:极弱相关或无相关
  • 协方差

    • image.png
    • 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。

      • 当cov(X,Y)>0时,表明X和Y正相关
      • 当cov(X,Y)<0时,表明X和Y负相关
      • 当cov(X,Y)=0时,表明X和Y不相关
  • 卡方检验

    • 卡方检验可以用于离散和离散数据之间相关性的检验。

Q4:如何理解置信区间和置信度?

考频:🔥🔥🔥
难度:🔥🔥

解答

  • 置信度:样本落在置信区间内的概率。
  • 置信区间:区间估计中,在给定置信度额情况下,样本统计量对总体参数进行估计得到的区间。

解析

  • 我们估计成年男性的平均体重时,我们估计的区间为(50kg,100kg),同时我们认为成年男性的平均体重有85%的可能性会在这个区间之内。此时的(50kg,100kg)就是置信区间,85%就是置信度。

Q5:估算2030年高考生的数量?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 面试中通常会遇到估计某个场景下的某个内容数量的问题(估算人口、汽车、消费等),这种问题统称为“费米问题”,费米问题是一种使用逻辑思维能力去解决复杂问题的思想,当解决一个问题的已知条件过少,而条件距离答案相差甚远时,我们可以通过改变分析对象去解决问题。
  • 注:回答费米问题,面试官需要的不是一个确切的结果,更多的是在考察解决问题的思想。

解答

  • 高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率60%,则最后高考人数 1600X0.8X0.6=768W

问题拓展

  • 对费米问题感兴趣的小伙伴可以去了解一下问题:芝加哥有多少个钢琴调音师?(后续会出专门的文章讲解费米问题)
相关文章
|
8天前
|
存储 缓存 NoSQL
希音面试:亿级用户 日活 月活,如何统计?(史上最强 HyperLogLog 解读)
本文详细介绍了如何使用Redis的各种数据结构(如Set、Bitmap、HyperLogLog)来统计网站的日活(DAU)和月活(MAU)用户数。作者通过实际案例和代码示例,系统地讲解了这些数据结构的原理和应用场景,特别是HyperLogLog在处理亿级用户数据时的优势。文章还深入解析了HyperLogLog的数学原理和底层数据结构,帮助读者更好地理解和应用这一高效的数据统计工具。此外,文章还提供了多个相关面试题和参考资料,适合准备面试的技术人员阅读。
|
30天前
|
Kubernetes 架构师 算法
阿里面试:全国14亿人,统计出重名最多的前100个姓名
文章介绍了如何解决“从全国14亿人的数据中统计出重名人数最多的前100位姓名”的面试题,详细分析了多种数据结构的优缺点,最终推荐使用前缀树(Trie)+小顶堆的组合。文章还提供了具体的Java代码实现,并讨论了在内存受限情况下的解决方案,强调了TOP N问题的典型解题思路。最后,鼓励读者通过系统化学习《尼恩Java面试宝典》提升面试技巧。
阿里面试:全国14亿人,统计出重名最多的前100个姓名
|
5月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
数据采集 SQL 数据挖掘
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
|
6月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
3月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
3月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
3月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
3月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。