数据分析面试手册《统计篇》

简介: 数据分析面试中常见统计类问题。

前言

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!

Q1:描述假设检验?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析:

对于概念类叙述问题,掌握如下的几个问题:

  • 为什么要进行假设检验?
  • 如何证明假设检验?
  • 假设检验的步骤
  • 如何衡量假设检验的结果?

为什么要进行假设检验

  • 想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。
  • 举例:根据之前的大量统计,公司的日销售额从正态分布,标准差为x。公司领导要求,日均销售额不得低于y,现在我们现在得到了A组最近一周每天的销售数据,是否要惩罚该部门呢?对于这类问题最好的方式就是进行假设检验来判断。

假设检验的思想

  • 假设检验基于反证法思想。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。

假设检验的步骤

  1. 提出原假设H0和备择假设H1;
  2. 设置显著性检验水平α
  3. 根据不同的已知条件和需求选择检验方式:Z检验、T检验、卡方检验等;
  4. 根据检验结果得到统计量和P-value,根据二者判定检验结果。

如何衡量假设检验的结果

  • 计算统计量z后如果|z|>z_α/2(角标)则拒绝原假设
  • 计算P值后,如果p<α则拒绝原假设

Q2:简述假设检验的两类错误?

考频:🔥🔥🔥🔥
难度:🔥🔥🔥🔥

简述:

  • 假设检验的时候会提出原假设和备择假设。

    • 第一类错误(弃真错误,通常用α表示):实际上原假设正确,但假设检验的结果上却拒绝原假设;
    • 第二类错误(采伪错误,通常用β表示):实际上原假设不正确,但假设检验的结果上却维持原假设。
  • 注:α通常表示概率,称为显著性水平。α可取单侧也可取双侧,可以根据需要确定α的大小,一般规定α=0.05或α=0.01。

解读:

在这里插入图片描述

  • 根据上图所示,我们将H0看作是原假设,H1看作是备择假设,此时的α就是第一类错误β就是第二类错误,蓝线就是阈值(落在蓝线左侧维持原假设,落在右侧拒绝原假设),随着蓝线的移动α和β呈现此消彼长的关系。
  • 在考虑阈值的时候我们不应该有原假设H0就是正确的这种思想从而想让α越小越好,本质上讲一类错误变小另一类错误就会变大,解决降低两型错误发生率的最好办法是提高样本量,使得二者分母都变大从而使得蓝线的位置更加准确。

补充(如何更好的避免两类错误)

  • 我们往往在做统计推断的时候只考虑一类错误发生情况,那是因为我们往往围绕H0构造统计量(比较好构造);而H1的统计量分布往往不太好求,并且二类错误发生情况必须知道H1的统计量分布才能求出,所以我们一般做简单的统计推断时不考虑二型错误。

Q3:如何进行相关性分析?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析

  • 相关性分析是用于检验两个属性之间关系的一种分析方法,常见的相关性分析方法如下:

    • 图表分析
    • 皮尔逊相关系数
    • 协方差
    • 卡方检验

解答

  • 图表分析

    • 对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。
  • 皮尔逊相关系数

    • image.png
    • 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:

      • 0.8-1.0:极强相关
      • 0.6-0.8:强相关
      • 0.4-0.6:中等程度相关
      • 0.2-0.4:弱相关
      • 0.0-0.2:极弱相关或无相关
  • 协方差

    • image.png
    • 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。

      • 当cov(X,Y)>0时,表明X和Y正相关
      • 当cov(X,Y)<0时,表明X和Y负相关
      • 当cov(X,Y)=0时,表明X和Y不相关
  • 卡方检验

    • 卡方检验可以用于离散和离散数据之间相关性的检验。

Q4:如何理解置信区间和置信度?

考频:🔥🔥🔥
难度:🔥🔥

解答

  • 置信度:样本落在置信区间内的概率。
  • 置信区间:区间估计中,在给定置信度额情况下,样本统计量对总体参数进行估计得到的区间。

解析

  • 我们估计成年男性的平均体重时,我们估计的区间为(50kg,100kg),同时我们认为成年男性的平均体重有85%的可能性会在这个区间之内。此时的(50kg,100kg)就是置信区间,85%就是置信度。

Q5:估算2030年高考生的数量?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 面试中通常会遇到估计某个场景下的某个内容数量的问题(估算人口、汽车、消费等),这种问题统称为“费米问题”,费米问题是一种使用逻辑思维能力去解决复杂问题的思想,当解决一个问题的已知条件过少,而条件距离答案相差甚远时,我们可以通过改变分析对象去解决问题。
  • 注:回答费米问题,面试官需要的不是一个确切的结果,更多的是在考察解决问题的思想。

解答

  • 高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率60%,则最后高考人数 1600X0.8X0.6=768W

问题拓展

  • 对费米问题感兴趣的小伙伴可以去了解一下问题:芝加哥有多少个钢琴调音师?(后续会出专门的文章讲解费米问题)
相关文章
|
4月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
数据采集 SQL 数据挖掘
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
|
2月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
2月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
5月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
2月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
2月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。
|
2月前
|
机器学习/深度学习 算法 数据可视化
Python数据分析高手修炼手册:线性回归算法,让你的数据说话更有力
【8月更文挑战第1天】在数据驱动时代,掌握数据分析技能至关重要。线性回归是最基础且强大的工具之一,能从复杂数据中提炼简单有效的模型。本文探索Python中线性回归的应用并通过实战示例加深理解。线性回归建立变量间线性关系模型:Y = β0 + β1*X + ε。使用scikit-learn库进行实战:首先安装必要库,然后加载数据、训练模型并评估性能。示例展示了如何使用`LinearRegression`模型进行房价预测,包括数据可视化。掌握线性回归,让数据“说话”更有力。
34 2
|
3月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本