数据分析面试手册《统计篇》

简介: 数据分析面试中常见统计类问题。

前言

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!

Q1:描述假设检验?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析:

对于概念类叙述问题,掌握如下的几个问题:

  • 为什么要进行假设检验?
  • 如何证明假设检验?
  • 假设检验的步骤
  • 如何衡量假设检验的结果?

为什么要进行假设检验

  • 想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。
  • 举例:根据之前的大量统计,公司的日销售额从正态分布,标准差为x。公司领导要求,日均销售额不得低于y,现在我们现在得到了A组最近一周每天的销售数据,是否要惩罚该部门呢?对于这类问题最好的方式就是进行假设检验来判断。

假设检验的思想

  • 假设检验基于反证法思想。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备择假设。否则,我们就没有充分的理由推翻原假设,此时,我们选择去维持原假设。

假设检验的步骤

  1. 提出原假设H0和备择假设H1;
  2. 设置显著性检验水平α
  3. 根据不同的已知条件和需求选择检验方式:Z检验、T检验、卡方检验等;
  4. 根据检验结果得到统计量和P-value,根据二者判定检验结果。

如何衡量假设检验的结果

  • 计算统计量z后如果|z|>z_α/2(角标)则拒绝原假设
  • 计算P值后,如果p<α则拒绝原假设

Q2:简述假设检验的两类错误?

考频:🔥🔥🔥🔥
难度:🔥🔥🔥🔥

简述:

  • 假设检验的时候会提出原假设和备择假设。

    • 第一类错误(弃真错误,通常用α表示):实际上原假设正确,但假设检验的结果上却拒绝原假设;
    • 第二类错误(采伪错误,通常用β表示):实际上原假设不正确,但假设检验的结果上却维持原假设。
  • 注:α通常表示概率,称为显著性水平。α可取单侧也可取双侧,可以根据需要确定α的大小,一般规定α=0.05或α=0.01。

解读:

在这里插入图片描述

  • 根据上图所示,我们将H0看作是原假设,H1看作是备择假设,此时的α就是第一类错误β就是第二类错误,蓝线就是阈值(落在蓝线左侧维持原假设,落在右侧拒绝原假设),随着蓝线的移动α和β呈现此消彼长的关系。
  • 在考虑阈值的时候我们不应该有原假设H0就是正确的这种思想从而想让α越小越好,本质上讲一类错误变小另一类错误就会变大,解决降低两型错误发生率的最好办法是提高样本量,使得二者分母都变大从而使得蓝线的位置更加准确。

补充(如何更好的避免两类错误)

  • 我们往往在做统计推断的时候只考虑一类错误发生情况,那是因为我们往往围绕H0构造统计量(比较好构造);而H1的统计量分布往往不太好求,并且二类错误发生情况必须知道H1的统计量分布才能求出,所以我们一般做简单的统计推断时不考虑二型错误。

Q3:如何进行相关性分析?

考频:🔥🔥🔥
难度:🔥🔥🔥🔥

分析

  • 相关性分析是用于检验两个属性之间关系的一种分析方法,常见的相关性分析方法如下:

    • 图表分析
    • 皮尔逊相关系数
    • 协方差
    • 卡方检验

解答

  • 图表分析

    • 对于一般的属性关系,我们采用简单的绘图方式就能够看出二者的属性关系,常见的图形有散点图/折线图。
  • 皮尔逊相关系数

    • image.png
    • 皮尔逊相关系数通常用于衡量两个连续变量之间的相关程度,其取值是有界的,范围为[-1, 1],我们可以根据相关系数的取值(绝对值)来衡量两个变量的相关性:

      • 0.8-1.0:极强相关
      • 0.6-0.8:强相关
      • 0.4-0.6:中等程度相关
      • 0.2-0.4:弱相关
      • 0.0-0.2:极弱相关或无相关
  • 协方差

    • image.png
    • 协方差和皮尔逊一样通常用于两个连续变量之间相关性的检验,使用协方差判断相关性的结果比较直接,只有正相关、负相关、不相关三种结果。

      • 当cov(X,Y)>0时,表明X和Y正相关
      • 当cov(X,Y)<0时,表明X和Y负相关
      • 当cov(X,Y)=0时,表明X和Y不相关
  • 卡方检验

    • 卡方检验可以用于离散和离散数据之间相关性的检验。

Q4:如何理解置信区间和置信度?

考频:🔥🔥🔥
难度:🔥🔥

解答

  • 置信度:样本落在置信区间内的概率。
  • 置信区间:区间估计中,在给定置信度额情况下,样本统计量对总体参数进行估计得到的区间。

解析

  • 我们估计成年男性的平均体重时,我们估计的区间为(50kg,100kg),同时我们认为成年男性的平均体重有85%的可能性会在这个区间之内。此时的(50kg,100kg)就是置信区间,85%就是置信度。

Q5:估算2030年高考生的数量?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 面试中通常会遇到估计某个场景下的某个内容数量的问题(估算人口、汽车、消费等),这种问题统称为“费米问题”,费米问题是一种使用逻辑思维能力去解决复杂问题的思想,当解决一个问题的已知条件过少,而条件距离答案相差甚远时,我们可以通过改变分析对象去解决问题。
  • 注:回答费米问题,面试官需要的不是一个确切的结果,更多的是在考察解决问题的思想。

解答

  • 高考生一般为18岁,2030年高考生为2012年出生,2012年我国出生人口为1600万,假设上学率为80%,都进行了九年义务教育,中考升学率60%,则最后高考人数 1600X0.8X0.6=768W

问题拓展

  • 对费米问题感兴趣的小伙伴可以去了解一下问题:芝加哥有多少个钢琴调音师?(后续会出专门的文章讲解费米问题)
相关文章
|
14天前
|
数据采集 机器学习/深度学习 数据可视化
数据科学面试准备:解决Python数据分析常见问答和挑战
【4月更文挑战第12天】本文介绍了Python数据分析面试中常见的问题和挑战,涉及Pandas、NumPy、Matplotlib等库的基础知识,以及数据预处理、探索性分析、可视化、回归分析和分类分析的方法。例如,使用Pandas处理缺失值和异常值,利用Matplotlib和Seaborn进行数据可视化,通过Scikit-learn进行回归和分类模型的构建。
|
14天前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
|
4月前
|
算法 Java 程序员
火爆Boss直聘的2023最牛字节Java面试手册!助你狂拿千份offer!
当下程序员现状 根据一些调查报告,可以了解到当下程序员的现状。 首先,从年龄分布来看,年轻的程序员占据了主导地位。 30岁以下的开发者占比最高,为81%,而40岁以上的开发者仅占3%。 这意味着,程序员这个行业在一定程度上是年轻化的,同时也面临着一些中年转行或者技术更新换代的问题。 在性别方面,男性程序员的比例在90%以上,女性程序员的比例较低。 这可能和传统观念中将程序员视为男性职业有关。然而,随着技术的普及和女性对计算机科学的兴趣逐渐提高,女性程序员的比例也在逐渐增加。 从职业发展来看,程序员的职业发展相对较慢。 虽然程序员的薪资普遍较高,但是工作压力也很大,需要不断学习和更
89 0
|
1月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
62 1
|
1月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
45 0
|
3月前
|
算法 Java 程序员
阿里P8大佬终于把春招面试必备的神级Java面试手册给开源了!
先说说Java Java 作为国人编程开发语言中的 NO.1,已经占比半壁江山,选择入行做 IT 做编程开发的人,基本都把它作为首选语言,进大厂拿高薪也是大多数小伙伴们的梦想。 以前Java 岗位人才的空缺,而需求量又大,所以这种人才供不应求的现状,就是 Java 工程师的薪资待遇相对优厚的原因所在。 但是随着这个从事行业的人数逐渐增多,行业竞争也越来越大,招聘的企业和程序员们都想招聘到自己需要的人才/找到自己理想的岗位,国内大厂尤其是阿里招聘Java岗位居多,导致现在 Java 面试越来越难,内卷早就是大势所趋,万物皆可卷,卷的我们都见怪不怪了。 那么,阿里Java面试难度大吗?
|
3月前
|
开发框架 算法 Java
28天读完349页,这份阿里面试通关手册,助我闯进字节跳动
今年的面试比往年要难得多,各个互联网企业对于Java岗位的要求越来越多,也越来越高,主要是初级岗位已经趋近饱和,但高级岗位又相对来说缺乏,这类的人才偏少,因此作为Java开发人员,我们应该思考的是怎么去往高级人才发展,而不是转学其他语言,要懂得去成为金字塔顶端的人,而不是逃避一直做基层的人。
|
3月前
|
SQL 数据挖掘 数据处理
「SQL面试题库」 No_60 每日新用户统计
「SQL面试题库」 No_60 每日新用户统计
|
3月前
|
SQL 数据挖掘 数据处理
「SQL面试题库」 No_25 统计各专业学生人数
「SQL面试题库」 No_25 统计各专业学生人数
|
4月前
|
算法 网络协议 Java
备战春招狂刷这份大厂级24W字java面试手册2个月可成功逆袭上岸!
前言 2023年金九银十程序员跳槽或者找工作并不理想,迟迟找不到工作,甚至大厂还进行几轮裁员,导致整个就业市场都不是太好! 出现这种情况是因为中美贸易战,导致大环境不好、大厂裁员、就业情况差、企业要求变高、各行各业越来越卷,尤其是程序员,处于这个阶段,感觉特别明显! 对于程序员这个群体来说,java程序员的占比就非常之高,就业市场等于说是千军万马过独木桥,简直可以说是太难了!卷不过、根本卷不过! 在这里想说的是,大环境已经这样了,我们已经也无法左右这个市场,根本没有选择的余地,所以,打不过就加入,努力的提升自己能技术能力,直接吊打面试官! 这不,就迎来了大厂级24W字java面试手册!