数据分析面试手册《指标篇》

简介: 数据分析面试,指标类问题如何进行作答?

前言

最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!

Q1:DAU下降如何分析?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥
  • 遇到这种问题,首先不要固化思维觉得DAU下降一定是某个环节/指标出现了问题,可以先思考一下从较长的时间周期来看,近期的DAU下降是不是正常的现象和幅度。(确定是否是真异常)
  • 如果不正常,在保证数据来源和指标计算方式没有问题的情况下进行指标的维度拆解(找到异常来源)

    • 拆解方式:DAU=A渠道DAU+B渠道DAU+C渠道DAU+...
    • 计算各个渠道的变动系数:变动系数x=(异常前DAU-异常后DAU)/异常前DAU。
    • 找出变动较大的DAU进行分析。
  • 通过内部原因和外部原因对变动较大的DAU进行分析:

    • 内部原因:新版本、闪退/卡顿等技术问题、运营活动
    • 外部原因:政策、竞品(市场占有、价格等)

除了可以进行变动系数的计算之外,我们还可以使用假设检验的方法去检验DAU出现变动的情况是否成立。

Q2:GMV下滑如何分析?

考频:🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 遇到该类问题,不要盲目的去找下滑的原因,首先要明确一点,所有的指标下降一定是相对于某个时期(阶段)下降,因此我们找到对比时期再去考虑下降的原因。

思路

  • 首先确定对比何时期看出GMV下滑,环比上月(周、季度)、同比去年同期都是常见的对比时期,找到对比时期后判断GMV的下滑是不是受到了季节、节日、天气等原因的影响。
  • 上面的时期对比我们只是进行一个初步的了解,第二步我们从GMV的构成公式进行拆解分析:GMV=购买人数 客单价 人均购买次数,根据公式我们去拆解具体是哪个部分出现了问题。

    • 购买人数下滑:购买人数=流量 进店转化率 购物车转化率 * 付款转化率,判断哪个环节出现了下滑。若流量下滑,则要重视拉新;若进店转化率下滑,则要重视营销活动等。
    • 客单价下滑:对于客单价下滑可以从营销活动入手,对照一下两个时期的活动规则,其次优惠券的设计也会对客单价产生一定的影响,比如一款30元的产品,设计一个50-5的优惠券,用户很可能会一次买两件,设计一个100-15的优惠券用户很可能就会只买一件了。
    • 人均购买次数下滑:人均购买次数下滑的问题可以转变成复购率低来思考,产品质量、售前售后的服务都是需要去思考的原因。
  • 除了上面提到的拆解具体步骤之外,我们还可以使用RFM等模型对用户进行分层,看一下具体是哪个层级的用户的GMV下滑了,后续从用户群的角度解决问题。
  • 最后对于千篇一律的指标变动分析类问题,我们都可以从以下角度去思考:

    • 内部原因:新版本、闪退/卡顿等技术问题、运营活动
    • 外部原因:政策、竞品(市场占有、价格等)

Q3:如何分析指标异常?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥

分析

  • 指标异常类问题是数据分析面试中考频最高的一类问题,Q1和Q2的问题都可以归类为指标异常类问题,对于此类问题要从数据的角度将大指标化小,找到异常的小指标,再就是从内部和外部等客观因素进行补充回答。

思路

  • 两步分析法:

    • 首先定位问题原因,此时可以通过计算各个维度该指标的变动系数=(异常前指标-异常后指标)/异常前指标,选出变动系数较大的前几个维度进行分析。
    • 第二步可以从内部和外部进行分析,内部从产品、技术、运营侧分别沟通看是否能找到原因。外部从政策和竞品的角度找原因。

Q4:如何衡量一个活动的ROI?

考频:🔥🔥🔥
难度:🔥🔥

分析

  • 我们通常称ROI为投入产出比,分析ROI问题的核心在于本次活动的核心目标是什么,找到了核心就知道需要衡量的ROI是什么了。

思考

  • 解决了什么问题:活动的目标/背景是什么?可以对应到哪些核心指标?可以具体细分到哪些指标?
  • 这个活动有哪些难点,它的受众有哪些特性,流程具体是怎样设计的?
  • 活动是否可以长期进行?

解答

  • 最终进行衡量的指标需要结合活动的类型以及活动最终的目的来决定:

    • 活动属于拉新下载类的:考虑活动带来的新用户数、下载量以及活动的收益成本比,ROI的计算公式是:收益/成本 ;
    • 活动属于品牌宣传类的:看活动页面的浏览量、文章的阅读量、评论数、点赞数和分享数等;
    • 活动属于促销类的:gmv就是重要的指标;
    • 活动属于提升用户粘性的:留存率、平均使用时长等都是结果指标。

Q5:数据分析指标的阈值如何确定?

考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥🔥
  • 人为划定:根据经验确定阈值。

    • 对于具有明确目的(如达到500w的GMV)或者具有足够的经验时,可以使用认为的方式去确定阈值。
  • 统计分类:基于统计学计算的结果确定阈值。

    • 当我们的历史经验不足的时候通常会使用统计学的原理进行阈值的设定,较为简单的方式如:数值型数据的均值、中位数、分位数等;类别型数据的众数等。复杂一些的方式如:使用假设检验的思想划分拒绝域、根据3-sigma原则划定区间等。
  • 自动选择:通过数据挖掘的方式进行确定。

    • 当数据维度很大,数据量很多的时候,我们可以建立机器学习模型(回归、分类、聚类等),后续根据评价指标选择模型的参数从而确定阈值。
相关文章
|
6月前
|
数据采集 SQL 数据挖掘
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
2024年8个Python高效数据分析的技巧_python 数据分析 效率,2024年最新阿里社招p7面试几轮
|
3月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
3月前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
3月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。
|
3月前
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。
|
3月前
|
机器学习/深度学习 算法 数据可视化
Python数据分析高手修炼手册:线性回归算法,让你的数据说话更有力
【8月更文挑战第1天】在数据驱动时代,掌握数据分析技能至关重要。线性回归是最基础且强大的工具之一,能从复杂数据中提炼简单有效的模型。本文探索Python中线性回归的应用并通过实战示例加深理解。线性回归建立变量间线性关系模型:Y = β0 + β1*X + ε。使用scikit-learn库进行实战:首先安装必要库,然后加载数据、训练模型并评估性能。示例展示了如何使用`LinearRegression`模型进行房价预测,包括数据可视化。掌握线性回归,让数据“说话”更有力。
42 2
|
4月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
4月前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
微软在 UserVoice 上运营着⼀个反馈论坛,每个⼈都可以在这⾥提交新点⼦供他⼈投票。票数最⾼的功能请求是“将 Python 作为Excel 的⼀门脚本语⾔”,其得票数差不多是第⼆名的两倍。尽管⾃2015 年这个点⼦发布以来并没有什么实质性进展,但在 2020 年年末,Python 之⽗ Guido van Rossum 发布推⽂称“退休太无聊了”,他将会加入微软。此事令 Excel ⽤户重燃希望。我不知道他的举动是否影响了 Excel 和 Python 的集成,但我清楚的是,为何⼈们迫切需要结合 Excel 和 Python 的⼒量,⽽你⼜应当如何从今天开始将两者结合起来。总之,这就是本
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。
【7月更文挑战第5天】了解数据科学面试中的Python数据分析重点,包括Pandas(DataFrame)、NumPy(ndarray)和Matplotlib(图表绘制)。数据预处理涉及缺失值(dropna(), fillna())和异常值处理。使用describe()进行统计分析,通过Matplotlib和Seaborn绘图。回归和分类分析用到Scikit-learn,如LinearRegression和RandomForestClassifier。
99 3