前言
最近互联网行业进入了工作变动的高峰期,很多读者对于数据分析的面试题不知道如何进行解答,本文开始二师兄将连载《数据分析面试手册》来帮助大家!
Q1:DAU下降如何分析?
考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥
- 遇到这种问题,首先不要固化思维觉得DAU下降一定是某个环节/指标出现了问题,可以先思考一下从较长的时间周期来看,近期的DAU下降是不是正常的现象和幅度。(确定是否是真异常)
如果不正常,在保证数据来源和指标计算方式没有问题的情况下进行指标的维度拆解(找到异常来源)
- 拆解方式:DAU=A渠道DAU+B渠道DAU+C渠道DAU+...
- 计算各个渠道的变动系数:变动系数x=(异常前DAU-异常后DAU)/异常前DAU。
- 找出变动较大的DAU进行分析。
通过内部原因和外部原因对变动较大的DAU进行分析:
- 内部原因:新版本、闪退/卡顿等技术问题、运营活动
- 外部原因:政策、竞品(市场占有、价格等)
除了可以进行变动系数的计算之外,我们还可以使用假设检验的方法去检验DAU出现变动的情况是否成立。
Q2:GMV下滑如何分析?
考频:🔥🔥🔥🔥
难度:🔥🔥🔥
分析
- 遇到该类问题,不要盲目的去找下滑的原因,首先要明确一点,所有的指标下降一定是相对于某个时期(阶段)下降,因此我们找到对比时期再去考虑下降的原因。
思路
- 首先确定对比何时期看出GMV下滑,环比上月(周、季度)、同比去年同期都是常见的对比时期,找到对比时期后判断GMV的下滑是不是受到了季节、节日、天气等原因的影响。
上面的时期对比我们只是进行一个初步的了解,第二步我们从GMV的构成公式进行拆解分析:GMV=购买人数 客单价 人均购买次数,根据公式我们去拆解具体是哪个部分出现了问题。
- 购买人数下滑:购买人数=流量 进店转化率 购物车转化率 * 付款转化率,判断哪个环节出现了下滑。若流量下滑,则要重视拉新;若进店转化率下滑,则要重视营销活动等。
- 客单价下滑:对于客单价下滑可以从营销活动入手,对照一下两个时期的活动规则,其次优惠券的设计也会对客单价产生一定的影响,比如一款30元的产品,设计一个50-5的优惠券,用户很可能会一次买两件,设计一个100-15的优惠券用户很可能就会只买一件了。
- 人均购买次数下滑:人均购买次数下滑的问题可以转变成复购率低来思考,产品质量、售前售后的服务都是需要去思考的原因。
- 除了上面提到的拆解具体步骤之外,我们还可以使用RFM等模型对用户进行分层,看一下具体是哪个层级的用户的GMV下滑了,后续从用户群的角度解决问题。
最后对于千篇一律的指标变动分析类问题,我们都可以从以下角度去思考:
- 内部原因:新版本、闪退/卡顿等技术问题、运营活动
- 外部原因:政策、竞品(市场占有、价格等)
Q3:如何分析指标异常?
考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥分析
- 指标异常类问题是数据分析面试中考频最高的一类问题,Q1和Q2的问题都可以归类为指标异常类问题,对于此类问题要从数据的角度将大指标化小,找到异常的小指标,再就是从内部和外部等客观因素进行补充回答。
思路
两步分析法:
- 首先定位问题原因,此时可以通过计算各个维度该指标的变动系数=(异常前指标-异常后指标)/异常前指标,选出变动系数较大的前几个维度进行分析。
- 第二步可以从内部和外部进行分析,内部从产品、技术、运营侧分别沟通看是否能找到原因。外部从政策和竞品的角度找原因。
Q4:如何衡量一个活动的ROI?
考频:🔥🔥🔥
难度:🔥🔥分析
- 我们通常称ROI为投入产出比,分析ROI问题的核心在于本次活动的核心目标是什么,找到了核心就知道需要衡量的ROI是什么了。
思考
- 解决了什么问题:活动的目标/背景是什么?可以对应到哪些核心指标?可以具体细分到哪些指标?
- 这个活动有哪些难点,它的受众有哪些特性,流程具体是怎样设计的?
- 活动是否可以长期进行?
解答
最终进行衡量的指标需要结合活动的类型以及活动最终的目的来决定:
- 活动属于拉新下载类的:考虑活动带来的新用户数、下载量以及活动的收益成本比,ROI的计算公式是:收益/成本 ;
- 活动属于品牌宣传类的:看活动页面的浏览量、文章的阅读量、评论数、点赞数和分享数等;
- 活动属于促销类的:gmv就是重要的指标;
- 活动属于提升用户粘性的:留存率、平均使用时长等都是结果指标。
Q5:数据分析指标的阈值如何确定?
考频:🔥🔥🔥🔥🔥
难度:🔥🔥🔥🔥
人为划定:根据经验确定阈值。
- 对于具有明确目的(如达到500w的GMV)或者具有足够的经验时,可以使用认为的方式去确定阈值。
统计分类:基于统计学计算的结果确定阈值。
- 当我们的历史经验不足的时候通常会使用统计学的原理进行阈值的设定,较为简单的方式如:数值型数据的均值、中位数、分位数等;类别型数据的众数等。复杂一些的方式如:使用假设检验的思想划分拒绝域、根据3-sigma原则划定区间等。
自动选择:通过数据挖掘的方式进行确定。
- 当数据维度很大,数据量很多的时候,我们可以建立机器学习模型(回归、分类、聚类等),后续根据评价指标选择模型的参数从而确定阈值。