什么是数据分析
数据分析其实有个高大上的名字--“Business Intelligence”,简称:“BI”,是指将观察、测量、实验以及生产活动过程中产生的数据通过统计学等方法做归纳、总结、理解,以得到某项结论,用来发现业务中的问题、验证某个方向的正确性、业务现状可视化等等。
数据分析的工作是痛苦的,要从杂乱无章的数据中将某个或者某些核心指标做提炼、归纳、总结,找到某个规律,而且经常得到的结论不足以支撑下一步的动作,劳心劳力最后无果,又要再继续深挖。专业的数据分析师除了SQL脚本,往往需要很好的数学、统计学、概率论、算法等专业知识的支持。做为一名研发工程师,日常的数据分析往往不需要这么多专业领域的知识,但比起做编码工作也是痛苦很多。
为什么研发要做数据分析
有人说数据分析是BI工程师的事情,但现实情况是BI们往往在做业务方最关心的数据、最关心的问题等方向的分析。你做了某个小日常,要看这个小功能上线后的表现应该是自己的事情;此外数据分析是门复杂的学科,需要无止尽的探索,每个人思考的方向都会不一样,在开发的角度有开发的思考方式,所谓“行走江湖、技多不压身”,多做一些,很可能打开新世界的大门。
在我看来,研发做数据分析往往基于以下几个目的:
讲清价值:往往到汇报季,要总结梳理这半年KPI完成的情况。比如你说做了某个功能提效多少,那么怎么衡量?开发周期缩短了多少?投入人/日减少了多少?运营使用某个功能,他们用的过程中提效了多少?精确的量化这些数字,最能证明价值。
理清方向:阿里的开发通常情况都会并行很多事情,通常目标都是多个,事情也是很多。业务需求、技术改造、安全生产、提效等等,这么多事情排在一起经常会没有优先级,那么就看看数据吧,看看哪个最紧迫,哪个优先级最高。
发现问题:当前业务遇到了瓶颈,不知道下一步的发展方向在哪里,那么拉出数据看看,看目前的瓶颈是用户增长还是某项转化率等,看看做那件事投入产出比最高,收益最大。
加深思考:这部分不用多说,老板们都是数据敏感的,我们也要不断向老板看齐,从数据中发现问题的解法,对业务的理解会越来越深
怎么做研发角度的数据分析
这部分结合我们拍卖业务“拍下率”的目标来理一下我的分析过程。
▐ 理解问题(目标)
什么是拍下率?在拍卖的业务中,用户到最终成交大概会经历几个步骤,“浏览拍品”->“订阅”商品\对商品“交保证金”->对商品“出价”->获胜->履约。一旦有用户对某个商品出了价,该商品就一定会拍下,拍下率就是有出价的商品数量/全部商品数量。
公式有了之后,就要开始分析两个因子,全部商品数量来自于业务方的供给,BD来了多少商品上拍我们做为技术几乎很难影响(实际情况是我们可以做一些对货品要求上的指导决策),没道理BD同学辛辛苦苦谈下来的资产到平台无法上拍不是。
那么我们能做的就是尽量让有出价的商品数量变大,从转化漏斗的角度,我们的核心操作就是要提升浏览拍品的绝对值,增加后续各个路径的转化率,但由于拍品大部分都是大资产,笔单价几十万级别,理想中的转化漏斗实际操作起来非常复杂。所以我们团队做了很多的数据分析。
▐ 现状梳理
公式都已经定义了,数据分析的一步就是把这个公式实现成报表,看看当前这个指标的现状是怎样的。
这一步是常规操作,我们很快的做了近两年的拍下率大盘,但是新的问题又来了,由于拍卖业务的特殊性,大盘建立后,我们发现这个指标的波动特别大,完全没办法指导我们后续的动作。于是不得不再做分析。
▐ 由简入繁
前面的公式知道了拍下率其实可以拆解为两个因子:有出价商品数量和全部商品数量,那么就将这两个指标展开看一下,比如:
- 按类目拆分的的出价商品数的情况和全部商品的情况
- 按浏览数据、订阅数据、交保数据看哪个因子与出价最相关,中间的转化漏斗情况
- 大资产商品的地域信息很重,那么我们还要看不同地区的情况
- 当然还要看不同时间的情况,比如春节、国庆等特殊时期或者双促时,拍下率基本是下跌的
- 此外还要看未拍下的商品与拍下的商品有什么区别,货真的不好吗?比如市场价100万的房子,起拍价200万,那么肯定是拍不下的,价格因素会大大影响拍下率
- 还有从用户维度去思考,比如拍下房产的用户他们的购买力情况、在拍卖的行为(首次来拍卖、首次浏览、订阅、交保、出价)、是否有复购行为,是否是企业用户或者投资客等等
前面这些情况其实我们从货的角度、人的角度、时间、地理位置等等各个因素去入手,尽可能的发现问题,但是我们会发现按这个思路把问题拆解下去,维度是无限的,要适时总结,得出可以指导下一步动作的结论就好。
▐ 归纳、总结
如何做好归纳总结这一步其实比前面的数据分析更重要,我理解最关键的点是“相关性”,一旦当前的数据已经和你最初的问呈现较为明显的正向相关,基本就可以了。
分析拍下率的问题中,我们得到了三个因素相关性很高,我们称为影响拍下率的三座大山:
批量拍品:拍卖的业务中存在大量的机构一下子发几百套房子,但最终拍下很少,这类case会造成拍下率极不稳定。一旦这种拍品出现会发现我们站内的流量基本都是不足的,因此我们采用短信、push、外呼等主动触达手动再加上算法挖掘为这类拍品补足流量。
腰部拍品:我们的拍品结构很复杂,有价格很低的房子(比如1元起拍的、11.11元起拍的等),这种房子我们定义为头部商品;相反那些和市场价基本持平甚至超出市场价的很多的,基本大概率卖不出去,我们定义为尾部商品;中间的那一些就是腰部商品,分析中发现这部分腰部商品结构变化造成了拍下率波动。(真实的腰部拍品定义其实不光是价格因素,这里只是简单举例)。
- 因此我们在站内通过流量补足、站外主动触达的手段进行流量补足,来尽量促成这部分拍品向头部转化,最终成交。看拍下率数据时,我们也会将拍品分层次去看。
- 除此之外,上面的流量调控也只是针对对流量敏感的商品,但是针对特殊商品,比如大额股权、船舶、土地等小众商品,对流量不敏感,我们会用人工撮合的方式来处理。
- 地理位置:比如同样的房子,杭州的用户心智较成熟,对应的杭州的房子就比较好拍下,拍下率就远比其他地方高。相比某个地区的三四线城市,拍下率就很低,我们在分析问题时,也会不同地区的拍下率分开处理。
- 比如,三四线城市,我们正在模式站外广告、传媒广告、线下服务等多种方式特殊处理。
- 拍下率相对稳定的一二线城市,我们更多在做扩大拍品供给,打造用户心智等。
▐ 验证迭代
上面经过归纳总结,我们得到了一些关键动作:
站内对腰部商品做流量调控,这块主要依赖我们导购端的流量调控能力。调控实施时,也要基于头部商品拍下率不变,然后把过剩的流量向腰部商品倾斜,也做了很多数据工作来也验证策略的有效性。
站外对批量拍品进行货找人,然后通过主动触达的方式进行流量补足,召回的子项目也建设了很多数据报表,来衡量对这部分拍品的贡献。
最后,除了一些子项目的效果追踪,我们还要不忘初心,反过来看大盘的拍下率有没有变化,看看我们最初的问题有没有得到解决。
总结
总体来讲,数据分析就是一个总-分-总的过程:
第一个总是要从总的目标出发,开始拆解、细化
分则是围绕大目标不断细分向下,从尽可能多的角度看待问题
第二个总则是适时回归本心,不能光做了分析而没有结论
数据分析的道路永无止境,1个问题可以拆出N个指标,N个指标相互聚合又会有N*N个指标,分析过程中又会出现M新个指标……,所以适时做归纳、总结,看看当前结论是否可以支持最初的问题,指导下一步的行动、得出有效结论即可。
回归到开发视角,做数据分析的前提是要有数据,开发过程中,除了基础的业务模型设计,还要考虑多记录一些日志,比如接口耗时、必要的报错信息、可辅助数据分析的一部分业务数据、一些关键节点的行为日志等等。
最后,多思考为什么?为什么我的主管会定某个指标为目标?我所负责的部分对这个目标有哪方面的帮助?团队中其他人的部分怎么配合起来共赢,他们的子目标是什么?站在更高的角度思考这些问题,对业务、数据、技术的理解都会更通透。