从开发视角看数据分析

简介: 导读:数据分析就是要从杂乱无章的数据中将某个或者某些核心指标做提炼、归纳、总结,找到某个规律,但往往得到的结论不足以支撑下一步的动作,劳心劳力最后无果,又要再继续深挖。本文并不是一篇专业的数据分析方法论,而是从研发角度对自己做的一些数据分析进行思考和总结。

什么是数据分析

image.png

数据分析其实有个高大上的名字--“Business Intelligence”,简称:“BI”,是指将观察、测量、实验以及生产活动过程中产生的数据通过统计学等方法做归纳、总结、理解,以得到某项结论,用来发现业务中的问题、验证某个方向的正确性、业务现状可视化等等。

数据分析的工作是痛苦的,要从杂乱无章的数据中将某个或者某些核心指标做提炼、归纳、总结,找到某个规律,而且经常得到的结论不足以支撑下一步的动作,劳心劳力最后无果,又要再继续深挖。专业的数据分析师除了SQL脚本,往往需要很好的数学、统计学、概率论、算法等专业知识的支持。做为一名研发工程师,日常的数据分析往往不需要这么多专业领域的知识,但比起做编码工作也是痛苦很多。

为什么研发要做数据分析

有人说数据分析是BI工程师的事情,但现实情况是BI们往往在做业务方最关心的数据、最关心的问题等方向的分析。你做了某个小日常,要看这个小功能上线后的表现应该是自己的事情;此外数据分析是门复杂的学科,需要无止尽的探索,每个人思考的方向都会不一样,在开发的角度有开发的思考方式,所谓“行走江湖、技多不压身”,多做一些,很可能打开新世界的大门。

在我看来,研发做数据分析往往基于以下几个目的:
讲清价值:往往到汇报季,要总结梳理这半年KPI完成的情况。比如你说做了某个功能提效多少,那么怎么衡量?开发周期缩短了多少?投入人/日减少了多少?运营使用某个功能,他们用的过程中提效了多少?精确的量化这些数字,最能证明价值。

理清方向:阿里的开发通常情况都会并行很多事情,通常目标都是多个,事情也是很多。业务需求、技术改造、安全生产、提效等等,这么多事情排在一起经常会没有优先级,那么就看看数据吧,看看哪个最紧迫,哪个优先级最高。

发现问题:当前业务遇到了瓶颈,不知道下一步的发展方向在哪里,那么拉出数据看看,看目前的瓶颈是用户增长还是某项转化率等,看看做那件事投入产出比最高,收益最大。

加深思考:这部分不用多说,老板们都是数据敏感的,我们也要不断向老板看齐,从数据中发现问题的解法,对业务的理解会越来越深

怎么做研发角度的数据分析
这部分结合我们拍卖业务“拍下率”的目标来理一下我的分析过程。
▐ 理解问题(目标)
image.png

什么是拍下率?在拍卖的业务中,用户到最终成交大概会经历几个步骤,“浏览拍品”->“订阅”商品\对商品“交保证金”->对商品“出价”->获胜->履约。一旦有用户对某个商品出了价,该商品就一定会拍下,拍下率就是有出价的商品数量/全部商品数量。

image.png

公式有了之后,就要开始分析两个因子,全部商品数量来自于业务方的供给,BD来了多少商品上拍我们做为技术几乎很难影响(实际情况是我们可以做一些对货品要求上的指导决策),没道理BD同学辛辛苦苦谈下来的资产到平台无法上拍不是。

那么我们能做的就是尽量让有出价的商品数量变大,从转化漏斗的角度,我们的核心操作就是要提升浏览拍品的绝对值,增加后续各个路径的转化率,但由于拍品大部分都是大资产,笔单价几十万级别,理想中的转化漏斗实际操作起来非常复杂。所以我们团队做了很多的数据分析。

▐ 现状梳理

image.png

公式都已经定义了,数据分析的一步就是把这个公式实现成报表,看看当前这个指标的现状是怎样的。

这一步是常规操作,我们很快的做了近两年的拍下率大盘,但是新的问题又来了,由于拍卖业务的特殊性,大盘建立后,我们发现这个指标的波动特别大,完全没办法指导我们后续的动作。于是不得不再做分析。

▐ 由简入繁

image.png

前面的公式知道了拍下率其实可以拆解为两个因子:有出价商品数量和全部商品数量,那么就将这两个指标展开看一下,比如:

  1. 按类目拆分的的出价商品数的情况和全部商品的情况
  2. 按浏览数据、订阅数据、交保数据看哪个因子与出价最相关,中间的转化漏斗情况
  3. 大资产商品的地域信息很重,那么我们还要看不同地区的情况
  4. 当然还要看不同时间的情况,比如春节、国庆等特殊时期或者双促时,拍下率基本是下跌的
  5. 此外还要看未拍下的商品与拍下的商品有什么区别,货真的不好吗?比如市场价100万的房子,起拍价200万,那么肯定是拍不下的,价格因素会大大影响拍下率
  6. 还有从用户维度去思考,比如拍下房产的用户他们的购买力情况、在拍卖的行为(首次来拍卖、首次浏览、订阅、交保、出价)、是否有复购行为,是否是企业用户或者投资客等等

前面这些情况其实我们从货的角度、人的角度、时间、地理位置等等各个因素去入手,尽可能的发现问题,但是我们会发现按这个思路把问题拆解下去,维度是无限的,要适时总结,得出可以指导下一步动作的结论就好。

▐ 归纳、总结
如何做好归纳总结这一步其实比前面的数据分析更重要,我理解最关键的点是“相关性”,一旦当前的数据已经和你最初的问呈现较为明显的正向相关,基本就可以了。

image.png

分析拍下率的问题中,我们得到了三个因素相关性很高,我们称为影响拍下率的三座大山:

批量拍品:拍卖的业务中存在大量的机构一下子发几百套房子,但最终拍下很少,这类case会造成拍下率极不稳定。一旦这种拍品出现会发现我们站内的流量基本都是不足的,因此我们采用短信、push、外呼等主动触达手动再加上算法挖掘为这类拍品补足流量。

腰部拍品:我们的拍品结构很复杂,有价格很低的房子(比如1元起拍的、11.11元起拍的等),这种房子我们定义为头部商品;相反那些和市场价基本持平甚至超出市场价的很多的,基本大概率卖不出去,我们定义为尾部商品;中间的那一些就是腰部商品,分析中发现这部分腰部商品结构变化造成了拍下率波动。(真实的腰部拍品定义其实不光是价格因素,这里只是简单举例)。

image.png

  • 因此我们在站内通过流量补足、站外主动触达的手段进行流量补足,来尽量促成这部分拍品向头部转化,最终成交。看拍下率数据时,我们也会将拍品分层次去看。
  • 除此之外,上面的流量调控也只是针对对流量敏感的商品,但是针对特殊商品,比如大额股权、船舶、土地等小众商品,对流量不敏感,我们会用人工撮合的方式来处理。
  • 地理位置:比如同样的房子,杭州的用户心智较成熟,对应的杭州的房子就比较好拍下,拍下率就远比其他地方高。相比某个地区的三四线城市,拍下率就很低,我们在分析问题时,也会不同地区的拍下率分开处理。
  • 比如,三四线城市,我们正在模式站外广告、传媒广告、线下服务等多种方式特殊处理。
  • 拍下率相对稳定的一二线城市,我们更多在做扩大拍品供给,打造用户心智等。

▐ 验证迭代

上面经过归纳总结,我们得到了一些关键动作:
站内对腰部商品做流量调控,这块主要依赖我们导购端的流量调控能力。调控实施时,也要基于头部商品拍下率不变,然后把过剩的流量向腰部商品倾斜,也做了很多数据工作来也验证策略的有效性。

站外对批量拍品进行货找人,然后通过主动触达的方式进行流量补足,召回的子项目也建设了很多数据报表,来衡量对这部分拍品的贡献。
最后,除了一些子项目的效果追踪,我们还要不忘初心,反过来看大盘的拍下率有没有变化,看看我们最初的问题有没有得到解决。

总结

总体来讲,数据分析就是一个总-分-总的过程:

第一个总是要从总的目标出发,开始拆解、细化

分则是围绕大目标不断细分向下,从尽可能多的角度看待问题

第二个总则是适时回归本心,不能光做了分析而没有结论

数据分析的道路永无止境,1个问题可以拆出N个指标,N个指标相互聚合又会有N*N个指标,分析过程中又会出现M新个指标……,所以适时做归纳、总结,看看当前结论是否可以支持最初的问题,指导下一步的行动、得出有效结论即可。

回归到开发视角,做数据分析的前提是要有数据,开发过程中,除了基础的业务模型设计,还要考虑多记录一些日志,比如接口耗时、必要的报错信息、可辅助数据分析的一部分业务数据、一些关键节点的行为日志等等。

最后,多思考为什么?为什么我的主管会定某个指标为目标?我所负责的部分对这个目标有哪方面的帮助?团队中其他人的部分怎么配合起来共赢,他们的子目标是什么?站在更高的角度思考这些问题,对业务、数据、技术的理解都会更通透。

相关文章
|
5月前
|
数据采集 存储 监控
数据驱动开发:如何将数据分析融入开发流程
【8月更文挑战第14天】数据驱动开发是一种高效、智能的软件开发方法论,它通过将数据分析深度融入开发流程中,实现了精准决策、提升效率和持续改进的目标。为了成功实施数据驱动开发,团队需要明确数据需求、设计合理的数据架构、集成数据收集工具、实施CI/CD流程、进行数据分析与决策支持以及建立反馈循环机制。同时,还需要应对数据质量、技术和组织与文化等挑战。通过不断努力和实践,团队可以逐步建立起完善的数据驱动开发体系,推动产品不断迭代升级和业务持续增长。
|
7月前
|
存储 弹性计算 DataWorks
云端开发与数据分析的强强联合
通过这次方案的搭建和使用,我更加确信阿里云产品组合是企业数字化转型的强大助力。我鼓励大家积极探索和尝试这些服务,以发掘它们在实际业务中的潜力和价值。我深刻体会到了阿里云产品组合的强大能力和灵活性。它们不仅帮助我们解决了实际问题,还为未来的发展提供了坚实的基础。我强烈推荐其他企业和开发者尝试这样的产品组合,以提升开发效率和数据处理能力。
140 35
|
7月前
|
存储 数据挖掘 索引
Python streamlit框架开发数据分析网站并免费部署
使用Python的Streamlit框架,开发了一个在线数据分析工具,替代Excel查看设备温度CSV数据。通过pandas读取数据,matplotlib绘制图表。程序处理CSV,提取所需列,计算最大最小平均值,用户可多选查看特定数据。[GitHub](https://github.com/yigedaigua/MGHB)上有完整代码,应用已部署至Streamlit Cloud。
142 1
|
8月前
|
数据可视化 数据挖掘 Python
基于Python开发的Excel数据分析系统(源码+可执行程序+程序配置说明书+程序使用说明书)
基于Python开发的Excel数据分析系统(源码+可执行程序+程序配置说明书+程序使用说明书)
165 0
|
8月前
|
机器学习/深度学习 数据挖掘 BI
推荐一款 Python 数据分析报告开发与分享神器
推荐一款 Python 数据分析报告开发与分享神器
133 0
|
8月前
|
机器学习/深度学习 数据采集 人工智能
Python可以应用于多个领域,如Web开发、数据分析、机器学习等
Python可以应用于多个领域,如Web开发、数据分析、机器学习等
130 0
|
SQL 数据采集 数据可视化
数据开发模块中的SQL和数据分析模块中的SQL查询
数据开发模块中的SQL和数据分析模块中的SQL查询
182 1
|
机器学习/深度学习 人工智能 算法
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
192 0
|
存储 数据挖掘 API
python开发:空气质量历史数据分析(一)
python开发:空气质量历史数据分析(一)
184 0
|
数据挖掘 索引 Python
python开发:空气质量历史数据分析(四)
python开发:空气质量历史数据分析(四)
177 0
python开发:空气质量历史数据分析(四)

热门文章

最新文章