数据分析7大能力:梳理数据需求

简介: 今天分享数据分析师必备的工作能力——需求梳理。需求梳理很不起眼,甚至很多小伙伴感受不到他的存在。但它结结实实影响到大家的下班时间和绩效。


一、什么是数据需求?


顾名思义,数据需求,就是业务部门对数据分析产出的需求。有小伙会说:这还有需求呀,我们公司都是一通电话:“歪!给我个XX数据,快!”就完事了,根本不存在啥需求。


确实有这种无脑公司。不过,这么无脑催数据的结果,就是返工。最常见的局面,就是你辛辛苦苦跑出来数,对面的一通质疑:“数据不对吧!”“为啥和我知道的不一样!”“你再给我个XX数据看看?”“加个字段吧!”然后苦逼的数据分析师,又得重新回去跑数,跑完了又得经历一轮Diss。


所以想早点下班,想不被甩锅,就得梳理清楚:到底业务想要的是什么?


二、怎样是清晰的需求?


一个清晰的需求,需要做到5w清晰。


  • Who:数据使用者
  • When:数据使用时间
  • Where:数据使用场合
  • Why:使用数据原因
  • What:具体数据格式

三、who:谁使用数据


包括:


  • 申请人:部门,姓名


  • 审批人:领导签名、邮件回复


加上审批人,可以在一大堆需求塞车的时候,按领导等级高低排序给数。加上审批人邮件/书面签名,能有效避免每个人都说自己“很急!”“重要!”的尴尬局面。


四、when:什么时间使用


当然,大家都希望我这一刻提数据,下一秒马上有。但是干活总需要时间,而且需求多了总得排队,所以最好提一个普通/加急/特批的时间差异。比如普通需求提前3天,加急提前1天,特批的今天内优先做(当然,需要对应的老板书面批准)。


很多没骨气的数据部门领导,不敢搞分级管理。但这其实是害死自己。因为不分级管理,业务部门的需求就会像决堤的洪水。


一来,既然业务打个电话数据就拼命了,那业务还看BI干啥,那业务还看日报干啥!不看!我就打电话逼着你干。这样已上线的数据产品,使用率惨淡,回头还是被批:“做BI都没用!”


二来,自己每天007加班做需求单,照样做不完,照样被人喷“我就要个数,你还搞那么久!”照样有人因为需求塞车来吵架。


所以苟且偷生,最后就是死路一条。管得了期望时间,才好体现数据分析的业绩。

五、where:在什么场合使用


这里重点关注是:


  • 部门内使用:自己闭门分析
  • 平级部门使用:几个部门开会用
  • 向上汇报使用:总裁办、总公司
  • 对外发布使用:公众、媒体、社会


区分使用场合,主要为管理口径,避免口径混乱引发的争议。减少数据部门背锅。


  • 如涉及不同部门汇报,则重点关注两个部门共同关心的指标。
  • 如是对上汇报,则要核对是否和管理层看的固定报表是否有重叠。
  • 如是对外汇报,则要核对之前公布的数据,避免自己打自己脸


很多公司数据背锅,其实就是没做好这一步。不主动问数据用在哪里,结果业务拿着数据乱捅一波,捅完了就说:“诶呀,我们又不懂,都是数据提供的你去问他”……数据自然百口莫辩,死无全尸……所以不要吝啬语言,问清楚!


六、why:为什么需要数据。


这里和分析思路有关,重点区分:


  • 要做监控、找原因、还是做预测?
  • 如是监控,业务是否已上线?什么时候上?
  • 监控数据是否涉及埋点、系统对接?
  • 找原因,是否有假设?假设是什么?
  • 做预测,是否有假设?假设是什么?


有些业务部门思路清晰,可以讲得很清楚,自然省事。有些部门不想说,或者稀里糊涂说不清,就得引导他们说清楚。


如果没有提前沟通好埋点/数据同步的问题,监控是没法按时上线的,更没法提供准确数据。相当多公司埋点管理混乱,就是因为数据、开发、业务相互不通气,信息不一致造成的。


如果没有提前说清楚假设,很有可能拿到的数据维度不够,指标不全,导致反反复复提数。或者业务部门看了数跟没看一样,照样不利于工作开展。


七、why:为什么需要数据。


这里是具体的需求,要具体到


  • 取数对象:针对XX用户、商品、渠道、产品取数
  • 取数时间段:从X月X日-X月X日
  • 数据指标:取XXX指标。如是数据字典内标准指标,则直接引用名字。如是临时发明的,需说清楚指标的计算公式
  • 分类维度:按XXX维度区分数据。


思路清晰的业务部门,自然不用多说。碰到思路混乱的,可以这么引导


  • 你要分析的是人?货?还是场?(清晰取数对象)


  • 明确一个重点,比如人以后,开始加“的”。你要分析的是,人的XX情况(清晰指标)在XX时间段内的XX情况(清晰时间)


  • 加分类维度。你要不要做个对比?你想不想了解不同区域/时间的差异?你想不想看内部结构(清晰分类维度)


这样三个问题引导完,就很清楚了。


八、小结


满足了5w的,就是一个完整的数据分析需求了。梳理数据分析需求,不但能减少重复工作,更可以为数据分析师发现项目机会,提高BI使用率,体现工作业绩打下坚实的基础。至于具体如何做,下篇再分享。今天就先写到这里啦,喜欢的同学,记得转发+点赞+在看三连支持下小熊妹哦,谢谢大家。

相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
2月前
|
存储 分布式计算 搜索推荐
【专栏】数据之海,分布式计算、数据存储与管理、数据分析与挖掘成为关键技术
【4月更文挑战第27天】在大数据时代,数据量爆炸性增长、类型多样及处理速度需求提升带来挑战。分布式计算、数据存储与管理、数据分析与挖掘成为关键技术,如Hadoop、Spark、HDFS、NoSQL等。实际应用包括互联网搜索、推荐系统、金融科技、智能城市等领域,大规模数据处理发挥关键作用,持续推动创新与奇迹。
|
2月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
7天前
|
数据挖掘 Python
利用Python进行数据分析PDF下载经典数据分享推荐
**Python数据分析大师作,Wes McKinney亲著,详述数据操作、清洗与分析。第2版面向Python 3.6,涵盖pandas、NumPy、IPython和Jupyter更新,实战案例丰富;第3版已升级至Python 3.10和pandas 1.4,继续引领数据科学潮流。[PDF下载](https://zhangfeidezhu.com/?p=337)**
15 0
利用Python进行数据分析PDF下载经典数据分享推荐
|
10天前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
31 2
|
10天前
|
存储 消息中间件 数据挖掘
Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。
【7月更文挑战第5天】Python实时数据分析:利用丰富的库(如Pandas, PySpark, Kafka)进行流处理,涵盖数据获取、预处理、处理、存储及展示。示例代码展示了从Kafka消费数据,计算社交媒体活跃度和物联网设备状态,并可视化结果。适用于监控、故障检测等场景。通过学习和实践,提升实时数据分析能力。
19 0
|
10天前
|
数据采集 数据挖掘 大数据
Pandas是Python数据分析的核心库,基于NumPy,提供DataFrame结构处理结构化数据
【7月更文挑战第5天】Pandas是Python数据分析的核心库,基于NumPy,提供DataFrame结构处理结构化数据。它支持缺失值处理(dropna()、fillna())、异常值检测(Z-Score、IQR法)和重复值管理(duplicated()、drop_duplicates())。此外,数据转换包括类型转换(astype())、数据标准化(Min-Max、Z-Score)以及类别编码(get_dummies())。这些功能使得Pandas成为大数据预处理的强大工具。
|
2月前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
434 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
2月前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见