高级数据分析师,必备这7大能力

简介: 经常有小伙伴吐槽:“名曰数据分析师,实际上就是跑数机器,咋样才能进步呀!”额,大家都是从查数姑过来的,莫慌。不过自从我开始带小伙伴独立负责工作以后,越来越感觉到:有些能力是高级数据分析师才要求的,在每天写sql里没得锻炼。具体是哪些?今天简单分享一下。

一、能力VS知识


什么是能力?举个简单的例子:


1、知识(knowledge):统计学讲的回归分析方程 y=ax+b,以及SST、SSR、SSE、R平方等概念是知识。知识是有科学理论基础的,有出处的。


2、技能(Skill):敲出来:from sklearn.learn_model import LinearRegression 是一个技能。技能可以通过操练提高,而且使用技能的时候,你完全不用懂背后的科学原理,会操作就行。


3、能力(Ability):运营部门想预测下下个月的GMV,知道拿几个指标,用回归分析来预测,这是一种能力。能力是在现实工作场景中,因地制宜地使用知识和技能。

 

能力是很重要的!因为现实中工作场景很复杂,比如预测下个月GMV,有好多种方法可以用:时间序列预测、滚动预测、业务模型预测、回归模型预测、拍脑袋……,不同的方法,需要的数据不一样,产生的效果也不一样,因此需要具体思考。

 

并且,做工作不是做学术研究,还得考虑以下跟人有关的复杂情况,因此更得会随机应变见风使舵了。


  • 业务部门能不能理解
  • 领导接不接受结果
  • 领导想手动调整下结果……

 

那么,哪些能力是必备的呢?从完成一个项目的角度,我觉得有这7种能力。

二、七大能力


完成一个数据分析项目,至少有4步:


1、明确目标

2、选择数据

3、进行分析

4、汇报结果

 

为了做好项目,则至少需要7大能力(如下图)


image.png


能力一:理解业务。

 

这是所有工作的基础,想做分析,至少得知道:


1、业务流程是啥

2、业务方会做哪些动作

3、业务方期望的结果是啥


这样后续才有分析目标,才能看数据是否足够多。

 

能力二:梳理需求


这一步经常被新人遗忘,因为大家习惯了等着业务下需求单/发个邮件/打个电话/拍一下肩膀,然后要个数。从而忘记了:我们想做一个完整的分析报告,而不是跑个数呀!

 

想要做一个完整的分析,有清晰的需求是第一位的。“歪,给我个XX数!”不算是清晰的需求,只是个口头要求而已。


清晰的需求,至少得说清楚5w才行:


Who:数据使用者

When:数据使用时间

Where:数据使用场合

Why:使用数据原因

What:具体数据格式

 

特别是Why,直接和分析思路有关,要重点区分业务部门想:


  • 要做监控、找原因、还是做预测?
  • 如是监控,是否业务已上线?什么时候上?
  • 监控数据是否涉及埋点、系统对接?
  • 找原因,是否有假设?假设是什么?
  • 做预测,是否有假设?假设是什么?

 

这样才能避免,辛辛苦苦跑一堆数,被批斗:“没啥用”“我早知道了”的问题。

 

能力三:梳理指标体系

 

指标体系是数据分析的左手。梳理清楚一个项目需要哪些指标,才好继续深入。有些小伙伴很偷懒,总想着找一份“完整的”指标体系,熟读并背会就可以。可实际工作中,业务流程经常有变化,导致很多过程指标需要重新确认,并不是找个模板套就可以的。


image.png



并且,有些过程指标数据采集难度很大,还得考虑怎么和开发谈判,尽可能保障收集。因此梳理指标体系是个重要能力。

 

能力四:梳理标签体系

 

标签体系是数据分析右手。很多时候,业务部门想分析的对象不是指标可以描述的,比如分析“高潜力”,分析“有意向”,分析“刚需型用户”,这些都是通过标签,具象化了一个业务描述。


想要把问题分析清楚,数据分析师就得有能力打标签,有能力把一个业务场景中标签梳理清楚(如下图)。


image.png


注意!业务部门经常有一些内部约定俗成的标签说法,不同部门之间标签口径混乱是常有的事。因此真要做标签梳理,就得有谈判能力,拉各路相关方坐下来慢慢谈。

 

能力五:选择分析方法

 

开篇的例子,就是个选择分析方法的典型例子。比如:


预测类分析:n个模型可以用,用哪个?


原因类分析:从哪个角度切入?如何构建逻辑?


检验类分析:假设是什么?从哪些角度检验?


评估类分析:从哪些角度评估更合理、全面?


这些都是要考虑的问题

 

教科书上虽然有标准的方法, 但怎么结合实际,特别是怎么让业务部门配合过程,接受结果,则是个大学问。经常有一些复杂的方法,被业务部门斥责“看不懂!”“莫名其妙!”而遭受非议,所以选择分析方法,是一个重要能力。

 

能力六:设计数据实验

 

有些问题是没有历史数据可参考的,只能通过实验得到结果。而工作中的实验,又不像实验室里,可以把消费者、店铺、APP扣在玻璃罩子里隔绝外界环境,一点点测试。


因此需要结合业务流程,设计实验方法,考虑这些具体问题:


  • 做抽样实验还是全量实验?
  • 抽样方式、样本量如何设计?
  • 实验次数、实验投入如何控制?
  • 哪些影响因素要提前考虑?
  • 实验对象内部特征要不要管?

 

能力七:输出数据报告

 

很多新人有疑惑:“输出数据报告也是能力?不是有模板吗?”确实,有些公司数据报告有模板,问题是怎么把报告输出给业务,并且获得业务的点赞,真的是一个能力,还是高级能力。因为数据分析结论,会直观反应业务做的好/不好,“屁股决定脑袋”的事多的很!

 

比如:


明明活动不达标,业务非说是“自然增长率”计算不合理


明明指标不达标,业务非说是“大环境不行,不是我没做好”


明明只是小波动,业务非逼着“深入分析0.01%差异背后的深层原因”


怎么办!很难办呀!

 

所以做好汇报,是个很考验综合能力的事。


相关文章
|
Shell iOS开发 MacOS
|
4月前
|
数据采集 人工智能 算法
“脏数据不清,分析徒劳”——聊聊数据分析里最容易被忽视的苦差事
“脏数据不清,分析徒劳”——聊聊数据分析里最容易被忽视的苦差事
164 34
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
546 3
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
6月前
|
数据采集 存储 JSON
用Python爬虫抓取数据并保存为JSON的完整指南
用Python爬虫抓取数据并保存为JSON的完整指南
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
《AI与NLP:开启元宇宙社交互动新纪元》
元宇宙正从概念走向现实,社交互动成为其核心魅力。AI与NLP技术的迅猛发展,使自然语言交互、个性化体验和情感交流成为可能,打破了沟通壁垒,满足多元需求,并赋予社交温度。实时翻译技术支持跨语言交流,构建全球社交网络。尽管仍面临挑战,未来前景广阔,将带来更加真实、高效的虚拟社交体验。
173 6
|
NoSQL Java Linux
springboot+redis+虚拟机 springboot连接linux虚拟机中的redis服务
该博客文章介绍了如何在Spring Boot项目中通过配置和代码实现连接运行在Linux虚拟机上的Redis服务,并提供了详细的步骤和测试结果截图。
springboot+redis+虚拟机 springboot连接linux虚拟机中的redis服务
|
10月前
|
存储
硬盘数据恢复—硬盘出现物理坏道如何妙手回春?
硬盘故障: 硬盘存在物理坏道。 硬盘存在物理坏道的典型表现: 1、若硬盘为系统盘,故障表现通常为:操作系统异常缓慢、蓝屏,重启系统后引导失败并报告硬盘读取出错、系统自动反复重启。 2、若硬盘为移动硬盘,故障表现通常为:电脑无法加载盘符、提示硬盘需要格式化、频繁提示需要运行chkdsk来检查和修复磁盘、数据读取缓慢、死机。
|
11月前
|
Web App开发 算法 应用服务中间件
nginx开启局域网https访问
【10月更文挑战第22天】为了调试WebRTC功能,需要在局域网内搭建HTTPS协议。具体步骤包括:在已部署Nginx和安装OpenSSL的环境中生成私钥、证书签名请求和自签名证书;将生成的文件放置到Nginx的证书目录并修改Nginx配置文件,最后重启Nginx服务。注意,自签名证书不受第三方机构认可,如需正式使用,需向CA申请签名。
548 2
|
传感器 人机交互 数据安全/隐私保护
基于51单片机的智能晾衣架的设计与实现(源码+论文)_kaic
【摘要】随着社会和市场的变化,我国经济的快速发展和房地产行业的快速扩张,使得装修家居行业飞速发展,在行业高速发展的同时,消费者家居智能化要求也在日益发展。随着科学技术的进步和电子技术的发展,单片机作为智能控制芯片,越来越多的应用到生活中的个各个方面。在晾衣架这个细分智能家居单品中,智能晾衣架孕育而生。 本系统是以STC89C51单片机为控制核心,结合LCD1602液晶显示模块、按键模块、无线收发模块、DHT11温湿度模块,光敏检测模块以及雨滴模块、电机模块等设计出了一款基于单片机的智能晾衣架系统。系统具备两种方式实现窗帘的开关控制。智能晾衣架设置了两种模式,第一种是手动模式,在手动模式下,可以