这才是数据分析师的最佳实践

简介: 这才是数据分析师的最佳实践

这是我的第15篇原创

神奇的处方

一日,有军吏二人,俱身热头痛,症状相同,但华佗的处方,却大不一样,一用发汗药,一用泻下药,二人颇感奇怪,但服药后均告痊愈。原来诊视后,已知一为表证,用发汗法可解;一为里热证,非泻下难于为治。

这是民间流传的一则华佗小故事,核心思想是表达华佗的医术神妙,相同的表征用不同的处方给治好了,外人不明觉厉

华佗

图片来源百度百科



难搞的肚子疼

同样,表征相同,病理不同的事情在现代医学中太多了。病人描述的也不够清晰,导致一个简单的“肚子疼”,牵扯出了数十种病因。下图是丁香园整理的腹痛原因图,一般人估计都看晕了。

丁香园出图

我们在做数据分析的时候,看到GMV/销售额下降,跟“肚子疼”是一个意思。往大了说,企业内部的经营模式、目标人群,企业外部的市场情况、政策因素;往小了说,运营层面活动的规则、产品层面landing page及后续流程的设计,都会导致最终结果的下降。


医学的解决办法

面对腹痛如此复杂的病因,医学已经有非常成熟的解决方案,甚至已经有专门研究如何逐步确定病因的学科--《诊断学》。

但是遗憾的是,数据分析是商业行为,业内并没有统一的操作标准,应对如此复杂的情况。大抵是因为每个分析的商业主体太个性化导致的。

大家可以看看《诊断学》的教学内容,其中有症状学、病史采集、各种检查、临床诊断步骤和病历书写。

各位数据分析师们,有没有感觉似曾相似?是不是跟我们做数据分析非常相似?

症状学--业务理解

病史采集--数据采集

各种检查--各种指标、报表、临时SQL提数

临床诊断步骤--根因查找

病历书写--数据分析报告(不含方案和测算部分)

上图是我根据工作经验整理的数据分析4步法,其实跟《诊断学》教学内容非常相似,殊途同归。

第一次有此发现的时候,我非常兴奋,两个领域的知识相互印证,于是我也逐步开始研究医学是如何发现问题、探究问题、确认根因和解决问题的。


锁定病因的步骤


图片来源见水印

上图就是医学上诊断“肚子疼”的标准操作流程,确认一步,再进一步收集信息,再确认一步,再收集信息,逐步的逼近真相。这跟我们做数据分析是一样一样的。

当然,脑子非常灵活的人会立刻反应过来:现实情况比这复杂的多,往往是多种情况交织的,那应该如何处理?

医学上研究这种情况的分支叫《老年医学》,老年人通常会并发多种疾病。在《协和老年医学》中,对这种情况,制定的策略是“全人个体化、诊疗团队化”的原则,疾病的急性期以“痊愈”为目标,慢性期以“维稳”为目标,总体目标是维持患者的功能状态。得到上的薄世宁提了”第一张骨牌法则“,流传更广的叫”二八法则“。其实说的都是一个逻辑:即找到最关键的因素,遇到急性因素,应该先解决问题,长期因素,应该徐徐图之。




小心愿

我在数据分析这个领域从业十多年了,涉及过2G、2B、2C的各个领域,从技术端的ETL数据处理、数仓建设、数据中台,到业务端的报表、多维分析,再往上的商业分析、商业模式均有涉猎。

数据分析师就像是企业的医生,对比医学,数据分析体系化和标准化还差的很远。我期望能够像《诊断学》一样,总结一套完整的从病症到根因的数据分析操作流程,帮助到大家,开箱即用。

这是我的一个小心愿,我将会朝着这个目标缓慢而坚定的迈进。我会持续创作,不断优化,期望能帮助大家,也希望得到各位的支持。

相关文章
|
数据采集 机器学习/深度学习 数据可视化
使用Python进行数据分析的最佳实践
数据分析已经成为了现代生活和商业决策中的不可或缺的一部分。Python是数据分析的首选编程语言之一,因为它具有丰富的库和工具,可以轻松处理、可视化和分析数据。本文将探讨使用Python进行数据分析的最佳实践,帮助你提高工作效率和数据分析的质量。
|
SQL 数据采集 数据可视化
用户数据分析与最佳实践以手游为例|青训营笔记
在企业竞争越来越激烈,获客成本越来越高的背景下,如何高效地优化产品和精细化投放运营是当前企业竞争的关键,而用户数据分析正是我们保持此竞争力的重要手段。
382 0
用户数据分析与最佳实践以手游为例|青训营笔记
|
存储 Cloud Native 关系型数据库
《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——五、GIS地理数据分析的最佳实践
《阿里云认证的解析与实战-数据仓库ACP认证》——云上数据仓库的架构方案——五、GIS地理数据分析的最佳实践
|
DataWorks 数据挖掘 大数据
《DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季
186 0
《DataWorks高效数据分析最佳实践-2020飞天大数据平台实战应用第一季》电子版地址
|
消息中间件 SQL 搜索推荐
基于 Confluent + Flink 的实时数据分析最佳实践
在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案。
|
消息中间件 SQL 搜索推荐
基于Confluent+Flink的实时数据分析最佳实践
在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案。
1071 0
|
存储 SQL 分布式计算
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测最佳实践
本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。
基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测最佳实践
|
SQL 消息中间件 弹性计算
基于Flink+ClickHouse构建实时游戏数据分析最佳实践
本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。
基于Flink+ClickHouse构建实时游戏数据分析最佳实践
|
SQL JSON 数据可视化
阿里云数据分析最佳实践:二维数据可视化 + 设备数据下发
这里分别演示通过二维数据可视化功能展示设备位置 + 通过数据分析实现定时下发数据到设备。
阿里云数据分析最佳实践:二维数据可视化 + 设备数据下发
|
弹性计算 DataWorks 分布式计算
【最佳实践】这样运用阿里云Elasticsearch,让你的数据库马上拥有强大的数据分析和搜索能力。
阿里云Elasticsearch拥有强大的搜索分析能力,最快可达5分钟/次。如何让你的阿里云云存储、云数据库产品拥有数据分析和搜索能力?那么这篇文章将会给你答案。
4936 0
【最佳实践】这样运用阿里云Elasticsearch,让你的数据库马上拥有强大的数据分析和搜索能力。