数据分析和数据开发的区别 - 初始

简介: 数据分析和数据开发的区别 初始数据分析(DA:Data Analysis)和数据开发/数据仓库工程师(DE:Data Extraction)究竟有什么区别,工作职责和工作内容上的差异是什么?

数据分析和数据开发的区别 初始

数据分析(DA:Data Analysis)和数据开发/数据仓库工程师(DE:Data Extraction)究竟有什么区别,工作职责和工作内容上的差异是什么?

一般都知道,数开偏开发,主要是技术层面的工作,负责ETL、数仓、分布式计算、大数据运维等。数据分析偏业务,通过分析数据、建模、搭建指标体系,找出规律,给业务赋能。


  • 数开通常负责一个业务整个数据体系的构建,也就是传说中的“数据仓库”,这个仓库中既有最底层的明细数据表,也有一层一层做过计算和组合的聚合数据表。


  • 数据分析师在日常工作中,经常会使用各种聚合表做一些简单的可视化或更复杂的分析,来监控业务的核心指标或者获取一些结论来支持决策。而这些日常被使用的数据表其实都是由数仓工程师建设好的,它们是非常规整的行列数据,在相应的可视化工具中,使用者只需要通过简单的拖、拉、拽就可以实现快速地分析。


但数分这些被使用的数据表就像海平面露出的冰山一角一样,分析师通常情况下只需要关注海面之上的部分,在海平面之下是冰山的基础,就是我们所说的数仓体系,这一部分由数据开发同学帮忙构建并维护。


就拿短视频app的数据分析举例,如果你想监控每天用户的点赞行为,从最底层的数据表中,获取到全部的某人在某个时间对某个视频做了某个动作”这样的记录肯定可以实现你的目的。


但是更合理的做法是:


  1. 数据开发工程师会先从底层数据(底层数据通常是由服务器记录的非结构性数据)同步出一个最明细表,包括谁在什么时间对哪个视频以何种方式进行了点赞。
  2. 再进一步直接聚合出一张新的表,记录谁在哪一天点赞了多少次。
  3. 最后抽象出一张指标表,某一天总共有多少点赞次数。
  4. 到这里,把最后一张表交付给数据分析师,分析师去做后续的分析。

说明:


  • 当然实际工作中肯定没有这么简单,如果只是做每日点赞数的可视化,那其实完全不需要数据分析师


  • 数仓同学做完这些表自己也能操作可视化软件画图并直接交付,没必要中间过一道分析师。


  • 所以实际上,分析师和数仓的合作模式是,分析师会根据自己指标监控或者专题分析的需求,构思自己需要的数据或指标,这些数据或指标肯定不只是简单的点赞数,可能会是不同画像的用户对不同类型视频的点赞行为,这种行为可能反映出不同种类的用户对不同种类视频的偏好。


  • 随后,分析师将自己想要获取的数据或指标提需求给数仓同学,数仓同学负责后续的数据收集、整理、清洗、聚合这一整个过程。


  • 很多情况下,在拥有非常完整的数据仓库后,分析师想要的数据基本上由数仓同学从仓库中随时抽取、组合在一起,就能快速支持相应的分析。


  • 因此这样看下来,数据分析师和数据仓库工程师非常像是相爱相杀的产品经理和研发。前者负责提需求,后者负责承接需求并送上一个白眼。


总结:


  • 数据开发(包括数仓开发)建立采集、存储、计算、应用的系统,根据数据分析师的需求为业务构建一套完整的数据支撑体系,需要各类大数据组件的开发、调优,ETL脚本的编写、数仓搭建的知识。
  • 而数据分析更注重对数据的使用,依据数据开发构建的数据集市,结合实际业务,获取一些可落地的结论。需要数理统计和业务方面的知识。

二者一起合力成为一个业务的驱动轮--数据驱动。

相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
28天前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
|
1月前
|
人工智能 监控 数据可视化
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
【Python】Python商业公司贸易业务数据分析可视化(数据+源码)【独一无二】
|
2月前
|
自然语言处理 小程序 数据挖掘
数据分析实战-Python实现博客评论数据的情感分析
数据分析实战-Python实现博客评论数据的情感分析
144 0
|
10天前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
2天前
|
数据采集 数据可视化 数据挖掘
Python 与 PySpark数据分析实战指南:解锁数据洞见
Python 与 PySpark数据分析实战指南:解锁数据洞见
|
4天前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
20 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
10天前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
12天前
|
数据挖掘 Python
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
SPSS时间序列ARIMA、指数平滑法数据分析汽车销量数据
|
14天前
|
机器学习/深度学习 安全 数据挖掘
数据分享|函数型数据分析部分省市新冠疫情数据
数据分享|函数型数据分析部分省市新冠疫情数据
|
21天前
|
数据可视化 数据挖掘 Linux
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息
如何在Linux部署DataEase数据分析服务并实现无公网IP远程分析内网数据信息