刚入职的数据分析师,上千数据指标,如何1周开发完?

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.com小白同学终于毕业啦!学过高等数学、java、C++、数据库等课程,擅长编写算法,参加过多次数学建模大赛,在这个背景下,小白毅然决然选择了数据分析师这个岗位,毕业后顺利进入一家互联网公司,开始职场初体验。

作者:陈梦婷 更多内容详见数据中台官网 https://dp.alibaba.com

小白同学终于毕业啦!学过高等数学、java、C++、数据库等课程,擅长编写算法,参加过多次数学建模大赛,在这个背景下,小白毅然决然选择了数据分析师这个岗位,毕业后顺利进入一家互联网公司,开始职场初体验。

本周小白正式入职,在师兄带领下,开始第一周的工作。
然而信心满满的小白看到工作内容,感受到深深的压力——理想与现实、学校理论与职场实践,差异不是一点……

问数据需求为何物,码千万代码不知年
当小白刚刚坐下来,就碰到了职场第一个难题——需求理解。业务方纷至沓来,提了这样一批需求……
需求
image
image

小白虽然有点懵,但是想着循序渐进,应该可以搞定,那就先从第一个需求开始吧。

和师兄以及业务同学了解背景后,小白整理了下第一个需求的求解思路:
先明确统计的值,是用户数——可以根据用户注册表的主键字段计数 user_id(用户id),不去重也可以count1。
然后根据用户属性设置过滤条件,比如sp_status(用户状态)这样的临时、业务变化较多的枚举值。
最后可以将user_star_name(用户等级)设置为group by的汇总项。
以此类推……

搬砖走起
需求的代码语言逐渐清晰,和业务、和师兄都理解并确认实施可行性了,但是第二关又来了——计算逻辑设计。

虽然公司数据仓库已经有沉淀,但是业务发展快,数据生产加工供不应求,数据体系已经有些混乱了,具体操作步步维艰——太难找!难理解!太难用!

比如:大部分数据还是需要从已有事实明细数据中再加工,极少部分是可简单汇总得到……
image

唉,业务着急,还是慢慢搬砖吧!
(努力搬砖中的小白……)
image

搬砖成果
不知不觉,已经下午4点,第一个需求完成,最终输出指标30个,代码百行+,还有待验证和优化。
image

想到后面还要很多个需求要做,小白脑袋有点秃,懊悔自己初生牛犊不怕虎,一口接下太多需求。
image

问题来了。。。
业务同学几句话,几行表格,开发同学几行泪啊……大半天时间,30个指标只是长征路第一步啊!

此时好想有个指标计算器,按几个按键,剩下的近千个指标就可以自动算出来,又准确、又规范、又迅速,多好!
image

然而,手边只有一个SQL编辑器和无尽的字符集。

小白同学有点慌,即使给他一周时间,作为刚入职的数据分析师,怎么完成这么多取数需求,而且数据需求可能还会随时变化、随时增加!

山重水复疑无路,柳暗花明Dataphin

时间不知不觉到了5点,旁边一位技术leader看到小白对着需求的Excel愁眉不展,指了另一条路——公司最近新采购了阿里云产品智能数据构建与管理Dataphin,核心特点就有数据规范定义、代码自动化生成,在过去一周,专家团队已经实现一部分会员相关业务和数据迁移上云,可能可以解决小白的问题。
image

小白研究了下,已经有数据架构师角色的人构建好基本的数据框架,企业数据体系的业务逻辑和物理结构一目了然,自己负责的业务数据基本都已经覆盖,自己只要根据需求场景,开发指标即可!

维度及事实模型:
所需的会员、交易的表都有了,表名、注释清晰规范,没有选择困难;所需字段也都有了,一目了然主键、度量、关联的外键,都不需要冗余字段,使用简洁方便。
image

代码自动化生成:小白尝试操作了下,通过可视化表单增加一个字段后,提交后代码自动生成,生成物理表及调度任务.
image

(小白内心OS:真的好方便)
image

计算逻辑重复性校验:小白觉得挺有意思,自己仿造一个,提交时,发现居然做了事实逻辑表计算逻辑重复性校验,之前数据同义不同名的问题也可以及时暴露解决了!
image

派生指标
现在,小白需要的原材料都有了,业务需求怎么解决呢?

需求拆解
看了一遍Dataphin操作视频,小白尝试将之前整理的需求对号入座,按照One Data方法论:
派生指标=原子指标+统计粒度+业务限定+统计周期
小白的第一个业务需求可以这样实现:
1) 成交金额分布,基于事实模型中的度量(成交金额)、关联维度(用户)

  • 派生指标1:用户最近30天成交金额= 原子指标:成交金额总和 +统计粒度:用户 +统计周期:最近30天
  • ADS加工:将成交金额分段,再统计用户数

注册年限也可类似方式获取,取到max的注册时长即可。

2) 不同用户属性的分布,基于事实模型关联的枚举维度(用户等级、用户状态)、定义限定条件(业务类型)

  • 派生指标2:各等级用户最近1天数量=原子指标:用户数计数 +统计粒度:等级 +统计周期:最近1天
  • 派生指标3:各等级的A业务用户最近1天数量=原子指标:用户数计数 +业务限定:业务类型为A业务 +统计粒度:等级 +统计周期:最近1天
  • …………
  • 派生指标N,类似方式获取

ADS无需加工,直接提取对应的指标即可。

小白整理下思路,派生指标定义,follow逻辑大致如下:
image

实战操作
按照这个思路,小白迫不及待使用起来。
简单准备好原子指标、业务限定,小白就开始创建派生指标了。
快速创建原子指标和业务限定
image

image

分钟级派生指标代码生成
配置派生指标的过程异常轻松,小白怀疑自己是不是在做梦,感觉就像计算器一样 —— 不见一行代码,3步选择,1键生成所需指标。
image

令人惊喜的是,这里也有重复性校验,避免重复的指标开发。
image

一键提交,不到10s,结果就返回了!4小时的代码,到Dataphin中,这么短时间就完成了1/10!

小白不敢相信自己的眼睛,去运维、数据资产、即席查询界面再次确认了下,发现需求就这么完成了?!
image

image

万水千山总是情,大家一起Dataphin
小白正在开心地实现需求,突然业务方来新需求,他要的是最近1天、最近7天、最近30天、过去一年每个月的数据……小白心里一惊,这要多少行代码啊……转念一想,有办法了,只是变统计周期而已,对于Dataphin只是多一些统计周期选项而已,谁都可以做啊。小白将派生指标生成过程截图给业务方,告诉他选哪些选项,业务再没提需求。2天时间,小白将原计划一周完成的工作全交付了。

经过这次之后,小白发现了Dataphin好用之处,明细模型基本比较稳定,只要理解了派生指标的奥妙,多少需求都不怕,生成过程又快有稳,业务方也能看懂数据,甚至有些需求都自给自足完成了!作为公司第一批Dataphin用户,小白也快速实现从代码搬砖到数据中台专家的转变——现在的他开始挖掘更多基于Dataphin玩转的数据开发场景,衍生原子指标、层级维度、虚拟维度、有主键事实表……

好的,不说了,小白要继续和师兄、一个好奇的业务同学一起研究下,怎么让业务基于Dataphin更好更快地上云。

总结
以上事件取自客户真实实战场景,某大型传媒公司通过Dataphin,半年时间完成了如下成果:
• 数据处理平台:基于业务全局的盘点,完成整体数据架构,打通了数据归集、清洗、计算及存储,定义了适合业务的数据维度、业务过程、指标,并基于规划上线2000+个数据计算任务,完成了原系统的多年的结构转换。
• 数据资产管理平台:基于数据处理平台输出数据资产大图,一图看清数据中心的数据存储及建设情况,为业务人员提供了全地图检索能力,并提供了20+个维度及十个个业务过程及1000+数据表的查询及展现。
• 运营分析平台:基于产出的数据体系,快速构建数据分析体系,支持200+运营分析业务考核数据报表的开发落地。
• 智能推荐系统升级:基于统一、标准的数据体系,业务场景完成了数十万的Feed流内容精品池,并在此基础上完成了千人千人面的算法研发,支持了多种推荐场景,所有的算法任务支持快速变速及调整。

这只是一个客户的缩影。基于Dataphin的产品技术能力,每一个客户都可以有一个面向业务能理解、面向数据生产更经济、面向开发过程更加高效的数据架构体系,并支撑数据体系灵活扩展,让业务能快速、全面对业务进行分析和洞察,决策才能更高效、更准确!

延伸
很多客户都在问,数据仓库、数据平台、数据中台区别,基于这个场景,笔者的理解供参考:

数据仓库是20世纪,因经济快速发展、信息处理技术飞速发展,面向商业智能场景而出现的概念,它的定义是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。它奠定了目前数据体系的框架。
数据平台是一个很泛的概念,它可能代表数据计算存储体系,也可能代表管理数据计算存储、实现数据仓库等数据需求的工具套件,根据具体场景定义。但是它的目标一定是实现一站式数据相关企业需求的满足。
数据中台是这几年,尤其2019年兴起的概念,最早是阿里巴巴组织架构向中台转型,提出此概念——业务中台和数据中台双驱动。虽然每个人都有自己理解,但是笔者认为,数据中台是阿里巴巴多年大数据实践的产物,它是基于互联网飞速发展、大数据常态化等背景下,阿里巴巴作为一家重视数据驱动业务的公司,亲身实践,在数据仓库的巨人肩膀上,提出的原创创新概念——通过OneData体系让数据的建管用全链路统一、自底向上的数据体系统一且标准规范,通过实现数据生产及管理效率,从而让决策更精准、更快速,让业务创新存在更多可能性。
对于以上三个概念关系,笔者认为:
数据中台=One Data=One Model+One ID+One Service

都9102年了,企业数据建设应该从数据仓库转型至数据中台建设,而实现数据中台建设最佳数据平台工具就是阿里巴巴原创产品Dataphin。

结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:

Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
5月前
|
数据采集 存储 监控
数据驱动开发:如何将数据分析融入开发流程
【8月更文挑战第14天】数据驱动开发是一种高效、智能的软件开发方法论,它通过将数据分析深度融入开发流程中,实现了精准决策、提升效率和持续改进的目标。为了成功实施数据驱动开发,团队需要明确数据需求、设计合理的数据架构、集成数据收集工具、实施CI/CD流程、进行数据分析与决策支持以及建立反馈循环机制。同时,还需要应对数据质量、技术和组织与文化等挑战。通过不断努力和实践,团队可以逐步建立起完善的数据驱动开发体系,推动产品不断迭代升级和业务持续增长。
|
7月前
|
存储 弹性计算 DataWorks
云端开发与数据分析的强强联合
通过这次方案的搭建和使用,我更加确信阿里云产品组合是企业数字化转型的强大助力。我鼓励大家积极探索和尝试这些服务,以发掘它们在实际业务中的潜力和价值。我深刻体会到了阿里云产品组合的强大能力和灵活性。它们不仅帮助我们解决了实际问题,还为未来的发展提供了坚实的基础。我强烈推荐其他企业和开发者尝试这样的产品组合,以提升开发效率和数据处理能力。
140 35
|
7月前
|
存储 数据挖掘 索引
Python streamlit框架开发数据分析网站并免费部署
使用Python的Streamlit框架,开发了一个在线数据分析工具,替代Excel查看设备温度CSV数据。通过pandas读取数据,matplotlib绘制图表。程序处理CSV,提取所需列,计算最大最小平均值,用户可多选查看特定数据。[GitHub](https://github.com/yigedaigua/MGHB)上有完整代码,应用已部署至Streamlit Cloud。
141 1
|
8月前
|
数据可视化 数据挖掘 Python
基于Python开发的Excel数据分析系统(源码+可执行程序+程序配置说明书+程序使用说明书)
基于Python开发的Excel数据分析系统(源码+可执行程序+程序配置说明书+程序使用说明书)
163 0
|
8月前
|
机器学习/深度学习 数据挖掘 BI
推荐一款 Python 数据分析报告开发与分享神器
推荐一款 Python 数据分析报告开发与分享神器
133 0
|
8月前
|
机器学习/深度学习 数据采集 人工智能
Python可以应用于多个领域,如Web开发、数据分析、机器学习等
Python可以应用于多个领域,如Web开发、数据分析、机器学习等
130 0
|
SQL 数据采集 数据可视化
数据开发模块中的SQL和数据分析模块中的SQL查询
数据开发模块中的SQL和数据分析模块中的SQL查询
181 1
|
机器学习/深度学习 人工智能 算法
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
192 0
|
存储 数据挖掘 API
python开发:空气质量历史数据分析(一)
python开发:空气质量历史数据分析(一)
183 0
|
数据挖掘 索引 Python
python开发:空气质量历史数据分析(四)
python开发:空气质量历史数据分析(四)
177 0
python开发:空气质量历史数据分析(四)

热门文章

最新文章