那些年,我在阿里当数据开发

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 借助这篇文章,讲述作者在阿里5年数据开发经历 ,希望在个人发展上能给大家提供一点帮助。

前言:
-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 (文末扫描二维码或点此加入

-阿里云数据中台官网 https://dp.alibaba.com/index

(作者:数据从业者 )

我是阿里数据部门的一名数据技术专家,现在主要在对外部客户的一些数据中台项目中,做技术以及产品的支持。
我原来在阿里内部其实做了5年的数据开发,现在在做一些外部项目的时候,经常会和一些生态合作伙伴公司一起去交付项目,在这些合作伙伴的数据开发中,不管是新人还是老人,都能看到我曾经的一些影子,所以我想借助这篇文章,讲述一下我在阿里当数据开发的一些经历 ,希望在个人发展上对他们有一点帮助。

我是13年加入阿里的,在进阿里前,原来是做银行的数据仓库建设,用的是TERADATA的LSDM那套3NF建模的方法,技术也主要围绕TERADATA和后来的GREENPLUM为主,所以进到阿里后,会有一个在业务和技术上适应的过程。
首先是技术上,我进到阿里后,那时候阿里正处于底层的数据处理平台更换的阶段,从GREENPLUM替换到HADOOP平台,因此我进入部门后,首先对HADOOP大数据平台并不是很熟悉,因为那时候银行里面都还没有开始用HADOOP平台,所以一开始对HADOOP这套计算架构就非常的不适应,比如为什么跑个SQL这么慢,执行个SQL还要打开网页运行(因为我们原来用的是在云端),这是一个慢慢熟悉和适应的过程。

另外一方面是业务方面的适应,需要从原来熟悉的银行业务,过度到互联网业务。业务变了,对应的数据也都发生了很大的变化,我到了ICBU后,被分配到负责流量和广告相关的业务,会接触到大量的日志数据,比如页面浏览,点击,曝光,还有P4P点击广告相关的日志,面对这么多非结构化的日志数据,我一开始都不清楚为什么需要这些日志的数据, 但是通过后面不断对互联网业务的熟悉,才知道流量分析对网站的重要性,这个阶段我也熟悉了很多流量相关的业务知识,比如SEM,PPC,SEO,联盟等等。

这个阶段除了提高新的技术和业务能力外,主要的工作就是不断的接需求做报表。团队里面有专门的数据PD,他们的职责就是"接活",每天接业务方的需求,然后通过需求沟通和分析,每个月排定我们数据开发的资源,所以时间长了以后你就会觉得你就仅仅是一个资源,个人价值无法得到体现。

所以后来我们进行了改革,就是让数据开发自己到前面,接业务的需求,然后自己沟通和分析,数据PD就都去做PD应该做的数据产品设计。说实话,这是一个很好的让开发成长的措施,因为做数据的,要想真正了解数据,你首先要了解对应的业务,不然你开发出来的数据,就只是那几张硬生生的报表。也正因为这个阶段,我学会了一些如何和业务“谈”需求的方法,比如WBRD,问需求方十个问题,像需求基于什么样的业务背景,业务的痛点是什么,指标中的模糊词汇如何定义,等等,将这些都问题清楚,你才能知道你为了什么而开发这个需求,而且你才能知道哪些需求该重点优先去排自己的时间做,这就是去做正确的事情。

另外这阶段也学到了一些数据分析的方法,因为我做出来的报表需要直接面向我的最终用户的,原来是开发好后,就丢给数据PD,所以现在业务方会直接来找我说,某某,你这个数据不对啊,这个时候,我才知道业务原来是这样分析数据的,因为我所在的是流量线,我也知道了原来流量是如何做相应的数据监控,才能及时的发现问题,排查问题,定位原因以及解决和预防问题。

所以,这是一个“往前迈一步”的阶段,这个阶段让我学会了需求分析和数据分析的一些方法,让我觉得个人的价值还是有一定的体现的,有时候被业务方点赞和认可,自己心里还是很暗爽的~~~

后来,阿里进行了登月项目,这个大家很多人都知道,就是将阿里所有部门的数据平台都迁移到ODPS,然后统一使用ONEDATA建模方法论去进行建模工作。但是我后面的工作重心并不是在ONEDATA建模上,而是在ODPS资源优化上。因为自从登月以后,ODPS的计算和存储是使用量不断提高,出于降本增效的目的,当时的CTO就成立了专门的数据管理委员会,并且基于统一的数据资产管理平台,进行全集团的数据治理。参加过我们培训的人应该知道,主要的治理也是包括计算和存储两方面,对应的有计算健康分和存储健康分,如果达不到一定分数的人到时候就不能使用ODPS,所以那时候,我接到的副业就是,做为接口人,帮助整个B2B的同学一起进行优化。

image.png

所以,这一阶段,我的工作就是组织全BU的人,学习ODPS的优化方法,包括一些后端和算法部门会使用到ODPS的同学,将一个个有问题,比如消耗资源TOP的几个SQL,抓出来教他们进行优化,但是你要教他们首先你得会一套有体系的优化方法,这个首先还得依赖我们阿里强大的产品能力,一些优化的方法论其实都体现在产品上,通过对数据管理平台中优化方法的学习和沉淀,那段时间我几乎每天都在和这些问题SQL打交道。而且后来我还接了整个数据开发部门慢报表的治理的工作,就是看部门哪个报表慢,哪个报表30天没人访问了,该下的下,该优化的优化。所以也正因为这个阶段的刻意训练吧,我熟悉了ODPS的底层的一些原理,以及处理MYSQL,ADB一些慢SQL的方法,以及针对不同的分析场景需要采用什么样的数据存储,是MYSQL还是ADB。

所以,假如你是一名合格的数据开发人员,你开发出来的报表查询时间不能低于3秒,开发的ODPS任务不能出现像数据倾斜,或者分区裁剪失效等问题,而且你要知道具体优化的方法。

接着后来做完这些工作后,我又往前走了一步,就是和团队的产品PD,一起搞了一些数据产品,比如一些应用计算的组件平台,还有核心指标库,以及一些业务的数据门户。因为你做到后来你会发现,正在能带来价值的还是产品,而且一方面你可以将你的一些方法论沉淀在产品上。这个阶段也从产品PD那里学了一些产品设计的方法,至少用AXURE画个产品的DEMO应该没问题吧。

另外这个阶段我也懂得了一个方法,就是你要学习一个技术,或者一个事情吧,你可以先从它对应的产品学起,因为产品往往是业界对应的方法论的沉淀,你可以通过产品,很快地掌握这件事情的方法,就比如我们的DATAPHIN产品,如果你要学习数据中台相应的方法论,你可以通过DATAPHIN产品学,包括数据建模,数据资产,数据质量等等方法论,都会在产品中体现。

image.png

至于后来为什么我开始支持对外的项目,是因为我看到了更多的社会价值,通过阿里云,我们输出原来阿里沉淀的一些数据中台建设的方法论,可以帮助外部的企业进行数字化转型,我觉得我更倾向于选择支持外部。

写在最后,我觉得大家都是在将自己的能力最大化,价值最大化的过程中前进,所以有时候“往前迈一步”,可能会有更好的风景。


数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输出,包括零售金融互联网政务等领域,其中核心产品有:

官方站点:
数据中台官网 https://dp.alibaba.com
数据中台钉钉群二维码2.jpg


相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
运维 大数据 数据建模
连载7:阿里巴巴大数据实践:OneData模型实施介绍
如何从具体的需求或项目转换为可实施的解决方案,如何进行需求分析、架构设计、详细模型设计等,则是模型实施过程中讨论的内容。
6577 1
连载7:阿里巴巴大数据实践:OneData模型实施介绍
|
3月前
|
人工智能 边缘计算 API
AI协作的四大支柱:协议详解与应用场景全解析​
本文深入解析Agentic AI协议的四大核心协议——MCP、A2A、ACP与ANP,涵盖技术特性、应用场景及选型指南,助你掌握多代理协作系统构建要点。
435 6
|
4月前
|
人工智能 自然语言处理 小程序
微信小程序+淘宝API,无缝购物体验提升复购率!
在电商竞争激烈的当下,微信小程序与淘宝API的整合为商家提供了一条提升用户体验与复购率的创新路径。本文详解其整合原理、实现步骤及优势,助力商家打造无缝购物体验,提升转化效率。
229 0
|
5月前
|
机器学习/深度学习 存储 Prometheus
机器学习模型监控警报系统设计:Prometheus+Evidently 实战教程
本系统采用Prometheus与Evidently双引擎架构,实现从数据采集、智能分析到精准告警的全流程监控。通过时序数据与模型分析深度集成,支持数据漂移检测、性能评估及根因分析,结合Grafana可视化与Alertmanager智能路由,构建高可用、低延迟的监控体系,显著提升异常检测能力与系统稳定性。
258 1
|
9月前
|
数据采集 JavaScript 程序员
低代码时代下的传统爬虫反击
本文探讨了传统爬虫技术与低代码平台在数据采集中的角色。尽管低代码工具在简单任务中表现出色,但在应对复杂反爬机制(如TikTok的动态加载和JS渲染)时,传统编程仍具不可替代的优势。通过Python代码示例展示了如何使用代理IP、设置请求头等技术手段,成功爬取TikTok视频简介和评论。未来,两者将融合共存,低代码负责快速构建基础爬虫,而复杂问题则依赖传统编程解决。
198 9
低代码时代下的传统爬虫反击
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
1343 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
|
9月前
|
人工智能 自然语言处理 开发者
开源上新 | 通义音乐生成技术InspireMusic
开源上新 | 通义音乐生成技术InspireMusic
|
11月前
|
存储 Linux API
深入探索Android系统架构:从内核到应用层的全面解析
本文旨在为读者提供一份详尽的Android系统架构分析,从底层的Linux内核到顶层的应用程序框架。我们将探讨Android系统的模块化设计、各层之间的交互机制以及它们如何共同协作以支持丰富多样的应用生态。通过本篇文章,开发者和爱好者可以更深入理解Android平台的工作原理,从而优化开发流程和提升应用性能。
|
算法
数据结构之购物车系统(链表和栈)
本文介绍了基于链表和栈的购物车系统的设计与实现。该系统通过命令行界面提供商品管理、购物车查看、结算等功能,支持用户便捷地管理购物清单。核心代码定义了商品、购物车商品节点和购物车的数据结构,并实现了添加、删除商品、查看购物车内容及结算等操作。算法分析显示,系统在处理小规模购物车时表现良好,但在大规模购物车操作下可能存在性能瓶颈。
297 0
|
数据采集 存储 SQL
连载:阿里巴巴大数据实践—数据开发平台
介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍。
7925 0
连载:阿里巴巴大数据实践—数据开发平台

热门文章

最新文章