数加:从数据工程师到CDO的七次升职路

简介: 2017云栖大会深圳峰会,阿里云高级产品专家陈鹏宇带来题为“数加:迈向数据智能之路”的演讲。本文引入一个数据工程师到首席数据官的七次升职过程,阐述了阿里大数据的进化史,其中包括Quick BI、DataV、PAI、公众趋势分析、MaxCompute & Data IDE以及推荐引擎等都进行了详细的解析,一起来了解下吧。

2017云栖大会深圳峰会,阿里云高级产品专家陈鹏宇带来题为“数加:迈向数据智能之路”的演讲。本文引入一个数据工程师到首席数据官的七次升职过程,阐述了阿里大数据的进化史,其中包括Quick BI、DataV、PAI、公众趋势分析、MaxCompute & Data IDE以及推荐引擎等都进行了详细的解析,一起来了解下吧。

 

以下是精彩内容整理:

大数据实践之路并不像新闻描绘的高大上,很多企业仍然还没有解决看数据的问题,下面我会结合自身的体会,以一个虚拟人物的形象来描述如何一步步把企业大数据应用水平从早期的BI看数据一直到数据化运营到后来建立数据中台运营数据、激发数据创新的过程,在此过程中,数加也完成了它的使命,即帮助开发者在大数据方面实现升职加薪。

那么,小D是如何实现七次升职,从数据工程师到首席数据官CDO的呢?

 

第一份工作

62f1c4a3ea133da852318ff452e67b366fb339a4

老板需要一份经营报告,看过去一年各地区的新用户发展情况。小D熬了一个通宵将数据用脚本拖到临时数据库中,写了几十条SQL并生成一份报表交给了老板,并获得了表扬。

30b3b46337cbece36a7209a2b667fd1124778980

而老板/业务人员的需求越来越难满足,他们会不停地要经营报告、会员分析等,小D自己是处理不完这些事情的,所以就会请数据开发工程师帮忙提数据,工程师需要考虑搭建数据仓库,考虑从源数据找各种数据,理解数据含义、梳理数据结构并重新加工清洗,过程中经历几次的传递,出报表时可能以及不符合老板需求,同时周期特别长,所以小D就会过着跟需求作斗争的苦日子,所有人都会跟他要报表。

所以小D突然醒悟:我缺一个能解放双手的工具!

 

第一次升职

数加·Quick BI

92ec5570be554a8864ae5617a19c84934fda3faa

数加Quick BI就是专门为解决人肉提数人的痛苦而诞生的,它可以做到在30分钟内,老板也能上手的BI。

04cc25d4d31898dc6b9fd8a3a020caa8a3ef8500

报表加工过程零SQL,直接连接到数据源库,拖拽式,类Excel多维分析 ,告别临时拖数据,该过程简单好用,不用写SQL就可以将看数据门槛降的很低。

0cf604947e5197f42cf71c86ba11bae27e39f21a

Quick BI是到阿里云上的,可以很方便地连接云上的各种数据源,包括redis、ADS、HybridDB等所有的云上数据库,点点鼠标就出数据了。

f3808c0c98b36f32c2adf6bb2c74dc22ec8bd16f

Quick BI之所以能做到直连数据源做分析,是因为背后有很强大的OLAP引擎,提供秒级别的查询响应,针对不同的查询规模,提供合适的加速服务,从而获得最快的响应速度。

3cd498195109b03087191fc63944f1ac8b58f5ea

Quick BI快捷好用,预置了很多模板,采用可视化模板,快速设计仪表板,为各部门搭建数据门户,基本一天可以搞定。

34f4ec0b1d5adeaf8dd99e0590fb36fb3954b544

Quick BI报表可以嵌入系统自身运营系统中,可以把报表嵌入公司的Portal,方便大家集中看数据。

在Quick BI的帮助下,可以实现将需求响应速度从“1周”缩短到“1小时”。

但目前为止,小D仍然没有得到解放,他依然在做报表,响应速度越快,需求方给的需求就越多,小D就会越累。有一天小D生病了,数据处理不过来时,可能就需要将Quick BI账号给需求方,让他们自己做。

c157db972c73ebd30f2b1c38b4f4029bef3b7036

需求方按照小D教的方法,真的自己把报表做出来了。

68bbd21608c3bf0287e993297f6db2f493658e57

各部门纷纷效仿,连系统工程师都开始使用 Quick BI!Quick BI for 万网,CDN,DMS,阿里云企业控制台,…

从此以后,公司里的每一个业务人员,包括大老板,都使用 Quick BI 做数据分析!

数加·Quick BI 把小D从提数工作中解放出来,伴随着数据分析效率的提升,小D迎来了第一次升职。人闲了之后,开始长出艺术细胞,小D开始琢磨着如何更好地展现数据?

 

第二次升职

数加·DataV

171fcafcf3027990093d3af60a7dc95ae5b57bdc

dataV做出了阿里双十一震撼的实时业务大屏,小D想尝试如何用更直观、更震撼的方式呈现数据。

242dc807a2736edac83628a0763424225286132c

春节的红包大战给了他机会,小D的第一个可视化大屏作品诞生了。领导特别满意,当场给我发了1万元红包,但小D想要更美的方式!于是…他做了各种尝试:

实时指挥监控

04c127a886fcfd74ba707589617fd81de750fa38

业务运营大图

b3163d9742c496abe07f05abd93c7f0a596eef33

4fa4a276c21e2805a2c829f323c200d30f799e81

直到有一次国家领带来访,CEO给国家领导作了一次精彩的汇报,小D深受鼓舞原来自己身上有辣么多艺术细胞。

于是,他买了DataV开发者版,开始想着如何赚外快。比如:

企业概况

21be54d356d9bcf63c21298cba21c61220df36ad

工业物联网

54652608545f5a57892f041e7de60e2f58bd2cfe

税收分析

c113ef1aa9c0a5badf0e9b51e3a91ad3e1ea424e

智慧城市

74bf2c6a89b5748c2ba610e65ff0c23607b89932

DataV 帮小D赚了很多外快,心有戚戚,总想着为社会做点贡献:

2017/01/23-22时空气质量

4db98bd4d6e3440a8f55c763ad30a94eab1a1f43

全球象牙走私犯罪活动数据

e37cc7278c772cb4bf2424ab178242ce2c9ec955

数加·DataV 让我看见数据之美,在提升公司格调的同时,小D也迎来了自己的第二次升职。

 

第三次升职

美好时光总是波澜不惊…直到某个周末,突然间,负面新闻铺天盖地而来。

0a56c0dc63c7578da5d58ab802706265a636ca80

一次负面新闻被炒作扩散了,该从哪着手分析呢?这时就需要一个手段,能够快速的帮他对负面事件的影响和传播情况进行预判和控制,这就需要舆情监控工具的帮助。

数加·公众趋势分析

4d25f347cbde7953c9fa7b8588a2cac688cd13e2

公众趋势分析可以时刻关注您的口碑,它可以直观的看到事件造成的影响面和传播效果。

ef3ffb9cf67341af4a6177c6628ce1f2ede61922

我们可以看到是谁在传播舆论,共计转发次数和每层转发次数,是否被衰减,过程中有没有水军参与等,都可以一目了然。

1d914285e53448ee641b728a344090abda7c141d

还会对影响面进一步分析,扩散范围有多大等等

2c5ffe0ead1b7b8cabf9fb2eb1ae1fb77fc07837

也会对公众对此事件感受如何作分析,在不同阶段,公众整体对事情的认知,会有博弈、会有专家跳出来,也有公司公关部门参与,我们可以用从情感值的变化来看公司公关采取手段是否有效。

1797b18ac658d22f4f10cc2a75a695bbdd3b2f35

通过公众趋势分析,我们总结出来以上几种舆情扩散模式。

公众趋势分析主要从四方面为大家提供方便:

  • 监测:2分钟更新一次大中型网站数据;涵盖全球网络媒体,千万源站,20亿网页(包含境外主流新闻网站数据来源);高效、稳定的爬虫技术及平台支撑;
  • 预警:负面舆情自动预警;
  • 分析:舆情精准匹配;精准算法将信息自动聚类;情感正负面分析;热词云图,专业图表报告;
  • 跟踪:舆情事件跟踪。

7ad6cabf3b53faed1ea6ab7bfeb286e6291cd3f4

利用公众趋势分析可以做很多很多事情,比如:

  • 传媒行业:发现事件热点,梳理传媒脉络,跟踪栏目受众的喜好倾向,鉴别新闻炒作
  • 企业品牌:分析消费者对品牌的认知和注意力迁移,关注竞品分析,塑造品牌口碑
  • 旅游行业:倾听游客反馈,预判旅游出行趋势和热门程度,提升旅游服务的体验

数加·公众趋势分析 赋予我千里眼、顺风耳,在挽回公司口碑的同时,小D实现了第三次升职。

 

第四次升职

此次负面新闻使得用户粘性下降了,老板要我出一个提升业绩的方案。

53fcda176c4a777aa39a49cc89567be98d168992

小D给老板建议做内容社交,先从新闻推荐做起。本来这就是尝试性的事情,对于创业公司投入太多精力是不划算的,所以小D用了数加推荐引擎。

数加·推荐引擎

推荐引擎21天搭建个性化推荐系统,在新闻场景中推荐引擎提供了哪些能力?具体如下:

1.         新用户冷启动:通过阿里云提供的海量用户人群特征提供最精准的推荐服务,为企业解决新客户的冷启动推荐;

2.         新闻智能分类:通过自然语言处理(NLP)、深度学习为新闻实现自动打标,并分类;

3.         用户兴趣画像:基于新闻内容、用户属性、用户行为三类数据,进行特征提取,输出用户兴趣画像、品类画像、新闻画像;

4.         新闻实时推荐:新新闻毫秒级推荐(实时修正),老用户毫秒级推荐(在线推荐),新用户2~3分钟推荐(近线推荐)。

推荐引擎真的很简单,按照开题服务——上传数据——配置推荐场景算法——API对接——查看效果报表的流程实现。

除了新闻推荐,还做了短视频、音乐、内容社交和群组等。我也推荐给朋友们用:

好看锁屏

340d39b2bb03cf83e590771ac95381f1aca7be4f

大麦网

0e7c6d5981b96bac33bc062c36479101be3c02d6

以大麦网安卓客户端为例,图中为已有的个性化推荐。

短视频推荐

d687144c502576bd3699d77c31813e64e34eb392

数加·推荐引擎让我第一次感受算法的魅力,成功启动内容社交的同时,小D获得了第四次升职。

 

第五次升职

后来小D惊喜地发现:数加·推荐引擎 居然支持自定义算法,但小D没有学习过算法,机器学习PAI恰巧可以解决问题。

数加·PAI

数据分析师 + 数加·PAI = 数据科学家

ca3c7a0a3facd1a8b0e973c18a84b721c9936949

不需要很深入的了解,只需要算法的关键参数配置,理解应用场景,经过1天的学习,很快就可以上手了。PAI提供了数据预处理、特征工程、机器学习模型训练和模型评估等方面整个过程的包装。

10aeb51a61451f311cef2d5cb46c82d797736f0e

了解后,小D开始用算法解决社交场景中的难题:

  • 利用关系挖掘算法K-CORE找出社交关系链中的粉丝领袖
  • 通过掌握粉丝领袖的属性特点可以快速实现整个粉丝群体的人物画像
  • 通过标签传播算法,可以分析社交链路中的情感传播模式,对微博大V的正面情绪或者是负面情绪在整个粉丝链中的传播效果进行预判
  • 通过最大联通子图和最短路径算法,可以将社交链路中的人脉关系按照一度人脉、二度人脉准确分类

04ea5f14b07bd4bb4d314402824fd1ceaaff30a4

阿里云机器学习(PAI)有最全的分布式算法库,支持流行的深度学习框架,阿里自己也会有深度学习的算法。同时,PAI天池算法大赛已经有数万名选手参加,这里才是最强大脑。

3a27425c309f25832f32deb85953e7d6b50a7658

数加·机器学习PAI 让分析师也会用算法,提升数据化运营能力的同时,小D实现了第五次升职。

 

第六次升职

公司的社交网络越做越大,老板开始想要收入了,从流量变现开始。

9450280e4aec2dede366c9c72f88cad20a5e07d3

我们自己研发的营销系统,很快遇到了瓶颈。比如:

  • 性能不达标:高并发访问,整个广告过程要求小于100毫秒
  • 营销效果不佳:数据积累不够,算法效果一般
  • 实时优化与海量数据的矛盾:数据量日益庞大,但广告优化的实时性要求不减
  • 工程量及运维挑战:开发和运维的人力投入成本较大

我们不想过多的经历解决技术问题,只关心流量问题,因此尝试了数加营销引擎。

营销引擎

94133d77a9827d94485f2bbc46ce44e07695576b

营销引擎将原来流量系统迁移到新版流量系统中,对接的第三方投放系统也可以自己来做,3天可以搭建高水准的DSP系统。

e3b01adcc5ece854edffc3df02761a8ff698f226

营销引擎提供了所有基础的能力和功能,整个过程只需要一个人,2天半时间就可以将全新的营销系统搭建起来。

5518661abb4693e6aae583c4b3c300a9153cf335

营销引擎提供很多技术能力,效果得到显著提升。

ebc7ad1044ff9dda26f98bdaf65a54794b01d225

最终给客户形成完整的、带数据的、自有的广告营销平台。

d17c1551c13ca5e1004707a5f92c42dc77c2d0cd

营销引擎(Open Ad)为企业搭建自有DSP、ADN、DMP系统,提供稳定可靠有效的竞价、投放、受众定向、CTR预估、效果优化等核心能力。以API及源码的形式提供。

数加·营销引擎让我们看到流量变现原来可以这样玩,在帮助公司盈利时,小D又一次实现了升职。

 

第七次升职

内部数据已经形成了脆弱的生态系统,深层次问题浮出水面,比如规模达到PB级,算不动了;存储和计算成本越来越高;平台稳定性差;同一份数据被重复存储和计算;几千份代码不好管理等。

数加·MaxCompute & Data IDE可以帮助数据官搭建底盘。

数加·MaxCompute & Data IDE

9519a9c4d424841b67506afe2adcaae39e0b3693

简单易用的数仓开发套件 Data IDE,从找表开始,到申请权限,设计工作流,支持跨团队合作,再到发布监控,包括数据质量的监控等。

ccf6ea1d6e2a9ac0e52af9a34621f6866b95fdd5

整个数据加工处理的过程就是传统的数仓,数仓的建设是一个迭代的过程,快速构建基于云的数据仓库,可以支持机器学习PAI算法的挖掘、BI的OLAP等。

形成【数据中台】体系,支撑数据应用快速创新,需做到以下三点:

1.         统一平台,数据大集中:统一的存储,统一的计算引擎,统一的数据开发平台

2.         资源共享,弹性分配:基于ODPS多集群技术,由数以万计的服务器提供超级计算能力,按需弹性分配给各数据开发团队

3.         数据隔离,分权管理:基于ODPS多租户机制,各部门可独立管理自身的数据,独立做数据授权

88cd30247fd0df9cc347c54d9eccc10e9a36faa6

实现统一平台后,就可以做数据安全、数据质量、数据成本的管理,我们的算法模型、数据等都是可以共享的。中台上面支撑的业务是一个存——通——用的过程。

7a8350a4890bdad4b83c5b295c7b120d62817d80

所有行为的背后都是有数加引擎支撑,maxcompute是数据仓库的基石,analyticDB可以让数据探查变得自由等。

依附数加·计算引擎大数据的百年根基,搭建数据中台,自此,小D完成了到CDO的转变。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
存储 SQL 算法
字节跳动大数据研发岗位面试题目
字节跳动大数据研发岗位面试题目
28 0
|
存储 机器学习/深度学习 人工智能
独家专访阿里云存储负责人吴结生:我经历的三个重大决策
云原生正在重新定义存储,而存储只是基础软件领域中的一环。本期 C 位面对面,我们有幸邀请到了阿里巴巴高级研究员,阿里云智能存储负责人吴结生(Jason Wu),他亲历了阿里云存储技术高速发展的 8 年,此次,他将与 InfoQ 共同解读存储技术的现在与未来,以及他本人在职业生涯中面临的一些抉择和个人成长感悟。
1330 2
独家专访阿里云存储负责人吴结生:我经历的三个重大决策
|
SQL 运维 JavaScript
从安卓主管转型大数据开发,我经历了什么?
从安卓主管转型大数据开发,我经历了什么?
从安卓主管转型大数据开发,我经历了什么?
|
人工智能 算法 前端开发
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
“数据科学家”或许不再性感,但“数据团队”的产业化才刚开始 | 专访领英全球数据科学团队负责人
222 0
|
机器学习/深度学习 分布式计算 DataWorks
|
机器学习/深度学习 人工智能 分布式计算
招聘!招聘!招聘!计算平台解决方案架构师专场
为了帮助客户更加高效地使用大数据产品,发挥数据价值,现计算平台招募大数据及AI产品解决方案架构师,欢迎在北京、杭州的同学加入我们!
招聘!招聘!招聘!计算平台解决方案架构师专场
|
新零售 算法 机器人
报告!这群阿里工程师在偷偷养猪
今天下午,期盼已久的阿里巴巴技术脱贫大会就要开始了。 很多人都知道,我们在1年前就投入100亿元人民币成立阿里巴巴脱贫基金。从教育到健康,再到女性、生态和电商扶贫,这五个方向分别由五位阿里合伙人直接牵头。
3015 0
|
人工智能 算法 大数据
职播间 | 大数据分析工程师的求职分享—从大厂到初创企业的决策之路
在国内市场,人工智能和大数据领域人才出现巨大的缺口。而数据分析师入行需要的技术能力较易,转行/自学性价比极高,成为大数据领域的热门职业。
352 0
|
算法 Java Spring