大数据团队从2到3

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 其实从3.0阶段开始,团队的升级路线就比较分散了,依赖于各公司对于数据团队职能的定位和期待。

其实从3.0阶段开始,团队的升级路线就比较分散了,依赖于各公司对于数据团队职能的定位和期待。


大数据团队在2.0阶段建设完成之后,3.0阶段的方向就变得多样化。


有些公司会选择“加强纵深”,选择1、2个重点方向,加大投入、扩充人员、持续深挖。例如某公司想要重点加强数据的实时处理能力,则会重点扩充实时计算团队;

有些公司会选择“拓宽广度”,让大数据团队变得可独立运作、独立输出、野蛮生长,为其补充缺少的职能,作为公司业务发展的“突击队”。


本人所在公司属于后者,所以本文重点介绍这一思路。


背景


2.0阶段,大数据团队的开发职能已经基本健全,可以完成大数据领域内的所有类型的开发工作。

从流程上来讲,一个“开发团队”的需求来源一般是产品或运营团队。产品或运营团队提出的需求,一定是在其“眼界之内能做到的事情。大数据虽早已不属于尖端、新潮事物,但对于高端人才储备不足的公司来讲,这一领域仍然不是普通的产品经理或运营专员所能驾驭的,更别说提出一些有价值的需求了。

于是就出现了一个严重的问题:“公司对于大数据团队的期待”与“大数据团队的实际产出”不符。公司期望大数据团队做出数字化的创新,构建数据与技术的壁垒,而产品或运营团队却没有这类经验和人才,无法提出有价值的需求。


解决方案


解决这一问题的方案,就是:让大数据团队变得可独立运作、独立输出、野蛮生长,为其补充缺少的职能,作为公司业务发展的“突击队”。


1. 缺少的职能


  • 产品经理。作为一个可独立运作的产研团队,最重要的职能就是“产品经理”。产研团队是靠“需求”驱动的,而需求是由产品经理产出的,产品经理是整个链条的最前方。
  • 测试。如果说整个链条的前方是产品经理,那链条的后方就是测试。


2. 流程与规范


合理的组织建设,是最重要的前提。在这之后,作为一个可独立运作的团队,还需要有属于自己的节奏。要保证大家在一个相同的节奏下工作,不会受到其他因素的影响(例如管理者的不同风格、差异化的工作流程和规范等等,都会导致节奏的不一致)。


一般,“突击队”是不适合有太多流程规范的。流程规范对于正规军来讲,是极其关键的要素,但对于“突击队”来说反而是一种束缚。被约束在框架内,限制了速度、限制了创意,也就限制了最终的产出。


因此,我们需要的流程规范,既应该保证“不要有太多约束”,又要能维持住“良好的质量”和“较高的交付效率”。


3. 设立团队愿景


愿景就像海洋中的灯塔,有了,才不会迷路。


3.0阶段的愿景,与公司对大数据团队的期待,密切相关。

这份期待可以是:

  • 构建数据分析平台,提升运营效率;
  • 辅助公司经营决策;
  • 管理公司数据资产;
  • 建设数据中台,匹配“业务+数据”双中台战略;
  • 提升数据挖掘能力,构建数字化壁垒;
  • ……

等等等等。团队的全体成员,都需要将愿景牢记于心。


有了愿景,团队成员可以凭借强大的自我驱动力,自己给自己安排工作,不必再依赖任务的层层下达。创新的土壤,也就有了。


工作方向

1. 有了问题,解决问题


这类工作,规划起来是比较简单的。无非就是人力、时间和成本的问题。


例如:大数据团队的人力,长期被零散的临时取数需求占用,导致无法集中精力做重要的事儿。那我们就要想办法解决这一问题,比如:将流程规范化、在线化,开发自助取数功能、将部分有共性的取数需求变为自动化等等。


2. 没有问题,创造问题,解决问题


这是很难的。


一帆风顺的日子,才是最该警惕的。危机往往就是在一个风平浪静的午后,静悄悄地降临,往往会让自己措手不及。为了时刻准备好应对危机,我们需要提前做哪些准备呢?


例如:建设应急响应预案。就像这次疫情一样,线下实体经济遭受重创,部分没有退路的企业直接扛不住而倒闭。很多互联网行业也受到波及。响应迅速的公司,可以第一时间做出调整,迎接挑战、应对危机。


工作成果


本阶段的工作成果,应该比前两个阶段更多、更容易。在做好了人与组织的准备,使命愿景价值观的制定,以及初步的底层框架搭建之后,可以在上边堆大量的应用。下面列举一些从各个公司的技术分享中学习到的、可以尝试的内容:


  1. BI平台。早在1.0阶段,我们就建设了第一版的BI平台,但对于业务驱动型公司来说,早期的BI平台截止目前很可能已被重构过几十次,产品设计缺少框架性、逻辑性。这一阶段在拥有产品经理职能之后,应从全局出发,重新设计BI产品,使之逻辑清晰、框架稳定,且不受各业务部门的零星想法所干扰;
  2. 智能配送调度平台。早期在美团、菜鸟的技术分享中学习到的。将大量的数据与算法结合,构建一套独立的智能调度平台,甚至可以直接对外开放,开放给其他需要线下运力的企业;
  3. 风控系统。业务发展到一定规模之后,难免被黑灰产盯上,利用产品漏洞进行一些不好的行为。是时候该构建自己的风控系统;
  4. 用户画像体系。在积累的大量数据之后,我们可以基于用户画像构建人群,并对不同人群进行差异化运营,降低运营成本、提升运营效率;
  5. 自助取数平台。上面提到过的产品,用来释放数据团队的人力、提高数据交付的时效和质量、保证口径的一致性;
  6. AIOps。系统问题的发现,从“阈值告警+人工判断”阶段开始,已经积累了一些有价值的数据和经验,将其融入到算法中,使之越来越少的依靠人工;
  7. 智能问答机器人。用于对外的产品上,可提升客服效率;用于内部的产品上,可提升公司员工的协作效率;
  8. 自动化运营体系。将多年以来积累的有效的运营手动,变成自动,并提供监控、手动干预等功能,将运营效率提高到最大;
  9. 用户评论情感分析。对接监控告警,可以实时掌握到用户对平台的态度变化、用户的流失趋势、部分地区部分类目下的问题萌芽,并第一时间安排人跟进处理;
  10. 知识库。通过带有NLP的搜索引擎,构建对内、对外的知识库体系,并持续优化搜索效果;
  11. 智能推荐体系。构建一套既符合用户喜好、又满足公司经营需要的智能推荐体系;
  12. ……


总结


本阶段的目标是“价值输出”。

凭借强大的技术实力、优秀的人才储备、庞大的数据积累、和正确的使命愿景价值,观,大数据团队将在价值输出的道路上,越走越远、越飞越高。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
机器学习/深度学习 运维 算法
|
7月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
机器学习/深度学习 分布式计算 算法
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
随着近年来深度学习技术的发展,各种机器学习平台也纷纷涌现或从专用走向了开源。到现在,一家科技巨头没有一个主导的机器学习平台都不好意思跟人打招呼。比如谷歌有 TensorFlow、微软有 CNTK、Facebook 是 Torch 的坚定支持者、IBM 强推 Spark、百度开源了 PaddlePaddle、亚马逊也在前段时间高调宣布了对 MXNet 的支持。 现在,腾讯也加入了这一浪潮。在 12 月 18 日于深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上,腾讯大数据宣布推出了面向机器学习的「第三代高性能计算平台」——Angel,并表示将于 2017 年一季度开放其源代码。
493 0
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
|
数据可视化 JavaScript 算法
大数据时代的特种兵:阿里数据产品团队
你可能用过数据魔方、淘宝指数、淘宝时光机这些好玩的产品,为其对大数据的运用点赞,或许你还对阿里巴巴在大数据这领域所做的工作感到好奇。在这里,Segmentfault 给大家来介绍一下这些炫酷产品背后的团队:阿里数据平台事业部数据产品团队。
529 0
大数据时代的特种兵:阿里数据产品团队
|
机器学习/深度学习 分布式计算 DataWorks
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练!
3252 0
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
|
机器学习/深度学习 分布式计算 DataWorks
|
大数据 流计算 运维
大数据团队从1到2
1.0阶段的核心是数据分析,把大数据离线计算的整套流程和框架搭建起来,后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的,即每天、每周、每月定时计算的,快一点儿的有每小时、甚至每5分钟的,都是离线数据,实时性不足。2.0阶段重点加强的,就是实时计算领域。
1171 1
|
大数据 BI 数据挖掘
大数据团队从0到1
“大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。
2324 1
|
大数据
CCF大数据与计算智能大赛在沈阳浑南落幕 45支团队赢百万奖金
12月2日,第六届2018 CCF大数据与计算智能大赛决赛嘉年华系列活动在沈阳浑南创新天地落下帷幕。
1691 0