如何打造优秀的大数据团队|

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

对于企业来说,要建设自己的大数据平台,需要的不只是技术解决方案,更重要的是组建一支优秀的数据团队。那么,数据团队有哪些成员组成?他们的工作方式是什么?采用怎样的组织架构来开展工作?

  1. 数据团队成员

  这里只讨论数据团队中核心成员的角色和他们的工作职责。

  1)基础平台团队

  主要负责搭建稳定、可靠的大数据存储和计算平台。

  核心成员包括:

  数据开发工程师

  负责Hadoop、Spark、Hbase和Storm等系统的搭建、调优、维护和升级等工作,保证平台的稳定。

  数据平台架构师

  负责大数据底层平台整体架构设计、技术路线规划等工作,确保系统能支持业务不断发展过程中对数据存储和计算的高要求。

  运维工程师

  负责大数据平台的日常运维工作

  2)数据平台团队

  主要负责数据的清洗、加工、分类和管理等工作,构建企业的数据中心,为上层数据应用提供可靠的数据。

  数据开发工程师

  负责数据清洗、加工、分类等开发工作,并能响应数据分析师对数据提取的需求。

  数据挖掘工程师

  负责从数据中挖掘出有价值的数据,把这些数据录入到数据中心,为各类应用提供高质量、有深度的数据。

  数据仓库架构师

  负责数据仓库整体架构设计和数据业务规划工作。

  3)数据分析团队

  主要负责为改善产品体验设计和商业决策提供数据支持。

  业务分析师

  主要负责深入业务线,制定业务指标,反馈业务问题,为业务发展提供决策支持。

  建模分析师

  主要负责数据建模,基于业务规律和数据探索构建数据模型,提升数据利用效率和价值。

  2. 数据团队的工作方式

  数据团队的工作可以分成两大部分,一部分是建设数据存储和计算平台,另一部分是基于数据平台提供数据产品和数据服务。

  平台的建设者包括三种人群:基础平台团队对hadoop、spark、storm等各类大数据技术都非常熟悉,负责搭建稳定、可靠的大数据存储和计算平台。数据平台团队主要负责各类业务数据进行清洗、加工、分类以及挖掘分析,然后把数据有组织地存储到数据平台当中,形成公司的数据中心,需要团队具有强大的数据建模和数据管理能力。数据产品经理团队主要是分析挖掘用户需求,构建数据产品为开发者、分析师和业务人员提供数据可视化展示。

  平台的使用者也可以包括三种人群:数据分析团队通过分析挖掘数据,为改善产品体验设计和商业决策提供数据支持。运营、市场和管理层可以通过数据分析师获得有建设性的分析报告或结论,也可以直接访问数据产品获得他们感兴趣的数据,方便利用数据做决策。数据应用团队利用数据平台团队提供的数据开展推荐、个性化广告等工作。

  3. 数据分析团队的组织架构

  在整个大数据平台体系中的团队:基础平台、数据平台、数据应用和数据产品经理团队都可以保持独立的运作,只有数据分析团队的组织架构争议比较大。数据分析团队一方面要对业务比较敏感,另一方面又需要与数据平台技术团队有深度融合,以便能获得他们感兴趣的数据以及在数据平台上尝试实验复杂建模的可能。

  从他们的工作方式可以看出,数据分析团队是衔接技术和业务的中间团队,这样的团队组织架构比较灵活多变:

  1)外包

  公司自身不设立数据分析部门,将数据分析业务外包给第三方公司,当前电信行业,金融行业中很多数据分析类业务都是交给外包公司完成的。

  优势: 很多情况下,可以降低公司的资金成本和时间成本;许多公司内部缺乏相关的知识与管理经验,外包给专业的团队有助于公司数据价值的体现 。

  劣势:一方面外包人员的流动和合作变数,对数据的保密性没有保证;另外一方面,外包团队对需求的响应会比较慢,处理的问题相对通用传统,对公司业务认知不如内部员工深入,创新较低。

  2)分散式

  每个产品部门独立成立数据分析团队,负责响应自己产品的数据需求,为业务发展提供决策支持。

  优势:数据分析团队与开发团队、设计团队以及策划团队具有共同的目标,团队整体归属感强,绩效考核与产品发展直接挂钩,有利于业务的发展。

  劣势:在业务规模比较小的情况下,数据分析师比较少,交流的空间也比较小。因为身边的同事都不是该领域的人才,无法进行学习交流,所以成长空间会比较小,分析师的流失也会比较严重,最终陷入招募新人——成长受限——离职——招募新人的恶性循环。另一方面,每个产品团队都零星地招募几个分析师,整体来看给员工的感觉是公司并不是特别重视数据化运营的文化,对数据的认同感会被削弱,不利于公司建立数据分析平台体系。

  3)集中式

  数据分析团队与产品团队、运营团队各自独立,团队的负责人具有直接向分管数据的副总裁或CEO直接汇报的权限,团队负责响应各业务部门的数据需求。

  优势:分析团队具有充分的自主权,可以专心建设好公司级别的数据平台体系,研究数据最具有价值的那些问题,有权平衡业务短期需求和平台长期需求直接的关系。另一方面,这种自上而下建立起来组织架构,可以向全体员工传达数据在公司的重要位置,有利于建立数据化运营的文化。

  劣势:产品业务团队会觉得他们对数据的掌控权比较弱,一些业务数据需求得不到快速响应,认为分析团队的反应太慢无法满足业务发展的需要。随着业务发展越来越大,产品团队会自己招募分析师来响应数据需求,逐渐替代分析团队的工作,这样势必会导致分析团队的工作被边缘化。

  4)嵌入式

  数据分析团队同样独立于产品团队存在,但只保留部分资深数据专家,负责招聘、培训数据分析师,然后把这些人派遣到各产品团队内部,来响应各类业务数据需求。

  优势:团队的灵活性比较好,可以根据公司各业务线的发展情况合理调配人力资源,重点发展的项目投入优秀的人才,一些需要关闭的项目人才可以转移到其他项目中去。

  劣势:分析师被嵌入到产品团队内部,受产品团队主管的领导,从而失去了自主权,导致沦落为二等公民。人事关系在公司数据分析团队中,却要被业务团队主管考核,但业务团队主管并不关心他们的职业发展,导致分析师的职业发展受到限制。

  那么,到底采取哪一种组织架构比较合适呢?

  可以根据公司数据化运营进展的深度灵活采取一种或几种方式。除了外包模式,其他组织架构我都经历过,简单来说,早期采用分散式、中期采用集中式、后期采用分散式或嵌入式以及两则并存。

  早期:公司对数据体系的投入一般是比较谨慎的,因为要全面建设数据体系需要投入大量的人力和财力,公司不太可能还没有看清楚局势的情况下投入那么多资源。所以,往往都是让每个产品团队自己配置分析师,能解决日常的业务问题就行。杭研院早期的网易云阅读、印像派等项目中就是采用的这种分散的模式。

  中期:随着业务的发展、公司对数据的认识有所提高并且重视程度不断加大,就开始愿意投入资源来构建公司级别的数据体系。这个阶段采用集中式有利于快速构建数据分析平台,为公司各个产品团队提供最基础的数据分析体系,能在未来应对业务的快速发展。杭研院花了两年时间完成了这个阶段的主要工作,并在网易云音乐和易信产品发展阶段起到了至关重要的作用。

  后期:一旦公司级别的数据分析平台构建完成,消除了早期分散模式中分析师缺少底层平台支持的窘境,他们能够在分析平台上自助完成大量的数据分析工作。而且经历过集中式阶段的洗礼,公司上上下下对数据的认识都有了很大的提高。此时,在回到分散模式时,原先的很多弊端已基本消除,此外,采用嵌入模式也是可以的。目前杭研院在网易云音乐、网易云课堂、考拉海购等几个产品中就是分散式和嵌入式并存的架构。

  总之,没有最好的组织架构,只有适合自己的组织架构。(来源:联商网)

  【作者介绍 沈琦:网易杭州研究院商业智能部门总监、大数据技术专家 自2007年毕业以来,一直在网易杭研院从事大数据技术的相关工作,现担任商业智能部门总监,负责管理杭研院和考拉两个商业智能团队,在大数据技术和部门管理方面都具有丰富的经验。商业智能部门负责网易数个亿级用户产品的数据分析工作,覆盖考拉海淘、云音乐、云课堂、云阅读和易信等众多网易明星级产品。】



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
机器学习/深度学习 运维 算法
|
7月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
近日,由阿里云计算平台大数据基础工程技术团队主导的四篇时间序列相关论文分别被国际顶会ICLR2024、ICDE2024和WWW2024接收。
|
机器学习/深度学习 分布式计算 算法
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
随着近年来深度学习技术的发展,各种机器学习平台也纷纷涌现或从专用走向了开源。到现在,一家科技巨头没有一个主导的机器学习平台都不好意思跟人打招呼。比如谷歌有 TensorFlow、微软有 CNTK、Facebook 是 Torch 的坚定支持者、IBM 强推 Spark、百度开源了 PaddlePaddle、亚马逊也在前段时间高调宣布了对 MXNet 的支持。 现在,腾讯也加入了这一浪潮。在 12 月 18 日于深圳举办的腾讯大数据技术峰会暨 KDD China 技术峰会上,腾讯大数据宣布推出了面向机器学习的「第三代高性能计算平台」——Angel,并表示将于 2017 年一季度开放其源代码。
489 0
腾讯大数据将开源高性能计算平台 Angel,机器之心专访开发团队
|
数据可视化 JavaScript 算法
大数据时代的特种兵:阿里数据产品团队
你可能用过数据魔方、淘宝指数、淘宝时光机这些好玩的产品,为其对大数据的运用点赞,或许你还对阿里巴巴在大数据这领域所做的工作感到好奇。在这里,Segmentfault 给大家来介绍一下这些炫酷产品背后的团队:阿里数据平台事业部数据产品团队。
516 0
大数据时代的特种兵:阿里数据产品团队
|
自然语言处理 监控 搜索推荐
大数据团队从2到3
其实从3.0阶段开始,团队的升级路线就比较分散了,依赖于各公司对于数据团队职能的定位和期待。
423 0
大数据团队从2到3
|
机器学习/深度学习 分布式计算 DataWorks
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
即日起,阿里云大数据训练营九营齐开!理论与实践,概念与案例,大数据从0到1上手学习,行业大神真人带练!
3250 0
9大训练营免费开营!阿里云大数据团队的独门绝学全在这了
|
机器学习/深度学习 分布式计算 DataWorks
|
大数据 流计算 运维
大数据团队从1到2
1.0阶段的核心是数据分析,把大数据离线计算的整套流程和框架搭建起来,后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的,即每天、每周、每月定时计算的,快一点儿的有每小时、甚至每5分钟的,都是离线数据,实时性不足。2.0阶段重点加强的,就是实时计算领域。
1167 1
|
大数据 BI 数据挖掘
大数据团队从0到1
“大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。
2317 1