《企业大数据系统构建实战:技术、架构、实施与应用》——2.2 大数据职位构建体系

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介:

本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第2章,第2.2节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 大数据职位构建体系

在团队组建过程中,科学地定义职位体系直接影响到大数据实施的效率和质量,由于大数据的创新性和严谨性,会有一批新的岗位,例如首席数据官、大数据解决方案架构师、大数据采集工程师,大数据研究员等;同时,也会强化原有岗位的新生命力,例如网络工程师、算法工程师、系统架构师、咨询顾问、数据库管理与开发等。整个职位架构体系,如图2-5所示。

image

2.2.1 基础平台类

大数据基础平台共分为硬件平台和软件平台两大类别,硬件平台包括服务器、操作系统和网络维护等工作,主要由网络工程师负责;软件平台包括Hadoop运维、数据仓库管理、软件系统运维等工作,由Hadoop运维工程师、数据仓库管理员和系统管理员负责。

1.网络工程师

网络工程师在计算机行业是一个非常“古老”的职业,主要目的是维护多台计算机及其外部设备,保障计算机在资源共享和信息高速传递的稳定性。在大数据环境下,由于大数据系统是多台(几十、几百甚至成千上万台)服务器分布式环境,并且具有并行计算、实时传输的特性,对网络传输、安全、读写效率及并发的要求更高,其中共涉及多项十分重要且复杂繁琐的问题:机房网络安全问题、跨机房服务器集群之间网络传输问题、开发人员操作失误风险规避问题、跨机房硬件稳定性保障问题、磁盘高速读写问题、跨局域网的分布式集群传输效率问题、分布式集群服务器IP及网络配置问题。

随着大数据技术、IPv6标准、物联网、移动互联网技术的快速发展,使得对于新型网络工程师的人才和技能要求也越来越多,由于上述每项技术对网络和硬件的要求侧重点都不一样,也因此而细分出多个发展方向,对相应的技能要求的侧重点也不同,例如网络安全类、数据存储类、架构设计类、移动网络类、网络效率类等。

2.Hadoop运维工程师

作为大数据产业下的一个新型职位,Hadoop运维工程师是大数据系统稳定运行最重要的保障,其主要职责是维护高性能的Hadoop分布式数据存储系统,并为业务系统提供稳定的数据访问服务,开发新接口和维护原有系统。

由于Hadoop技术生态组件绝大部分是由Java语言实现并且基于Linux操作系统运行的,对于该职位来说,首要要精通Java编程和Linux操作系统;其次要精通Map/Reduce运行机制、Hadoop集群的硬件资源(CPU、内存、存储)配置与管理、Hadoop各组件(如HDFS、Hive、HBase、Impala等)的运行原理、集群组件监控、集群节点故障解决方案等;另外还需要懂得如何保证数据安全、数据存储效率、计算效率、运维效率的优化与提高等。如果觉得Hadoop集群的性能差时,绝大部分责任是运维工程师对Hadoop的了解太少,Hadoop的效率没有被发挥出来。

3.数据库运维工程师

数据库运维工程师在公司发展的不同阶段有着不同的职责与定位。工作内容包括负责数据库的运营和维护,包括数据库的安装、监控、备份、恢复等基本工作,并需要覆盖产品从需求设计、测试到交付上线的整个生命周期,在此过程中不仅要负责数据库管理系统的搭建和运维,更要参与到前期的数据库设计、中期的数据库测试和后期的数据库容量管理和性能优化。

当企业数据仓库中的数据量达到了一定量级时,对数据源的监控和保障数据仓库的稳定性是一个必要的工作,传统的企业级数据仓库一般都会建立在MySQL、Oracle等结构化数据库之上,数据库运维工程师为了提高数据库工具和服务的有效性,会选择合适的软件和硬件工具,并使用各种工具实时监控数据库性能和数据录入程序,管理数据安全和隐私并创建和分配新的数据库,从执行层面优化数据库性能提高查询和处理能力,建立数据备份、数据库故障排除和恢复机制确保信息得到保护和备份。在企业级大数据生态体系下,Hadoop数据仓库成了数据处理挖掘的主力军,所以下一代数据库运维工程师还需要精通各种Hadoop技术生态组件的存储运行机制和执行管理命令(如Map/Reduce、Python、Scala、Java等)。最后,数据库运维工程师特别重要的一个工作是确保所有的数据符合法律规定,对整体数据质量要定期做完整的报告并反馈给工作团队。

4.系统运维工程师

和企业传统的系统运维工程师一样,大数据系统运维工程师需要维护所有业务系统的功能运行,并监测系统的所有功能是否正常,维持系统现状,协助解决新的和现有的系统问题形成系统运维自动化流程。在业务系统进行测试和升级过程中,实现所有的目标,保持对所有系统升级之后的新技术维护,并确定系统运维的长期目标,根据运行的实际情况改进维护策略。除以上“已发生”类的问题之外,对“未发生”类的问题要及时监测,分析所有系统的升级和应用程序,确保遵守所有计划要求,设计新上线的业务系统解决方案。监测和分析业务系统的运行指标,并保持最佳性能,与管理人员和社区成员协调落实各项业务活动,并确定所有服务器配置。最后,由于大数据生态体系的技术组件更新升级频率非常快,且新技术发展异常迅速,要求所有大数据系统运维工程师必须拥有非常高的行业知识更新和学习能力。

2.2.2 数据管理类

数据管理类岗位中的管理所针对的对象是数据,而非职能岗位中的管理角色。数据管理类岗位包括首席数据官、数据管理员和数据安全管控师。

1.首席数据官

随着大数据的不断发展,企业对于数据的依赖也越来越强,当企业内部的数据类型和数据用途越来越多时,需要一个“数据管理者”从数据全场景和流程方面进行整体规划和管理,一个大数据新的工作岗位应运而生——首席数据官(CDO)。

该职位的职责包括:与数据所有者和数据管理员共同为内部和外部创建数据管理策略并且实现数据的准确性和制定工作流程的需求目标,定义大数据战略,设计多阶段实施路线图。建立数据管理策略及标准,创建并领导数据管理团队,监管组织内的数据质量工作,配合CIO/CTO和IT部门协同管理和完善数据管理策略的实施,并负责企业信息数据管理的预算和数据相关系统的审核。

另外,作为技术高管需要有团队成员梯队建设能力,带领团队技术探索不断创新,推进企业技术升级、技术架构完善以及数据仓库和商业智能解决方案的发展,协助业务开发团队提供售前活动和招标书,帮助评估和计划项目,协同CIO/CTO管理技术和项目团队。

2.数据管理员

对于一般的公司来说,数据管理员的工作可能由数据库运维工程师来兼任,从部署操作系统,到数据库安装、设计和部署监控,防止漏洞和攻击、主数据管理、权限管理与审核等,而大数据环境下对数据管理员工作的技能要求更加精细。

对数据管理员的岗位要求包括指定并实施数据管理策略、协调和执行数据管理解决方案、数据库权限管控三大方面,所以该项职位的主要任务是:了解企业内部的数据需求信息,并将其传送给数据团队的其他成员,深入了解数据现状并收集相关资料;引导业务指标的制定和记录,协助数据分析师分析现有的报告并确定整合指标,上报首席数据官,参与制定数据管理与实施计划,指导数据库需求文件的准备;在数据管理计划实施的过程中,担任ETL和系统开发工程师的顾问,协助数据分析师评估任务,分析现有的报告,并帮助识别潜在的数据来源和数据库等;在数据管理与实施计划落实完成后,保障公司核心业务实体数据(例如客户、供应商、商品、组织单位、员工、合作伙伴、位置信息等)的一致性、实时性和精确性,成为企业内部的数据“交通枢纽”。

3.数据安全管控师

数据安全是互联网行业中的一个永恒的话题,无论是对于单位还是个人,数据安全都是至关重要的,如果数据不慎丢失或者泄露,都会造成重大影响。

一般情况下企业的数据安全管控由数据运维工程师或者数据管理员负责,由于计算机和互联网的影响越来越大,人们日常生活中的网购数据、通信数据、身份信息数据不断膨胀,同时公司企业的主数据、业务数据、销售数据、财务数据也在不断增长,所以数据的安全性就越发重要,在互联网大数据时代需要数据安全管控师对系统数据安全进行严格规范和控制。

影响数据安全的因素包括计算机硬件损坏、工程师的操作失误、黑客入侵、病毒感染、企业内部发生的数据盗窃等,数据安全管控师的任务,是通过各种安全策略和安全防范手段,在这些问题发生之前制定良好的安全方案防患于未然,主要安全策略包括:协助首席数据官制定规则加密电子文档数据内容、细化数据权限控制读写删除操作、制定数据备份流程机制、制定组织结构成员数据权限关联及分级授权机制、制定数据及文档集中管理与分发规范、制定数据通信安全规范、制定数据仓库访问和操作权限等。

2.2.3 技术研发类

技术研发类岗位指的是针对大数据相关系统、软件、产品和功能进行的开发,而非IT系统的开发。由于大数据类的开发是一个相对完整的工作链,并且具有特殊应用需求和场景特征,因此涵盖了几乎与IT系统相同的职能岗位。技术研发类岗位包括大数据架构师、数据仓库架构师、大数据开发工程师、数据采集工程师、数据仓库开发工程师、系统开发工程师、算法开发工程师。

1.大数据架构师

作为大数据技术平台成功落地的重要保障,大数据架构师在大数据技术发展之初就已经奠定了必不可少的角色基础,该职位主要负责Hadoop技术解决方案的整个生命周期的解决方案确定并进行引导,包括:大数据需求分析、平台选择、技术架构设计、应用设计和开发、应用测试和部署等大数据实施全流程的跟踪,并在实施过程中带领技术团队,为设计和开发大规模集群的数据处理系统提供技术和管理。

由于角色的重要性,通常情况下该职位应该拥有重点院校计算机相关专业的硕士及以上学历且至少5年以上Java编程经验,精通Java原理和Hadoop、Hive、HBase、Impala、Spark等大数据技术生态体系,熟悉常用的数据挖掘算法,如逻辑回归、决策树、关联规则、序列模式、时间序列、SVM、贝叶斯、聚类等,以便做更好的架构方案选型。除以上技术要求外,该岗位聚焦于互联网涉及的各领域平台架构设计,可能会涉及电商平台、虚拟化、云计算、数据分析挖掘等。

作为一个或多个领域的系统架构专家,更要面向未来:设计领先的软件架构,洞察所在领域的系统技术发展趋势,提出新的系统架构理念,主导架构技术项目开展架构原型的验证,保证未来新产品的软件架构具有领先的架构竞争力;改进已有产品的软件架构,分析行业内重点产品的软件架构,识别软件架构设计方面的问题,提出解决建议和方案,并指导改进;提升团队的软件架构设计能力,时刻洞察技术发展动态,指导技术开发人员及时升级系统技术。

2.数据仓库架构师

数据仓库的开发和管理在大数据时代显得尤为重要,相关的数据库管理、运维和开发技术,将成为广大BI、大型企业和咨询分析机构特别看重的技能体现。而之前一般企业中的数据仓库架构师都由数据部门开发经理兼任,同时数据仓库团队工作内容比较纯粹,所以该职位可视数据仓库量级和企业实际情况而定,由其他职位兼任或单独设立都可。

数据仓库架构师的主要责任有:数据仓库的架构设计及数据集市建设,带领团队落地及后续的运维,负责各条业务线的数据整合方案设计及日志规范,数据分析指标体系建设及元数据管理,并要稽查和监控数据质量,数据报表系统及相关数据产品的研发和数据需求的沟通及数据开发项目管理。

在技能要求上,精通SOL、SSIS、SSRS和OLAP等进行数据库及数据模型设计,如使用Oracle/HANA建立数据仓库,熟悉Kettle、Informatic、Datastage、DataService等ETL开发工具(目前很多ETL工具也支持Hadoop),了解行业内的各种数据仓库应用案例和商业智能(BI)实时动态。如使用Hadoop、Storm、Spark建立数据仓库,精通大数据分布式平台技术,熟悉Java、Scala、Map/Reduce、HiveSQL、SparkSQL等技术。同时,根据企业数据仓库技术发展的实际情况,可能需要使用Oralce与Hadoop相结合的方式完成工作。

3.大数据开发工程师

大数据相关的技术组件包括分布式存储(结构化与非结构化)、缓存、查询、计算(实时与离线)、监控与管理、资源调度等,为了保障各技术开发的专业性,一般以开发工作的内容进行划分:Hadoop开发工程师(离线计算)、实时计算工程师、数据处理工程师、文本挖掘工程师(非结构化数据处理)等。

Hadoop开发工程师需要精通包括:HDFS、HBase、Hive、Impala、Zookeeper、YARN、Map/Reduce等在内的所有组件部署、调优与开发。Hadoop技术应用广泛,开发过程中还会涉及Hadoop版本的快速迭代升级,需要和Hadoop运维工程师协同开展工作。

实时计算所涉及的技术包括Spark、Storm两大核心组件,而Spark与Storm组件的开发语言都各自不尽相同,这无疑大大增加了实时计算工程师的开发难度,除了精通Java之外,还必须精通Scala(Spark是由Scala写成)、SparkSQL和SparkStreaming。

以上技术都是针对结构化和半结构化数据的开发处理,非结构化数据的开发处理一直都是相对更繁琐的工作。比如,文本挖掘工程师的工作是对非结构化数据进行抽取、解析、建立全文索引等,使非结构化数据转化为有价值的结构化或半结构化数据。数据处理工程师主要负责分布式存储与计算平台中的数据处理与传输,承担着“数据搬运工”的角色,不管是结构化或半结构化数据还是非结构化数据,一般都会使用到Kafka或MQ等组件进行数据的解析与传输。

4.数据采集工程师

数据采集工程师的主要职责是收集和处理海量原始数据,工作内容包括:脚本编写、网页获取、调用APIs、编写SQL查询等。

由于数据源的存储及展现方式不同,数据采集分为外部数据采集和内部数据采集,外部数据采集通常指的是互联网网页采集(也称网络爬虫),工作任务是通过搜索引擎网络爬虫相关技术和正则表达式,从抓取下来的HTML页面数据中提取网页数据信息,这要求工程师必须精通互联网内容搜索产品(例如百度、谷歌)的设计和架构,熟悉搜索引擎、互联网网页及反爬虫技术的工作原理,熟悉Linux操作系统,具备搜索引擎开发的研究能力,使用到的开源技术工具有:Nutch、Heritrix、larbin、HtmlParse、Scrapy、Lucene等。

内部数据采集是指存储在企业内部数据系统(如Oracle、MySQL、NoSQL、Log日志)中的主数据/业务数据和企业网站/App端中用户行为数据的采集。企业内部数据采集的工作任务是通过数据库抽取相关技术(Java、Sqoop、GoldenGate、Canal)把存储在企业数据库系统中的数据抽取出来,重新整合、同步与存储;企业网站/App数据采集是通过JS/SDK等技术手段,把网页/App端的用户登录、点击、查看等行为收集起来,同步到后端的数据存储系统中。

通过内部、外部数据采集到的数据最终都会存到分布式文件系统(Hadoop、Spark)中统一存储,便于后续的数据分析与挖掘。这些工作要求工程师了解企业数据流通机制,精通Oracle、MySQL、NoSQL等数据库的工作原理和主流的大数据接入技术(Kafka、Storm、Flume、MQ、SparkStreaming),熟悉Nginx日志、算法设计、数据结构、Java和Scala等。

5.数据仓库开发工程师

传统数据仓库开发团队在企业技术岗位中属于不太容易看到“效果”的团队之一,而且所需的人数不太多。但是在进入大数据时代,代表着更多类型(尤其是非结构化类型)的海量数据不断涌现,客观上要求对数据进行实时采集、分析和传输,这就对基础设施性能提出了严峻挑战,尤其是对运维管理者数据仓库开发和管理人员提出了更高的要求。

数据仓库开发工程师除了需要基于Oracle/HANA开发外,还要基于三大不同类型的数据库进行应用开发:分布式数据库NoSQL、Hadoop体系,分布式数据库HBase/Hive和实时分布式计算框架Spark/Strom。由于NoSQL、Hadoop、实时计算技术可供使用的ETL工具比较少,所以目前企业数据仓库开发工程师和大数据开发工程师使用到的大部分技术是相同的,但数据仓库开发工程师的工作更侧重于数据层设计与开发、ETL流程开发和优化,完成结构层次合理、灵活可扩展的数据仓库结构。同时,这些工作也都需要对Hadoop、NoSQL、实时计算技术有深刻理解且对业务精通的人才能胜任。

6.系统开发工程师

大数据系统按应用类型分为数据可视化类与数据应用类。

可视化类系统包括:商业智能、数据监测、舆情监控、用户画像等,该类系统一般使用前端技术结合可视化组件开发,要求工程师精通JavaScript、Ajax/JQuery、HTML、CSS等Web前端技术,以及数据可视化技能和工具,例如D3、Echarts、HighCharts、Tableau等。熟悉各主流浏览器(IE/Chrome/Firefox/Safari)兼容性问题解决方案和Oracle、MySQL、MongoDB、Hive、HBase等数据库查询能力,另外还需了解各种调试、抓包工具如HTML类、CSS类、Debug类等。

数据应用类系统包括:互联网广告精准投放系统(DSP)、精准营销系统、征信/风控系统、个性化推荐系统、大数据管理平台(DMP)等。该类系统除了会使用前端技术和可视化组件外,还需要结合大数据分布式算法、高并发查询、负载均衡等技术,更侧重Redis、Nginx、MQ、Zookeeper、Hadoop等技术。熟悉TCP/IP协议和多线程并发技术,同时也要兼具可视化系统开发所应用到的Web前端技术、数据可视化技术、浏览器兼容等。

7.算法开发工程师

算法开发工程师之前一直是一个比较“冷门”且“高深”的岗位,随着大数据应用越来越广泛,使得算法模型在企业大数据应用中越来越广泛。由于每个行业的特性不同,数据模型在跨行业应用时可复用度不高。比如,金融行业应用数据模型进行金融产品的风险控制和反欺诈,建立并优化风险政策。电商及快消行业则应用数据模型进行用户价值评分、偏好预测、商品关联销售和个性化精准推荐。但不管是什么行业,用到的算法是相通的(例如逻辑回归、SVM、神经网络、决策树、贝叶斯等)。

大数据环境下的数据建模开发工程师,除了要求精通传统建模工具SPSS/Modeler之外,还要精通R、Python、Hadoop、MLlib、Mahout等算法开发组件,了解大数据分析处理(Hadoop、HDFS、MapReduce、HBase、Pig、Hive)等技术内部机制,熟悉Linux系统,熟练使用Shell/Perl/Python脚本。

2.2.4 产品设计类

项目产品类岗位通常是每个公司不可或缺的岗位,这些岗位是有计划开发数据工作的基本前提,通常决定了一个产品或项目未来的方向和具体实施的概念定义。而项目产品类泛指数据项目工作的前端职位,含项目经理、产品经理、UI、UE等。

1.项目经理

项目经理的职能核心是项目宏观管理者和协调者,也是项目实际的总策划人和负责人。

项目经理主要侧重于项目规划、管理、协调工作,重点关注项目进度、质量、成本,通过管理控制项目风险并保证相关成果。跨职能部门进行定期沟通,确保公司内部信息和资源对称;协调项目资源,保证项目正常推进。通过制定实施方法论和项目管理规范来进行整体项目把控,某些场景下的项目经理还会参与需求调研,引导客户需求,编写项目需求文档和相应的技术规范文档等细致工作。对实施完成的项目进行总结,并提供产品研发、项目管理建议。

不同行业的项目经理要求具有特定的从业背景和经验,对于项目开发过程中涉及的管理方法、技术框架、操作规范等都有不同的要求。但较好的号召力、领导力、沟通能力、应变能力和管理能力是胜任该职位的基本前提。

2.产品经理

产品经理是微观层面落实具体项目需求的关键推动者,也是辅助项目经理进行项目把控的关键,但从职能角度来看通常不具有实权,因此属于典型的“有义务、无权利”的职位。

产品经理主要负责配合项目经理完成项目规划、管理、协调以及规范和文档制定工作,并负责数据相关项目内产品的规划与设计,制定产品开发、设计、跟踪和优化方案。在项目开展过程中需要保持与视觉设计、前端架构、前端开发等部门的沟通并保证产品需求的可理解、可实现、可执行性。根据公司规划,设计产品设计文档、原型设计文档和产品交互原型设计,含界面、流程、功能、组件等。对于整体产品项目质量管理和进度管理,保证项目按照进度完成策划、开发、测试和上线。

由于产品经理需要面对策划、设计、开发、测试、上线的所有环节,因此较强的责任感、创新的工作精神、严谨的工作态度、较强的沟通能力和逻辑判断能力是一个成功产品经理的必备素质。产品项目和生命周期管理的常用工具如思维导图工具、产品原型工具、产品流程工具、版本管理工具、项目管理工具等的熟练应用是必备职业技能。

3.UI

UI也称视觉设计师,主要工作侧重于视觉效果设计,产品视觉效果的好坏主要取决于UI的审美水平和输出能力。

UI的主要工作职责是把握视觉设计趋势,分析产品特点,确定产品整体设计思路和风格;产品、网站、APP等具体产品形态的视觉形态策划;产品、页面、功能、图标等视觉元素的可视化设计,与产品经理、前端工程师共同把握移动产品的用户体验。某些公司的UI可能还会负责广告、营销和包装等宣传物料的设计。

良好的想象力、较高的审美层次和色彩把握能力,熟练使用视觉设计工具如Photoshop、Illustrator、CorelDRAW是必备技能。

4.UE

UE也称交互设计师,主要工作侧重于交互效果设计。很多公司将UI和UE合并到一个岗位职责,总体负责产品的平面和交互设计效果。

UE主要负责维护和更新界面设计标准和规范,负责标准和规范的实施;产品、网站、APP的交互设计工作,分析产品特性和用户的操作习惯和偏好,并设计交互流程、内容及界面;根据需求和用户研究结果,完成界面交互行为和功能的改良,提高网站的易用性;对现有产品的可用测试和评估提出改进方案,持续优化产品用户体验。

在技能要求上,除UI中对于素质和必备技能的要求外,UE还需要了解设计主体(产品等)的商业逻辑、交互工程中的功能需求及信息因素关系,这对该岗位职责的要求更高。

2.2.5 数据挖掘类

数据挖掘类岗位通常是一系列岗位的统称,因为不同公司对于该职位的定义和内涵界定不同。而数据挖掘由于是侧重于应用的岗位,因此通常是围绕某一业务或技术主体进行定义,例如会员数据挖掘、销售数据挖掘、营销数据挖掘等。

数据挖掘类岗位与算法开发类的岗位差异通常是模糊的,一方面由于数据挖掘需要特定的数据统计学、技术开发等特定技能要求,这与算法开发重合;另一方面数据挖掘由于既可以侧重于算法挖掘和应用,又可以侧重于典型场景的业务应用,因此也很难具体固化到某一种岗位角色。通常,该角色可定义为技术类岗位,也可以定义为业务类岗位,但前者居多。

整体来看,数据挖掘类岗位的主要职能包括以下几个方面:

  • 负责完善数据挖掘工作体系,优化现有数据挖掘业务落地;
  • 负责完善数据挖掘流程、操作规范、标准和监督计划;
  • 深入研究业内领先的技术思路,输出具有创新价值的预研项目可行性分析报告及相关实验数据;
  • 负责营销(流量)、会员、产品、销售、客服、供应链等公司数据的海量挖掘,并建立、维护和调优常用应用场景如恶意流量预警、库存预测、会员活跃度、会员流失模型等;
  • 负责相关数据挖掘项目需求收集、项目制度建立、项目设计开发和结果输出质量把控,通过数据挖掘结果驱动业务执行;
  • 配合技术进行数据挖掘模型开发和模型封装,例如决策规则模型、预警模型、流失模型、效果标杆模型、客户生命周期等的建立和维护;
  • 负责大数据下传统机器学习算法的并行化实现及应用,并提出改进方法及思路;
  • 参与公司大数据架构,负责BI实施中的数据挖掘模块算法研究、模型建立和优化,帮助实现数据挖掘和分析平台的建设等。

数据挖掘类岗位对于职能的要求较高,除了具备统计、信息技术、数学等专业学历外,熟悉主流数据库,例如MySQL、Oracle、SQLServer、DB2等传统结构化数据仓库以及NoSQL等非结构化数据库;熟悉常用的聚类、分类、回归、关联、时间序列等监督式和非监督式算法;熟练使用SPSS Statics(2009年之后称为PASW Statistics)、Clementine(12.0版本之后称为SPSS Modeler或PASW Modeler)、SAS、R、Python、MLlib等数据挖掘工具中的至少1种,有数据建模经验是从业必备技能。

从某种意义上看,数据挖掘类岗位是数据真正从“数据”到“知识”再到“应用”的枢纽,因此是大数据岗位中的核心职位之一。但是,这种岗位通常只对于拥有“大数据”的公司才有意义,因为只有大数据才有“挖掘”的必要,而小公司由于体量小而导致数据量小而不具备挖掘的必要条件。

2.2.6 数据分析类

数据分析类岗位包含各种各样的非“技术”类岗位,例如战略分析师、数据分析师、网站分析师、用户研究员、商业智能分析员等,这些岗位通常都具有特定的分析应用场景,因此大多数以应用场景来定岗定责。

1.战略分析师

战略分析师在很多公司也被称为市场分析师,这是一个“高大上”的岗位,它的核心是提高对行业和竞争对手的认知,增加对公司决策层的战略支持。

战略分析师的具体职能通常是根据公司的战略方向,辅助公司决策层(通常是O-Level)制定中长期发展规划;根据公司规划,协助各中心、各子部门制定战略研究规划并进行课题跟踪和持续输出;收集行业重要信息,包括重要盈利模式、重大技术革新、新技术发展趋势、市场格局重大变化等;过滤公关信息,建立竞争对手档案库,全面把控竞争对手动态;跟踪、分析、研究行业发展情况,捕捉行业发展新机会,为集团的战略决策提供依据。

战略分析师对于从业者的个人素质要求极高,它要求对业务生态和体系具有相当丰富的工作经验,具备敏锐的市场和行业洞察及快速的业务理解和学习能力,以及从宏观角度总结、分析和归纳问题及方法的能力等。另外,对于常见的市场和战略分析框架的熟练应用、敏锐的市场嗅觉、较强的逻辑思维和沟通能力是必备的个人素质。

2.数据分析师

数据分析师是一类职位的统称,通常数据分析师会定位于解决某一类问题而带有业务主体特征,例如营销分析师、会员分析师、运营分析师、商品分析师等。但无论如何定位,其基本工作职能如下:

  • 搭建公司数据分析体系并负责日常数据质量、报告、结论的把关;
  • 建立业务主体档案库,并通过效果预测模型,辅助业务主体计划和KPI的制定;
  • 完善业务主体的画像,并通过多种价值模型做业务主体分群、分类;
  • 识别业务主体中的虚假、异常、流失等信息,建立相应的预警系统;
  • 业务主体活动效果评估分析,并通过多种数据结果提升目标转化率;
  • 建立业务主体效果标杆,提高业务要素的利用率并建立最优化效果评估模型和组合应用模型;
  • 协调利益相关者对如何使用研究和分析结论的想法,以支持业务计划和战略排序;
  • 针对特定场景建立生命周期模型,并针对不同场景和阶段下的实际情况建立相应的分析思路和方法,辅助于业务主体优化;
  • 根据业务和公司需求,跟进专项分析项目进度,撰写日常和专项报告并优化业务落地动作等。

该岗位要求具有一定的统计学、数学、计算机科学等专业背景,同时了解数据分析的基本概念和常用方法,熟悉常用业务主体中的指标及应用场景,具备较强的逻辑分析能力和报告书写、业务沟通能力。对于常见的数据库取数工具如SQL、数据库客户端以及数据建模和挖掘工具、Excel和SPSS等统计和分析工具也有一定要求。

3.网站分析师

网站分析师是数据分析类中一个较为特殊的职位分类,从工作形态看,除服务器需要IT部门配合进行相应配置、调试和部署外,网站分析师几乎可以独立完成从数据采集、存储、计算、分析到数据应用的完整流程。网站分析师的工作主体和对象是以网站为主体的业务主体,包括营销部门、网站运营部门、用户体验部门、前端产品部门等。

网站分析师的主要工作职责如下:

  • 根据业务需求进行网站检测代码方案的制订、实施和后期维护;
  • 监控网站日常数据,为公司各级部门提供需求数据、日常报告;
  • 根据业务和公司需求,撰写专项分析报告,提供专业决策支持;
  • 对网站流量、运营数据进行跟踪和分析,尤其是对站外投放渠道、站内运营效果进行深入挖掘;
  • 对用户数据进行深入分析,如页面点击分布、用户行为习惯等,了解用户需求并提出优化改善建议;
  • 网站流量系统管理、维护,跨部门沟通协作与项目推进等。

由于从事网站分析工作的特殊性,往往需要熟悉网站分析系统部署规则、代码和语法,同时熟练应用不同的网站分析工具如Google Analytics(简称GA)、Omniture(现在名为Sitecatalyst,是Adobe Analytics的核心)、Webtrends、Webtrekk等,对于网站分析和数据分析的基本概念和方法以及常用指标及应用场景也要熟稔于心。除此之外,还要具备特定行业的从业经验,特定的专业背景如营销、计算机等是其加分项。

4.用户研究员

用户研究员是公司中针对用户研究的岗位,主要目的是通过不同的研究方法来提升用户满意度、降低用户流失并提升用户生命周期价值等。

用户研究员的主要职能是组织各种用户研究项目,与产品经理交互和研发团队沟通,发现用户体验提升的工作点;独立完成用户研究项目的全套流程,包括需求分析、方法设计、数据分析、结论提取以及报告撰写;建立特定的用户研究项目,包括用户群体的行为分析、目标用户验证、产品体验验证、可用性测试、满意度研究等;建立和推动产品以用户为中心的工作制度和流程优化。

由于用户研究的主体是用户,因此需要该岗位的人员具有人机交互、心理学、社会学或相关专业背景,熟悉不同的研究方法和流程,对于研究数据具备一定的统计和数据分析能力及提取结论的能力,较强的沟通和业务理解能力、敏锐的洞察力和快速学习能力是岗位的加分项目。

5.商业智能分析员

商业智能分析员也叫BI分析师,是借助或依托于BI系统进行数据分析的岗位。该岗位通常是在企业内部已经建立起BI体系并搭建BI系统的前提下产生。

该岗位的主要职责是通过BI进行日常数据处理、监控和统计分析并支持运营活动,参与制作时间分析报告并为决策层提供数据支持;参与BI系统的搭建、优化和开发,进行或协调测试,以确保情报的定义与需求相一致;根据业务需求配置相关的BI模型和报表并为业务主体使用;BI系统的日常管理和维护,包括维护或更新的商业智能工具、数据库、仪表板、系统或方法等。

商业智能分析员除了需要具备数据分析师的有关数据分析基本经验和能力外,还需要熟练掌握BI系统的部署、实施、配置、规则和应用知识,能通过BI工具满足不同的应用场景。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
监控 网络协议 Nacos
Nacos:构建微服务架构的基石
Nacos:构建微服务架构的基石
130 2
|
1月前
|
监控 安全 API
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
本文详细介绍了PaliGemma2模型的微调流程及其在目标检测任务中的应用。PaliGemma2通过整合SigLIP-So400m视觉编码器与Gemma 2系列语言模型,实现了多模态数据的高效处理。文章涵盖了开发环境构建、数据集预处理、模型初始化与配置、数据加载系统实现、模型微调、推理与评估系统以及性能分析与优化策略等内容。特别强调了计算资源优化、训练过程监控和自动化优化流程的重要性,为机器学习工程师和研究人员提供了系统化的技术方案。
156 77
使用PaliGemma2构建多模态目标检测系统:从架构设计到性能优化的技术实践指南
|
4天前
|
存储 消息中间件 前端开发
工厂人员定位管理系统架构设计:构建一个高效、可扩展的人员精确定位
本文将深入探讨工厂人员定位管理系统的架构设计,详细解析前端展示层、后端服务层、数据库设计、通信协议选择等关键环节,并探讨如何通过微服务架构实现系统的可扩展性和稳定性。
29 10
|
24天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
284 8
|
26天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
62 2
|
27天前
|
Serverless 决策智能 UED
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
|
1月前
|
缓存 Kubernetes 容灾
如何基于服务网格构建高可用架构
分享如何利用服务网格构建更强更全面的高可用架构
|
2月前
|
弹性计算 持续交付 API
构建高效后端服务:微服务架构的深度解析与实践
在当今快速发展的软件行业中,构建高效、可扩展且易于维护的后端服务是每个技术团队的追求。本文将深入探讨微服务架构的核心概念、设计原则及其在实际项目中的应用,通过具体案例分析,展示如何利用微服务架构解决传统单体应用面临的挑战,提升系统的灵活性和响应速度。我们将从微服务的拆分策略、通信机制、服务发现、配置管理、以及持续集成/持续部署(CI/CD)等方面进行全面剖析,旨在为读者提供一套实用的微服务实施指南。
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
负载均衡 Java 开发者
深入探索Spring Cloud与Spring Boot:构建微服务架构的实践经验
深入探索Spring Cloud与Spring Boot:构建微服务架构的实践经验
155 5