大数据相关各职位解析

简介: 大数据相关各职位解析

进几年A(人工智能)B(大数据)C(云计算)发展火热,由于笔者在一二线互联网行业从事过大数据相关工作,因此决定在大数据领域对自己的所见所闻,来对改行业之外的人士所做一个讲述,以及对想进入刚行业的从业人员做个简单的讲述和分享。

image.png

大数据首先重要的就是数据,数据从哪里来,到哪里去,这个是我们需要探讨的。首先确定你数据量TB级别、PB级别 or EB级别。上图讲述了数据的来源从用户的数据、购买数据,以及最终的去处:存储、分析。因此可以看出大数据的核心其实是数据。

以笔者所在的电商平台为例(其他行业同样如此),用户在商城上购买商品,是基于在线交易系统的,称作为OLTP(联机事务)。而由于商城上每天都会产生这些信息,我们就需要把这些交易数据抽取到大数据这边,即:数据仓库。数据仓库是用来存储所有的数据,包括用户的所有信息,购买记录、用户基本信息等等。然后对数据仓库中的数据做处理,构建数据集市,再对数据进行分析。根据商城上推出的活动,进行分析该活动是否有利于用户增长等等,最终用来反馈商城相应的调整活动信息。称之为OATP(联机分析)。

上图主要讲述了大数据的信息。通过上图我们可以将大数据大致划分为如下岗位:数据开发,数据平台开发,数据分析、算法应用。如果所处的公司再大一些,上面相对应的岗位则能够进行更加详细的划分,比如是离线还是实时,对应的可以分到每一个岗位下面。

下面来讲述一下,每个岗位所需要的技能,以及大家可以根据自己的需求进行调整。

1.集群运维:图为网易集群运维招聘信息,工作内容主要负责集群的维护和升级、以及监控相关工作

2.大数据内核开发(中间件开发):Hadoop、Hbase、Kafka、Flink 等

需要对于java语言精通、对于大数据组件源码有非常深的理解,commiter或者contibutor具有极大优势

3.大数据开发:包含数据平台开发、数据产品开发和数据开发(ETL):即数仓

数据平台开发:dataworks、dataphin 这种数据平台的开发

数据应用开发:主要是利用技术解决业务问题

数仓:数据清洗、数据加工相关工作

4.数据分析师(BI):主要是理解业务,会sql 即可,很多女生做这个,薪资不差

5.算法:算法的话需要paper

6.产品:数据产品

在大公司的话,这些岗位会分的比较细,小公司可能需要做平台、又需要做应用、还有数据服务。

以上主要讲述了大数据的常见岗位和对每个岗位所需要技能进行了分析。如果大家有志于在此行业进行发展,欢迎大家和我交流。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 大数据 数据库连接
maxcompute开发环境问题之参数解析失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
5月前
|
存储 分布式计算 Hadoop
【大数据】Hadoop技术解析:大数据处理的核心引擎
【大数据】Hadoop技术解析:大数据处理的核心引擎
181 0
|
7月前
|
分布式计算 Hadoop 大数据
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
|
5天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
|
1月前
|
分布式计算 NoSQL 大数据
探索数据宇宙:深入解析大数据分析与管理技术
探索数据宇宙:深入解析大数据分析与管理技术
56 1
|
4月前
|
存储 缓存 分布式计算
【云计算与大数据技术】Spark的解析(图文解释 超详细必看)
【云计算与大数据技术】Spark的解析(图文解释 超详细必看)
99 0
|
5月前
|
搜索推荐 大数据 数据处理
大数据:解析信息时代的数字浪潮
大数据:解析信息时代的数字浪潮
45 0
|
2天前
|
XML 人工智能 Java
Spring Bean名称生成规则(含源码解析、自定义Spring Bean名称方式)
Spring Bean名称生成规则(含源码解析、自定义Spring Bean名称方式)
|
11天前
yolo-world 源码解析(六)(2)
yolo-world 源码解析(六)
22 0
|
11天前
yolo-world 源码解析(六)(1)
yolo-world 源码解析(六)
15 0

推荐镜像

更多