我是DBA，从大数据小白到阅读框架源码，薪资翻了三倍-阿里云开发者社区

我是DBA，从大数据小白到阅读框架源码，薪资翻了三倍

2022-02-11 134

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我是DBA，从大数据小白到阅读框架源码，薪资翻了三倍

前言

今天分享的这位是学习群的小伙伴，他从早期的大数据零基础，到现在整理了很多源码级博文。从早期的群里问问题，到现在帮其他群友解答问题，进步非常大，年前也完成了跳槽，薪资翻了3倍。

自我介绍

我是2018年二本学校毕业，来到一家小公司，成为月薪不高的社畜。在2019上半年接触到大数据，正好后面遇上裁员，领到大礼包开始学习大数据，在年末拿到薪资比较满意的offer，与之前相比翻了接近三倍。

为什么要学习大数据

前公司业务会涉及到大数据处理场景，再加上对于CRUD和运维部署厌烦，于是对其产生浓厚兴趣。真正要了解一个行业如何，看招聘薪资与热度就知道，毫无疑问大数据绝对是Top1。如果我在Java Web的赛道上竞争，想要达到大数据的薪资，付出的时间和精力是巨大的，还得加上一些好运气才行。这样一对比，选择很容易的做出来，趁着年轻换条竞争不算激烈的赛道，积累技术经验之后说不定会吃到更多的行业红利。

转型之前的工作才入公司先做的DBA，每天用SQL在公司自研的Web系统上计算各类指标和配置页面，现在回想起来这类工作是非常毁人的，三个月之后也幸好跟领导关系好，加上之前在学校自学的Java Web成功转岗，负责一些业务的研发和部署。在转岗之后，做了一段时间之后逐渐厌恶CRUD，正好就是这段时间接触到大数据。但是遇上公司想把部署做成自动化并有监控，于是我接下这个任务，上班研究Docker、Jenkins、K8s等，下班在B站上找Hadoop视频看，但是也只是断断续续看看并没有整理输出，没有上手操作。现在回想起来，付出了时间但是没有整理输出真是浪费，各位一定不要学我这样。时间来到国庆前夕，经历差不多两个月的调研和开发，成功完成Web端自动化平台，大大减少部署时间和故障数量。就在我沉浸在成就感中时，却被通知被裁，回到家思考是否要脱产学习大数据，最后想到反正有大礼包，不如拼一下，于是开启

我的长达两个半月的自学之路。

学习过程前文也说到视频是在B站上找的，在对比各个机构的视频之后，个人比较推荐若泽数据和尚学堂，尤其是若泽数据倡导直接从官网学习，这点对我触动很大，导致之后有大半时间是在阅读各个组件的官网，比如Spark，Flume，Hadoop，Kafka等。其中尤其是Spark官网写的很全，建议全部阅读一遍，基本你就会知道如何编译适合CDH的Spark版本、如何调优、RDD/SQL/Streaming各类算子以及内存模型、结构化流该怎么玩等等，在这里顺便吐槽一下Azkaban的官网，依据他写的第一步编译就有问题。针对于学习大数据的环境，我看许多人直接上手集群，其实一开始单机环境足够了，相比之下能够省下不少钱，也能减少许多精力和时间在搭建环境上，然后在后期要学习CDH时候，只需要在阿里云上使用按时付费的机器来搭建就好，搭建之后向我一样把过程记录下来就好。

以下是我详细的学习各类的知识点：

Hadoop

工作流程（Shuffle）
实现全局排序与局部排序
实现join操作
数据倾斜
单机架构
工作流程
资源如何配置
三种调度器
单机架构
读写流程
副本策略
单机环境中SNN如何工作
HA架构
故障案例：例如block块损害该怎么修复
如何编译支持各类压缩
HadoopAPI使用
HDFS
Yarn
MapReduce

Zookeeper

单机/集群部署
过半机制
选举制度

Flume

Source
Channel
Sink
Interceptors
Channel Selector
Sink Precessors
Taildir
Exec
Spooling
Avro
自定义
Memory
File
HDFS
Logger
Kafka
Avro
自定义
架构
工作流程

Scala

List
Map
Array
Set
case class
伴生对象/类
数据类型
方法和函数
循环
类和对象
集合以及算子
模式匹配
隐式转换

Spark

DStream概念
Source
Transformations
Output
Performance Tuning
Kafka对接方式以及消费语义
DF/DS API
外部数据源
Tuning
概念
Transformations
Action
Cache
累加器和广播变量
Shuffle源码实现
内存模型
支持CDH
Building
架构以及工作流程
RDD
SQL
Streaming
Yarn提交作业流程以及如何提交
Spark调优

Kafka

单机/集群部署
常用命令
核心概念
offset管理
怎么保证数据一致性
调优

HBase

HBase-CDH环境部署/单机部署
核心概念
逻辑/物理模型
架构以及读写流程
RK设计
调优

PS：网上很多人说学习Spark要搭建standlone，完全没必要直接local模式足够。

面试经历

由于我在年底开始面试，由于我的工作年限不是太长，把目标放在中小互联网公司上。这里给各位一个小小的建议，针对你要投递的公司，按照它的的JD稍微修改简历，会使得面试机会增加。在面试之后习惯性总结，根据面试题来查漏补缺，在这段时间内，我又重新学习了JVM、Docker、设计模式等，将其形成笔记，方便以后跳槽复习。面试其实更多是谈论项目，项目是锋哥帮忙整合的，结合之前各个技术点和公司业务，形成自己的东西，面试不是太大问题。经历差不多一个月的面试，成功入职拿到还比较满意的薪水，唯一遗憾没能去成大城市。

总结

1.学习东西一手资料全在官网，习惯看英文文档。

2.学习过程一定要形成笔记或者写博客来记录，方便之后复习。

3.学习目标一定要以JD为准，效率最快以及保证技术不会落后。

4.习惯设定目标激励自己，实现自我驱动。

5.面试能够走内推就走内推，人脉很重要。

6.前期找个人带带，可以少走很多弯路。

资料链接：

我的博客：https://liverrrr.fun/
B站视频：
https://space.bilibili.com/356836323/video

--end--

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

我是DBA，从大数据小白到阅读框架源码，薪资翻了三倍

前言

自我介绍

为什么要学习大数据

面试经历

总结

资料链接：

热门文章

最新文章

相关课程

相关电子书

相关实验场景