从金融行业转型大数据,一路学习点滴的分享!

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。

大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。

本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。

开始

我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融大厂(杭州)实习。

我所在的部门是最挣钱的部门--资管,我们的系统覆盖了全部的金融业务,除了保险业务。每天完成正常的任务之后,也学了很多金融的业务,在这里奉劝大家不懂股票的小白,千万不要入市。这个行业,水太深了。具体的东西就不说了。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:522189307   欢迎进阶中和进想深入大数据的小伙伴加入。

转折

虽然金融行业薪水可观,但是限于技术老套,甚至还在使用 delphi。做了一段时间之后,发现不适合自己,由于就有了离职的想法。去年经济大形势不大好,于是也不敢轻易裸辞。此时的心情是:不甘心就这样下去。

当时还不确定之后要走什么方向,看我公众号的改名记录就知道了,但是脑子真的一团糟!


2018 的 3 月 5 号,我给自己定了一个 Flag,下面是在码农翻身的知识星球里面发的半年目标。此时斗志满满。

事实证明,四个月业余时间学大数据是不够的,坚持下来,时间超出了预期。Hadoop 生态 和 Spark 生态以及数据仓库,数据建模,机器学习等等。有些资料来自于网上,还有来自一些教育机构的资料,剩下的可以从官网上找到文档。

看完了《大型网站架构》、《深入理解Java虚拟机》这两本书,《图解HTTP》耽搁下了。毕业旅行也带女朋友去了,只不过没去四川,去了北京,天津,济南和青岛。

关于大数据方面的书籍,我看了《离线和实时大数据开发实战》、《数据仓库结构设计与实施》、《Spark技术内幕》、《推荐系统实践》。挑重点部分看的,结合自己学的技术进行消化。

这个过程中,我听得最多的是 Beyond 的歌。坚持不下的时候就打开音乐,听一会再接着学。日日夜夜,也曾怀疑自己。

成长

直到目前,写的文章数量不是很多,等到达一定里程碑的时候,我会专门整理成一系列目录的。目前的文章,暂且列一下:

简述大数据技术

什么是数据仓库?谈谈我的理解

PageRank 算法,搜索引擎的关键技术

Sqoop 不完全实战

Flume 原理,分析,架构

kafka 简介、架构、安装

Kafka 遇上 Spark Streaming

Kafka 的数据丢失和重复消费

HBase 架构分析

HBase RowKey 设计

HBase 数据模型,体系架构,组件功能说明等总结

Hbase 在微博中的表设计,部分

Zookeeper 的恢复模式,广播模式,选举流程

Hadoop HA 深度解剖

Spark 调优整合篇-汇总(长文)

Spark 的 数据本地化,提供最佳的计算节点,终于入门了

Spark 调优一瞥 | shuffle 调优

Spark 的 shuffle 文件寻址流程

从收集数据,集群分析数据,BI展示

Flink 干货来袭 | Flink Forward China 2018 大会资料整理

上面是 2018 年忙里偷闲写的 20 篇关于大数据技术的文章。

New Flag

2019 我也给自己定下了几个目标,其中一个就是更新数量以及频率要提上去。每篇文章尽量短而有用,给大家把大数据讲清楚,这个任重而道远啊。

2018 年,转折。2019 年,蜕变。

三个原则:自我激励,自我认知,自我驱动。

加入合适的圈子,比如「码农翻身」、「帅张和他的朋友们」。


离开舒适区,不能回避痛苦。

刚来上海一周,面试了两家公司。有一个给了 offer,年薪 23 w 对于刚毕业的我来说,比之前的金融岗位少,不过可以接受。那个公司我挺喜欢的,自身发展空间大一些。数据平台要从头开始创建,部门整合为中台大数据部门。

目前我还没有入职,打算继续面试。

未来的计划,「坚持」、「用心」完成每一篇文章,能帮到大家最好了。


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
11月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
160 5
|
11月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
116 3
|
11月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
178 0
|
6月前
|
机器学习/深度学习 搜索推荐 算法
大数据与金融科技:革新金融行业的动力引擎
大数据与金融科技:革新金融行业的动力引擎
146 0
大数据与金融科技:革新金融行业的动力引擎
|
11月前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
265 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
10月前
|
机器学习/深度学习 数据采集 搜索推荐
大数据与金融风控:信用评估的新标准
【10月更文挑战第31天】在数字经济时代,大数据成为金融风控的重要资源,特别是在信用评估领域。本文探讨了大数据在金融风控中的应用,包括多维度数据收集、智能数据分析、动态信用评估和个性化风控策略,以及其优势与挑战,并展望了未来的发展趋势。
|
11月前
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
283 1
|
11月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
180 1
|
11月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
306 1

热门文章

最新文章