大数据技术闲侃之-鹰隼试翼风尘翕张

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据技术闲侃之-鹰隼试翼风尘翕张

前言

   似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。群里的信息再加上私聊我的部分,我能感受到这段时间同学们慢慢开始真正在做一些具体的数据岗位的工作了,虽然之前给的话题说聊聊职业生涯规划,但是我想着还在学校出来就聊规划这种好像有点飘,这有点像我们小时候学校老师问我们有啥梦想一样,我们自己都并不真正了解我们自己说出来的那个梦想。我们是大数据话题,还是以大数据工作岗位的视角展开吧!

数据岗位的特征

1、大数据组件能力是入门要求

  如果大家已经通过了面试,技术上肯定是得到认可了,很多人都很熟悉Hive、Hadoop计算引擎原理这些,因为现在的数据岗位都是基于大规模的数量,功力不行的话基本是没办法开展工作的。

2、强业务要求

  这个是真正的开始,数据非常细致,拿到一堆表输入,上面的内容其实本身就代表上游业务输入,而你要做的工作就是基于已有的数据原料加工出你要的结果数据,这其实就是业务本身,所以基于这个特征,要全面学习业务。

3、强质量要求

  不管是哪个数据岗位,数据的正确性是直接影响结果的,生产场景也许是有些质量要求不高,有些要求高,但是作为数据的岗位,一定是严格要求质量,我经常是说一句话是“3分数据7分质量"。另外来说,在回答数据正确与否的过程中,其实本身也是对业务的再次加深。

4、跨多业务域

  数据岗位和在线开发岗位这个地方是相反的,因为在线开发更多的迭代一个系统的功能,但是数据岗位本身就是基于来自不同域的数据进行业务运营分析,而且恰好来说你数据信息越多,你做的数据决策其实是更为有效果的。

一丢丢建议

基于一些特征再去看如何应对,我觉得是比较有用。

1、业务要通全局,建立自己的业务知识网络

虽然你实际负责的业务确实是一部分,但是整个业务在整个集团是怎么串起来的,进一步来说就是你的集团怎么去挣钱的,这个事情是要了解的。怎么去了解呢,一般问问带你的师兄师姐,看看文档,注意不要受限自己部门的,可以到处都翻一翻,把集团的搞得到的文档都看看,可以的话做点笔记,也许一把看的时候没啥感觉,过一阵子会在另外的地方联系起来的,你回过头来想起,会串起来的。

2、重视数据质量,需要善于去思考数据对不对,如何做对这件事情

这个非常关键,正如程序的灵魂是算法一样,数据开发的灵魂其实是质量。可能在过去的学习资料里,大部分都是在告诉你维度建模,数据引擎这些知识,但是在数据质量这件事情上涉及很少,我着重提出来。数据准确这个事情的地位会在你未来工作成果种转化成一股很强的力量,以及你对数据工作架构,设计中完全不一样的竞争优势。给个例子吧,比如说一个数据上订单金额是3元,我相信很多

人在问到3元对不对这个事情上肯定就去查询上游,比如说ODS是3元,我就是3元,那ods为什么是3元,因为在线是3元,那我持续追问,在线为什么是3元呢,这个基本就哑火了,因为这个只是3元,换个场景可能是3个亿的预算,这个时候你就发现这个数据对不对对业务有决定性影响。

3、数据架构思维养成

这个问题我是想表达大家在群里讨论的这个话题,表命名规范

实际上,数据本身的结构没有谁要求一定是怎样,架构一定的要可以给业务本身有正向的收益才是好架构。比如说大家都知道ods->dwd->dws->adm这种结构,实际大家考虑过没有为啥一定就要这样呢,我ods->adm行不行,其实你业务相对没那么复杂,ods也不用怎么处理,没啥问题的。当然一旦这样里面一堆人跳出来反对,这样子就乱套了,数据重复加工,一堆一致性,成本啥的要求。这里面不同的加工方式,历史上都有合理性,只不过业务本身在发展,架构本身也是变化的。在数据加工的时候可以有意识去留意这种业务加工的模式,这个事情其实就是数据架构。

4、保鲜数据技术

技术是不断变化的,而且就我们之前学到的那点技术远远不够,多加点社群的github信息,博客啦,数据技术分享群等,或者公司内部的技术分享,作为数据开发工作,我们的工作一方面是需要使用一些产品功能解决问题的,另一方面我们其实还能作为用户给到组件开发人一下需求输入,要是哪天可以帮人家测试出bug,他们是很开心的。当然我也时不时会分享点^^

结束语

这个阶段的你们,我想到的是"乳虎啸谷,百兽震惶。鹰隼试翼,风尘翕张!", 还记得我之前给大家说的闲庭信步么,那个时候大家是找工作的路上,现在是另一个阶段了,所以我给大家的建议是阔步前行,脚踏实地,事情做好便是可以支撑你不断前行的源源动力。少年们,加油!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
32 2
|
26天前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
88 4
|
8天前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
1月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
9天前
|
SQL 存储 算法
比 SQL 快出数量级的大数据计算技术
SQL 是大数据计算中最常用的工具,但在实际应用中,SQL 经常跑得很慢,浪费大量硬件资源。例如,某银行的反洗钱计算在 11 节点的 Vertica 集群上跑了 1.5 小时,而用 SPL 重写后,单机只需 26 秒。类似地,电商漏斗运算和时空碰撞任务在使用 SPL 后,性能也大幅提升。这是因为 SQL 无法写出低复杂度的算法,而 SPL 提供了更强大的数据类型和基础运算,能够实现高效计算。
|
12天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
30 3
|
12天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
42 2
|
15天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
49 2
|
17天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
62 2