大数据技术闲侃之-鹰隼试翼风尘翕张

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据技术闲侃之-鹰隼试翼风尘翕张

前言

   似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。群里的信息再加上私聊我的部分,我能感受到这段时间同学们慢慢开始真正在做一些具体的数据岗位的工作了,虽然之前给的话题说聊聊职业生涯规划,但是我想着还在学校出来就聊规划这种好像有点飘,这有点像我们小时候学校老师问我们有啥梦想一样,我们自己都并不真正了解我们自己说出来的那个梦想。我们是大数据话题,还是以大数据工作岗位的视角展开吧!

数据岗位的特征

1、大数据组件能力是入门要求

  如果大家已经通过了面试,技术上肯定是得到认可了,很多人都很熟悉Hive、Hadoop计算引擎原理这些,因为现在的数据岗位都是基于大规模的数量,功力不行的话基本是没办法开展工作的。

2、强业务要求

  这个是真正的开始,数据非常细致,拿到一堆表输入,上面的内容其实本身就代表上游业务输入,而你要做的工作就是基于已有的数据原料加工出你要的结果数据,这其实就是业务本身,所以基于这个特征,要全面学习业务。

3、强质量要求

  不管是哪个数据岗位,数据的正确性是直接影响结果的,生产场景也许是有些质量要求不高,有些要求高,但是作为数据的岗位,一定是严格要求质量,我经常是说一句话是“3分数据7分质量"。另外来说,在回答数据正确与否的过程中,其实本身也是对业务的再次加深。

4、跨多业务域

  数据岗位和在线开发岗位这个地方是相反的,因为在线开发更多的迭代一个系统的功能,但是数据岗位本身就是基于来自不同域的数据进行业务运营分析,而且恰好来说你数据信息越多,你做的数据决策其实是更为有效果的。

一丢丢建议

基于一些特征再去看如何应对,我觉得是比较有用。

1、业务要通全局,建立自己的业务知识网络

虽然你实际负责的业务确实是一部分,但是整个业务在整个集团是怎么串起来的,进一步来说就是你的集团怎么去挣钱的,这个事情是要了解的。怎么去了解呢,一般问问带你的师兄师姐,看看文档,注意不要受限自己部门的,可以到处都翻一翻,把集团的搞得到的文档都看看,可以的话做点笔记,也许一把看的时候没啥感觉,过一阵子会在另外的地方联系起来的,你回过头来想起,会串起来的。

2、重视数据质量,需要善于去思考数据对不对,如何做对这件事情

这个非常关键,正如程序的灵魂是算法一样,数据开发的灵魂其实是质量。可能在过去的学习资料里,大部分都是在告诉你维度建模,数据引擎这些知识,但是在数据质量这件事情上涉及很少,我着重提出来。数据准确这个事情的地位会在你未来工作成果种转化成一股很强的力量,以及你对数据工作架构,设计中完全不一样的竞争优势。给个例子吧,比如说一个数据上订单金额是3元,我相信很多

人在问到3元对不对这个事情上肯定就去查询上游,比如说ODS是3元,我就是3元,那ods为什么是3元,因为在线是3元,那我持续追问,在线为什么是3元呢,这个基本就哑火了,因为这个只是3元,换个场景可能是3个亿的预算,这个时候你就发现这个数据对不对对业务有决定性影响。

3、数据架构思维养成

这个问题我是想表达大家在群里讨论的这个话题,表命名规范

实际上,数据本身的结构没有谁要求一定是怎样,架构一定的要可以给业务本身有正向的收益才是好架构。比如说大家都知道ods->dwd->dws->adm这种结构,实际大家考虑过没有为啥一定就要这样呢,我ods->adm行不行,其实你业务相对没那么复杂,ods也不用怎么处理,没啥问题的。当然一旦这样里面一堆人跳出来反对,这样子就乱套了,数据重复加工,一堆一致性,成本啥的要求。这里面不同的加工方式,历史上都有合理性,只不过业务本身在发展,架构本身也是变化的。在数据加工的时候可以有意识去留意这种业务加工的模式,这个事情其实就是数据架构。

4、保鲜数据技术

技术是不断变化的,而且就我们之前学到的那点技术远远不够,多加点社群的github信息,博客啦,数据技术分享群等,或者公司内部的技术分享,作为数据开发工作,我们的工作一方面是需要使用一些产品功能解决问题的,另一方面我们其实还能作为用户给到组件开发人一下需求输入,要是哪天可以帮人家测试出bug,他们是很开心的。当然我也时不时会分享点^^

结束语

这个阶段的你们,我想到的是"乳虎啸谷,百兽震惶。鹰隼试翼,风尘翕张!", 还记得我之前给大家说的闲庭信步么,那个时候大家是找工作的路上,现在是另一个阶段了,所以我给大家的建议是阔步前行,脚踏实地,事情做好便是可以支撑你不断前行的源源动力。少年们,加油!!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
1月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
539 0
|
3月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
361 4
|
4月前
|
存储 分布式计算 Hadoop
Hadoop框架解析:大数据处理的核心技术
组件是对数据和方法的封装,从用户角度看是实现特定功能的独立黑盒子,能够有效完成任务。组件,也常被称作封装体,是对数据和方法的简洁封装形式。从用户的角度来看,它就像是一个实现了特定功能的黑盒子,具备输入和输出接口,能够独立完成某些任务。
|
1月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
3月前
|
SQL 分布式计算 大数据
我与ODPS的十年技术共生之路
ODPS十年相伴,从初识的分布式计算到共生进化,突破架构边界,推动数据价值深挖。其湖仓一体、隐私计算与Serverless能力,助力企业降本增效,赋能政务与商业场景,成为数字化转型的“数字神经系统”。
|
3月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
3月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
4月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
4月前
|
存储 分布式计算 算法
Java 大视界 -- Java 大数据在智能教育在线考试监考与作弊检测中的技术创新(193)
本文探讨了Java大数据技术在智能教育在线考试监考与作弊检测中的创新应用。随着在线考试的普及,作弊问题日益突出,传统监考方式难以应对。通过Java大数据技术,可实现考生行为分析、图像识别等多维度监控,提升作弊检测的准确性与效率。结合Hadoop与Spark等技术,系统能实时处理海量数据,构建智能监考体系,保障考试公平性,推动教育评价体系的数字化转型。
|
4月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。

热门文章

最新文章

下一篇
oss云网关配置