大数据技术闲侃之-鹰隼试翼风尘翕张

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据技术闲侃之-鹰隼试翼风尘翕张

前言

   似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。群里的信息再加上私聊我的部分,我能感受到这段时间同学们慢慢开始真正在做一些具体的数据岗位的工作了,虽然之前给的话题说聊聊职业生涯规划,但是我想着还在学校出来就聊规划这种好像有点飘,这有点像我们小时候学校老师问我们有啥梦想一样,我们自己都并不真正了解我们自己说出来的那个梦想。我们是大数据话题,还是以大数据工作岗位的视角展开吧!

数据岗位的特征

1、大数据组件能力是入门要求

  如果大家已经通过了面试,技术上肯定是得到认可了,很多人都很熟悉Hive、Hadoop计算引擎原理这些,因为现在的数据岗位都是基于大规模的数量,功力不行的话基本是没办法开展工作的。

2、强业务要求

  这个是真正的开始,数据非常细致,拿到一堆表输入,上面的内容其实本身就代表上游业务输入,而你要做的工作就是基于已有的数据原料加工出你要的结果数据,这其实就是业务本身,所以基于这个特征,要全面学习业务。

3、强质量要求

  不管是哪个数据岗位,数据的正确性是直接影响结果的,生产场景也许是有些质量要求不高,有些要求高,但是作为数据的岗位,一定是严格要求质量,我经常是说一句话是“3分数据7分质量"。另外来说,在回答数据正确与否的过程中,其实本身也是对业务的再次加深。

4、跨多业务域

  数据岗位和在线开发岗位这个地方是相反的,因为在线开发更多的迭代一个系统的功能,但是数据岗位本身就是基于来自不同域的数据进行业务运营分析,而且恰好来说你数据信息越多,你做的数据决策其实是更为有效果的。

一丢丢建议

基于一些特征再去看如何应对,我觉得是比较有用。

1、业务要通全局,建立自己的业务知识网络

虽然你实际负责的业务确实是一部分,但是整个业务在整个集团是怎么串起来的,进一步来说就是你的集团怎么去挣钱的,这个事情是要了解的。怎么去了解呢,一般问问带你的师兄师姐,看看文档,注意不要受限自己部门的,可以到处都翻一翻,把集团的搞得到的文档都看看,可以的话做点笔记,也许一把看的时候没啥感觉,过一阵子会在另外的地方联系起来的,你回过头来想起,会串起来的。

2、重视数据质量,需要善于去思考数据对不对,如何做对这件事情

这个非常关键,正如程序的灵魂是算法一样,数据开发的灵魂其实是质量。可能在过去的学习资料里,大部分都是在告诉你维度建模,数据引擎这些知识,但是在数据质量这件事情上涉及很少,我着重提出来。数据准确这个事情的地位会在你未来工作成果种转化成一股很强的力量,以及你对数据工作架构,设计中完全不一样的竞争优势。给个例子吧,比如说一个数据上订单金额是3元,我相信很多

人在问到3元对不对这个事情上肯定就去查询上游,比如说ODS是3元,我就是3元,那ods为什么是3元,因为在线是3元,那我持续追问,在线为什么是3元呢,这个基本就哑火了,因为这个只是3元,换个场景可能是3个亿的预算,这个时候你就发现这个数据对不对对业务有决定性影响。

3、数据架构思维养成

这个问题我是想表达大家在群里讨论的这个话题,表命名规范

实际上,数据本身的结构没有谁要求一定是怎样,架构一定的要可以给业务本身有正向的收益才是好架构。比如说大家都知道ods->dwd->dws->adm这种结构,实际大家考虑过没有为啥一定就要这样呢,我ods->adm行不行,其实你业务相对没那么复杂,ods也不用怎么处理,没啥问题的。当然一旦这样里面一堆人跳出来反对,这样子就乱套了,数据重复加工,一堆一致性,成本啥的要求。这里面不同的加工方式,历史上都有合理性,只不过业务本身在发展,架构本身也是变化的。在数据加工的时候可以有意识去留意这种业务加工的模式,这个事情其实就是数据架构。

4、保鲜数据技术

技术是不断变化的,而且就我们之前学到的那点技术远远不够,多加点社群的github信息,博客啦,数据技术分享群等,或者公司内部的技术分享,作为数据开发工作,我们的工作一方面是需要使用一些产品功能解决问题的,另一方面我们其实还能作为用户给到组件开发人一下需求输入,要是哪天可以帮人家测试出bug,他们是很开心的。当然我也时不时会分享点^^

结束语

这个阶段的你们,我想到的是"乳虎啸谷,百兽震惶。鹰隼试翼,风尘翕张!", 还记得我之前给大家说的闲庭信步么,那个时候大家是找工作的路上,现在是另一个阶段了,所以我给大家的建议是阔步前行,脚踏实地,事情做好便是可以支撑你不断前行的源源动力。少年们,加油!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
人工智能 搜索推荐 算法
数据平台演进问题之数据库技术面临挑战如何解决
数据平台演进问题之数据库技术面临挑战如何解决
|
3月前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
126 2
|
3月前
|
数据采集 传感器 大数据
利用大数据进行精准农业:技术与挑战
【6月更文挑战第6天】大数据技术正变革农业,推动精准农业发展。通过实时收集农田数据(如土壤条件、作物生长情况),运用数据分析预测病虫害,优化生产管理。示例代码显示了如何使用Python进行产量预测。然而,数据质量、整合、农民技术接受度及隐私安全等问题挑战重重。需强化数据管理,统一标准,提升农民数字素养,并保障数据安全。随着技术进步,大数据在精准农业的应用将更加广泛,助力农业高效可持续发展。
68 0
|
7天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
10天前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
21天前
|
消息中间件 监控 大数据
"探索Streaming技术:如何重塑大数据未来,实时处理引领数据价值即时转化新纪元"
【8月更文挑战第10天】信息技术高速发展,数据成为推动社会进步的关键。面对数据爆炸,高效实时处理成挑战。流处理(Streaming)技术应运而生,即时处理数据流,无需积累。应用于实时监控、日志分析等场景。例如,电商平台利用流处理分析用户行为,推送个性化推荐;智能交通系统预测拥堵。结合Apache Kafka和Flink,实现从数据收集到复杂流处理的全过程。流处理技术促进数据即时价值挖掘,与AI、云计算融合,引领大数据未来发展。
54 5
|
2月前
|
机器学习/深度学习 存储 分布式计算
驾驭数据洪流:大数据处理的技术与应用
大数据处理不仅是信息技术领域的一个热门话题,也是推动各行各业创新和发展的重要力量。随着技术的进步和社会需求的变化,大数据处理将继续发挥其核心作用,为企业创造更多的商业价值和社会贡献。未来,大数据处理将更加注重智能化、实时性和安全性,以应对不断增长的数据挑战。
|
2月前
|
传感器 大数据 数据处理
大数据处理中的流计算技术:实现实时数据处理与分析
【7月更文挑战第30天】随着分布式系统、云原生技术、数据安全与隐私保护技术的不断发展,流计算技术将在更多领域得到应用和推广,为大数据处理和分析提供更加高效、智能的解决方案。
|
9天前
|
SQL 存储 分布式计算
神龙大数据加速引擎MRACC问题之RDMA技术帮助大数据分布式计算优化如何解决
神龙大数据加速引擎MRACC问题之RDMA技术帮助大数据分布式计算优化如何解决
14 0
|
11天前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
24 0

热门文章

最新文章

下一篇
云函数