大数据技术闲侃之-鹰隼试翼风尘翕张

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据技术闲侃之-鹰隼试翼风尘翕张

前言

   似乎是需要把一系列串起来,继走出校门、岗位选择之后,现在又开始卷职业规划了,有同学提出想了解了解职业规划的事情。写这篇文章也是因为之前做了个开头,后续持续很久放在记事本上面吃灰了。这段时间呢,组里有3位刚从校园的同学进来,组里年龄瞬间拉低了一个很大的水平,不管愿不愿意,反正生理年龄上来了一场风暴式的洗牌,主要找工作这个事情上如果相同水平的话,肯定越小的未来潜力越大嘛。我自己也是参与到了这些新鲜血液成长过程中来。群里的信息再加上私聊我的部分,我能感受到这段时间同学们慢慢开始真正在做一些具体的数据岗位的工作了,虽然之前给的话题说聊聊职业生涯规划,但是我想着还在学校出来就聊规划这种好像有点飘,这有点像我们小时候学校老师问我们有啥梦想一样,我们自己都并不真正了解我们自己说出来的那个梦想。我们是大数据话题,还是以大数据工作岗位的视角展开吧!

数据岗位的特征

1、大数据组件能力是入门要求

  如果大家已经通过了面试,技术上肯定是得到认可了,很多人都很熟悉Hive、Hadoop计算引擎原理这些,因为现在的数据岗位都是基于大规模的数量,功力不行的话基本是没办法开展工作的。

2、强业务要求

  这个是真正的开始,数据非常细致,拿到一堆表输入,上面的内容其实本身就代表上游业务输入,而你要做的工作就是基于已有的数据原料加工出你要的结果数据,这其实就是业务本身,所以基于这个特征,要全面学习业务。

3、强质量要求

  不管是哪个数据岗位,数据的正确性是直接影响结果的,生产场景也许是有些质量要求不高,有些要求高,但是作为数据的岗位,一定是严格要求质量,我经常是说一句话是“3分数据7分质量"。另外来说,在回答数据正确与否的过程中,其实本身也是对业务的再次加深。

4、跨多业务域

  数据岗位和在线开发岗位这个地方是相反的,因为在线开发更多的迭代一个系统的功能,但是数据岗位本身就是基于来自不同域的数据进行业务运营分析,而且恰好来说你数据信息越多,你做的数据决策其实是更为有效果的。

一丢丢建议

基于一些特征再去看如何应对,我觉得是比较有用。

1、业务要通全局,建立自己的业务知识网络

虽然你实际负责的业务确实是一部分,但是整个业务在整个集团是怎么串起来的,进一步来说就是你的集团怎么去挣钱的,这个事情是要了解的。怎么去了解呢,一般问问带你的师兄师姐,看看文档,注意不要受限自己部门的,可以到处都翻一翻,把集团的搞得到的文档都看看,可以的话做点笔记,也许一把看的时候没啥感觉,过一阵子会在另外的地方联系起来的,你回过头来想起,会串起来的。

2、重视数据质量,需要善于去思考数据对不对,如何做对这件事情

这个非常关键,正如程序的灵魂是算法一样,数据开发的灵魂其实是质量。可能在过去的学习资料里,大部分都是在告诉你维度建模,数据引擎这些知识,但是在数据质量这件事情上涉及很少,我着重提出来。数据准确这个事情的地位会在你未来工作成果种转化成一股很强的力量,以及你对数据工作架构,设计中完全不一样的竞争优势。给个例子吧,比如说一个数据上订单金额是3元,我相信很多

人在问到3元对不对这个事情上肯定就去查询上游,比如说ODS是3元,我就是3元,那ods为什么是3元,因为在线是3元,那我持续追问,在线为什么是3元呢,这个基本就哑火了,因为这个只是3元,换个场景可能是3个亿的预算,这个时候你就发现这个数据对不对对业务有决定性影响。

3、数据架构思维养成

这个问题我是想表达大家在群里讨论的这个话题,表命名规范

实际上,数据本身的结构没有谁要求一定是怎样,架构一定的要可以给业务本身有正向的收益才是好架构。比如说大家都知道ods->dwd->dws->adm这种结构,实际大家考虑过没有为啥一定就要这样呢,我ods->adm行不行,其实你业务相对没那么复杂,ods也不用怎么处理,没啥问题的。当然一旦这样里面一堆人跳出来反对,这样子就乱套了,数据重复加工,一堆一致性,成本啥的要求。这里面不同的加工方式,历史上都有合理性,只不过业务本身在发展,架构本身也是变化的。在数据加工的时候可以有意识去留意这种业务加工的模式,这个事情其实就是数据架构。

4、保鲜数据技术

技术是不断变化的,而且就我们之前学到的那点技术远远不够,多加点社群的github信息,博客啦,数据技术分享群等,或者公司内部的技术分享,作为数据开发工作,我们的工作一方面是需要使用一些产品功能解决问题的,另一方面我们其实还能作为用户给到组件开发人一下需求输入,要是哪天可以帮人家测试出bug,他们是很开心的。当然我也时不时会分享点^^

结束语

这个阶段的你们,我想到的是"乳虎啸谷,百兽震惶。鹰隼试翼,风尘翕张!", 还记得我之前给大家说的闲庭信步么,那个时候大家是找工作的路上,现在是另一个阶段了,所以我给大家的建议是阔步前行,脚踏实地,事情做好便是可以支撑你不断前行的源源动力。少年们,加油!!

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
65 2
|
28天前
|
数据采集 传感器 大数据
利用大数据进行精准农业:技术与挑战
【6月更文挑战第6天】大数据技术正变革农业,推动精准农业发展。通过实时收集农田数据(如土壤条件、作物生长情况),运用数据分析预测病虫害,优化生产管理。示例代码显示了如何使用Python进行产量预测。然而,数据质量、整合、农民技术接受度及隐私安全等问题挑战重重。需强化数据管理,统一标准,提升农民数字素养,并保障数据安全。随着技术进步,大数据在精准农业的应用将更加广泛,助力农业高效可持续发展。
40 0
|
16天前
|
监控 数据可视化 大数据
大数据技术在公共交通系统规划中的应用
大数据技术在公共交通系统规划中的应用
|
19天前
|
分布式计算 Hadoop 大数据
大数据技术:Hadoop与Spark的对比
【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构,擅长处理大规模批处理任务,依赖HDFS和MapReduce,具有高可靠性和生态多样性。Spark是快速数据处理引擎,侧重内存计算,提供多语言接口,支持机器学习和流处理,处理速度远超Hadoop,适合实时分析和交互式查询。两者在资源占用和生态系统上有差异,适用于不同应用场景。选择时需依据具体需求。
|
27天前
|
存储 大数据 分布式数据库
使用Apache HBase进行大数据存储:技术解析与实践
【6月更文挑战第7天】Apache HBase,一个基于HDFS的列式存储NoSQL数据库,提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色,未来有望在更多领域发挥作用。
|
9天前
|
存储 数据采集 分布式计算
利用大数据技术优化电商返利系统的效率
利用大数据技术优化电商返利系统的效率
|
10天前
|
存储 数据采集 分布式计算
利用大数据技术优化电商返利系统的效率
利用大数据技术优化电商返利系统的效率
|
2月前
|
分布式计算 监控 Java
Java的大数据处理与分析技术 (2)
Java的大数据处理与分析技术 (2)
|
2月前
|
存储 数据采集 分布式计算
大数据技术生态系统概述
【5月更文挑战第30天】大数据技术生态系统涵盖数据采集(Flume, Logstash, FileBeat, Sqoop, Datax, Canaal, Maxwell)、存储(HDFS, HBase, Kudu, Kafka)、资源管理(YARN, Kubernetes, Mesos)、计算(MapReduce, Spark, Storm, Flink)、分析(Hive, Impala, Kylin, Clickhouse, Druid, Drois)、任务调度(Azkaban, Oozie, DolphinScheduler)及底层技术(Zookeeper)。
53 1
|
2月前
|
分布式计算 Hadoop 大数据
探索大数据技术:Hadoop与Spark的奥秘之旅
【5月更文挑战第28天】本文探讨了大数据技术中的Hadoop和Spark,Hadoop作为分布式系统基础架构,通过HDFS和MapReduce处理大规模数据,适用于搜索引擎等场景。Spark是快速数据处理引擎,采用内存计算和DAG模型,适用于实时推荐和机器学习。两者各有优势,未来将继续发展和完善,助力大数据时代的发展。