大数据技术人员的打怪升级之路

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据技术人员的打怪升级之路

引言

前阵子有同学在群里聊起一个话题,如何评价一个模型的好坏,准备面试嘛,肯定就去各种百度啦,当然我其实也喜欢问人家这种问题,尤其是作为面试官的时候,我其实更加希望面试者可以给我一点新的思路,不是很喜欢百度上面的各种答案,我也想借此聊聊我自己的看法!

模型VS表

似乎在当下,模型似乎就是表而已,好像没啥差别吧。这个在我的工作生涯中有完整经历过这种转变,当我还是一个程序员的时候,我确实也是会去建立各种表,没有门槛,但是就是当时来说,我建表的话就是为了产出一些结果,有结果就行了,以至于有分析师找我要数据的时候,我会觉得可以直接给人家一个结果。不过这个时期,我没有想过一件事情,就是在未来某一天,Bl改变一些条件或者一些数据列获取的时候,以至于你这个表都有点不能使用,甚至于需要重新去开发。后面我其实是换了工作,我是作为一个数仓的岗位入职的,这个时候你会发现一个明显的区别,那就是你的表是作为一个公共的数据层提供出去的,满足给下游的业务方也是多样的,这种时候的区别就很明显了,那就是作为一种公共的数据中间层提供出去这部分表已然转换成一种数据资产了,是有实际为下游多方产生价值的东西,这个时候有数据域的划分,有命名的规范,有字段类型要求,还有数据质量的严格要求,这个时候你会发现把这整个操作过程我们才会叫做模型,而以前为了追求结果的方式去建表,我们只能叫做表而已。

好模型和坏模型

有没思考过,不管是人或者事务来说,我们其实唯一衡量的标准就是能否禁得起时间的考验,我多次看过<<人与自然>>-与远古人同行节目,我印象最深的是人类之所以可以存活下来是因为在恶劣的环境中还能找到食物,更加厉害的乃至影响人类蜕变的是布须曼人将水储藏在鸵鸟蛋中,埋在地下等没水的时候饮用,这其实是对未来的一种适应。当然对于我们模型来说一样如此,你建立的模型是否满足当下的业务支持,那么随着业务的迭代发展,数据量的持续增加,你的模型是否还能保持比较清晰的迭代和高效的产出呢?好坏其实在这其中就可以分辨出来了。完美模型我见得不多,因为业务总会有迭代在某一时刻为了满足某项业务支持会引入一些不好的设计,但是整体来说,如果一个模型3年5年下来还是有很好的性能,有很好的业务支持,就是很棒的。坏的模型这就见得很多了,我经常叫做茅坑里的石头,真实又臭又硬,而且占资源,占成本。我认为好坏评价可以直接有以下的方面去体现,出于对模型的理解,我们要看看这个评价背后的原因。

1、模型的规范性:模型命名,字段命名

这个事情其实是一个工程性的规范,至少我们在软件工程中我们是需要很规范定义软件接口,参数含义,大致上是自己内部倒腾一下还好,一旦提供给外部表使用,如果不是良好的规范,简直就是灾难,模型的话天生就是公共的数据资产,好的模型命名可以方便检索,查阅,而且模型名字上可以表达主要的信息,否则就是数据垃圾了。

2、数据质量:数据需要是正确的

这个事情是说如果数据都不对,这不是很要命的事情么,因为大抵使用公共层的数据默认你是正确的,如果不正确,使用的人很难判断,更加谈不上帮你修复了

3、数据的产出性能

这个本身是大数据加工的特征,因为一开始就是希望用分布式计算能力加工大量的数据,如果本身没有这种性能要求,说实话这个资产是只能服务少部分场景的

4、数据的可迭代,可维护,就是在上面迭代效率是否高

是否可以很快适应新的需求呢,这个事情估计大家要打个问号了,这个直接挑战的是加工链路的复杂性和清晰度,那就是依赖是否是很重的,是否有控制增量的

5、数据的完备性,历史数据生命周期,维度覆盖是否满足公共业务需求

数据的完备性是指看似表模型很多,数据很多,实际上真正可以拿出来的数据很少,大量的冗余数据并不能说明数据量完备,而是在整个数据模型周期上,是否可以还原业务的所有生命周期,是否可以拿到丰富的业务维度属性

6、事实和对象定义是否清晰,坏模型就是杂糅

见过太多的表,又大又长,本质上来说,其实就是无限度地去扩宽字段属性,这个地方直接就是合理性的加工和事实的杂糅

数据人员的成长

其实大部分人对数据其实是没啥概念,甚至是觉得没有成长性的,到底有没有呢,那就是衡量数据方面的高手和菜鸟怎么去划分呢?其实很简单就是直接看那个人建立出来的模型是好模型还是坏模型。大凡高手,会在业务、效率、计存方面设计模都可以拿高分的,这种能力表现在对数据的架构设计能力以及对数据域整体的成本效率的一种优化力度把握。

可能有点抽象,那我给出一份list,这份参考是来自数据仓库工具箱里面的内容,我觉得是可以作为数据人员的准则的:

理解业务用户

理解他们的工作责任、目标和任务

确定商业用户在制定哪些决策时需要DW/BI系统的帮助

识别出那些制定出高效率、高影响的决策的“最佳”用户

发现潜在的新用户、并让他们意识到DW/BI系统能够给他们带来什么能力

对业务用户发布高质量、相关的、可访问的信息和分析

选择最健壮的、可操作的数据放入到DW/BI系统中,从组织机构的各种数据源中仔细选择

简化用户接口和应用,采用模版驱动方式,与用户的认知过程轮廓匹配

确保数据精确、可信,使其标识在整个企业具有一致性

不间断地监控数据和分析的准确性

适应用户不断变化的思维方式、需求和业务优先级、以及新数据源的可用性

维护DW/BI环境

采用DW/BI系统制定的成功的业务决策,验证人员配置以及要投入的开支

定期对DW/BI系统进行更新

保持业务用户的信任

保持业务用户、执行赞助商和IT管理层满意度

在以上工作中,一个一个对照,在实际落地的时候进行自我打分对照。

数据人员与技术

这个是我在公司招人的时候有体会,面试的时候实际上是招聘对大数据引擎底层很熟悉甚至精通的要求,大部分人也是觉得为啥要这样,过去不就是建表么。这个似乎就是在你不了解大数据技术的时候你其实是想去了解,真正掌握大数据技术的时候你会发现这些技术很难直接带来落地的结果,直到你去把技术手段拿过去建模的时候,你才能 发现这个路子通了。当然,另一方面来说,如果直接就上手建模,很简单,即使你模型看上去各种规范标准,准确,但是永远也没办法去做性能上的改造,这往往是一种望尘莫及的感觉,人家懂的帮你调整几下就带来极快的时效,这种时候只能干瞪眼

后话

事实上我们一般是把自己说成是技术人员,而在我们的 下游还有一部分也是做数据的,消费我们的数据,我们会把他们才叫做数据人员,在大数据的成长之路上,利用技术手段加持你真正的数据链路,从这个层面来讲探索新的etl pattern,带来新的设计范式,打造行业规范,也是可以星辰大海的一件事情,也就不会觉得数据人这个称呼不大行了!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
2月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
176 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
323 17
|
3月前
|
SQL 人工智能 分布式计算
飞天发布时刻:大数据AI平台产品升级发布
阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。
|
5月前
|
分布式计算 资源调度 监控
【大数据】Hadoop 2.X和1.X升级优化对比
【大数据】Hadoop 2.X和1.X升级优化对比
93 0
|
存储 人工智能 分布式计算
【云栖2023】张治国:MaxCompute架构升级及开放性解读
本文根据2023云栖大会演讲实录整理而成,演讲信息如下 演讲人:张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题:MaxCompute架构升级及开放性解读 活动:2023云栖大会
60902 16
|
资源调度 分布式计算 Kubernetes
给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度
飞天伏羲作为有着十多年历史的调度团队,在服务好 MaxCompute 大数据平台的过程中,一直在不断通过自我革新赶超业界先进水平,我们经历了 Fuxi 2.0 的这样的大规模升级,今天通过 K8s 统一调度项目又再次实现了系统架构的蜕变,将大数据平台强大的调度能力赋予 K8s 系统,同时去拥抱 K8s 周边丰富的生态。除了集团弹内集群,将来我们在公共云、专有云等多个场景,也会以 K8s 统一调度的方式进行输出,以更好地服务云上的用户,敬请期待!
1712 12
给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度
|
存储 SQL 分布式计算
AnalyticDB MySQL升级为湖仓一体架构:从湖到仓,打造云原生一站式数据分析平台
AnalyticDB MySQL湖仓版同时支持低成本离线处理和高性能在线分析,适合ETL/BI报表/交互式查询/APP应用等多场景,并可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等