大数据路线

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一、概念部分1.1 大数据、数仓、数据湖、中台的概念

一、概念部分

1.1 大数据、数仓、数据湖、中台的概念
区别 数仓 数据湖
使用场景 批处理,BI,数据可视化 机器学习、预测分析、数据分析
Schema 写入型 读取型
数据源类型 OLTP为主的结构化数据 loT,日志,各个端等结构非结构均可
性价比 需要快速查询,高优化存储需要高成本 查询实时性要求地,可使用低成本存储套件
数据质量 高,需要高度监管 一般,部分数据无监管
面对用户 业务分析和决策 数据开发,数据科学家和业务分析

部分参考资料:

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体-阿里云开发者社区

数据湖是什么_数据湖和数据仓库的差别_数据湖架构-AWS云服务

1.2 数仓分层理论
  1. 为什么要分层?
  2. 如何分层?
1.3 数据模型之建模理论
1.4 数据治理:结合项目来沟通
  1. 数据资源管理:包括但不限于元数据,血缘,共享渠道,权限管控
  2. 数据质量管控:如何考核质量,如何动态获取,如何处置问题数据
  3. 数据安全把控:哪些问题需要关注,具体的管控方法如数据分级管理,审计和脱敏等
  4. SLA:如何高效运维,无法达成的SLA除了技术层面的优化如何通过沟通和任务分级来解决等
  5. 数据服务输出:API网关,表共享管理,标签/算法等如何更便捷的使用数据

二、技术框架部分

重点考核部分。请各位ETL工程师补充完善。

2.1 Hadoop生态
  1. yarn的基本理念和底层架构
  2. hdfs的读写基本流程,数据如何分片,多副本写入算法等
  3. mr的原理描述
  4. 目前hadoop的局限不足,有那些优化空间如namenode的瓶颈问题等
2.2 其他大数据技术
  1. Kafka等消息队列:为什么能做到高吞吐,高性能,one copy原理等
  2. Flink等实时流处理:双流join,断流监控处理等
  3. 运维调度工具
2.3 传统数据库的技术问题
  1. OLAP/OLTP区别
  2. 传统数据库索引,如mysql的B+树原理解析
2.4 数仓建设的lambda架构
  1. 实时数仓和离线数仓共存的架构解析
2.5 性能优化相关
  1. 如果高效使用索引
  2. 大数据中的数据倾斜及解决方案
  3. 小文件问题
  4. 数据建模前的模型设计考量
  5. 上线后的任务监控和优化
  6. 服务器资源的监控和调试

三、代码能力

3.1 SQL
  1. 常用窗口函数考察
  2. Join相关
  3. 复制查询如子查询,行转列,排序分组等

43.jpeg

3.2 数据结构和算法

目前该部分不做强制要求,是否需要考察需要看候选人背景,有开发背景的可以适当考核。

  1. 常见数据结构的实现和基本操作:基本的链表(反转,是否有环),二叉树(BFS/DFS,高度等),大小堆(如何创建),hash表(原理和冲突解决),树(BFS/DFS,是否有环)等结构
  2. 常见的数组操作:几种排序和查找的考察(二分查找及其优化的空间,各种排序原理如选排,插排,冒泡,快排等和时间复杂度),一些简答的如topN大的数查询,寻找重复数字,矩阵转置等
  3. 常见算法思路:分治,贪心,动规(背包问题),递归回溯(8皇后)原理等
  4. 综合编码能力考察:java/python任选实现以上问题

四、开放问题

以下问题并没有标准答案,需要去考量解决问题的思路,考察综合能力,如沟通,管理和应急处置等。

4.1 项目中遇到的技术问题
  1. 项目使用的架构和数据流解析
  2. 从0搭建的过程中的问题
  1. 硬件配置如何考量
  2. 软件如何选型
4.2 项目中遇到的沟通问题
  1. 项目技术落地推动问题
  2. 升级沟通
  3. 交付延期
  4. 和售前的gap
  5. 开发团队之间技术gap
4.3 项目中遇到的管理问题
  1. 人月不足
  2. 团队流动快
  3. 人员技术层次不一致
  4. 日常管理方法
4.4 业务能力考察
  1. 项目中解决的业务问题:沟通为主
4.5 自我提升
  1. 如何快速学习新技术
  2. 项目中完全没遇到过的问题的解决思路
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
SQL 消息中间件 分布式计算
大三、研二的秋招备战路线(Java、大数据)
大三、研二的秋招备战路线(Java、大数据)
|
新零售 Web App开发 监控
《企业大数据实践路线》之企业大数据的现状与痛点
大数据与云计算的关系就像一枚硬币的正反面一样密不可分,没有云计算就没有大数据。
2021 0
|
机器学习/深度学习 数据采集 消息中间件
典型技术架构的分析和构建——《企业大数据实践路线》之四
企业大数据时间——典型技术架构的分析和构建
3521 0
|
Web App开发 监控 大数据
解析业务数据的特征——《企业大数据实践路线》之三
阿里云MVP戚俊带你分析数据类型,进行大数据实战
2618 0
|
大数据 数据库
大数据在媒体行业的应用——《企业大数据实践路线》之二
阿里云MVP戚俊带你以媒体行业为例,深入分析大数据在媒体行业的应用
2806 0
|
1月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
71 0
|
2月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
88 4
|
2月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
190 3
|
2月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。

热门文章

最新文章