大数据路线

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一、概念部分1.1 大数据、数仓、数据湖、中台的概念

一、概念部分

1.1 大数据、数仓、数据湖、中台的概念
区别 数仓 数据湖
使用场景 批处理,BI,数据可视化 机器学习、预测分析、数据分析
Schema 写入型 读取型
数据源类型 OLTP为主的结构化数据 loT,日志,各个端等结构非结构均可
性价比 需要快速查询,高优化存储需要高成本 查询实时性要求地,可使用低成本存储套件
数据质量 高,需要高度监管 一般,部分数据无监管
面对用户 业务分析和决策 数据开发,数据科学家和业务分析

部分参考资料:

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体-阿里云开发者社区

数据湖是什么_数据湖和数据仓库的差别_数据湖架构-AWS云服务

1.2 数仓分层理论
  1. 为什么要分层?
  2. 如何分层?
1.3 数据模型之建模理论
1.4 数据治理:结合项目来沟通
  1. 数据资源管理:包括但不限于元数据,血缘,共享渠道,权限管控
  2. 数据质量管控:如何考核质量,如何动态获取,如何处置问题数据
  3. 数据安全把控:哪些问题需要关注,具体的管控方法如数据分级管理,审计和脱敏等
  4. SLA:如何高效运维,无法达成的SLA除了技术层面的优化如何通过沟通和任务分级来解决等
  5. 数据服务输出:API网关,表共享管理,标签/算法等如何更便捷的使用数据

二、技术框架部分

重点考核部分。请各位ETL工程师补充完善。

2.1 Hadoop生态
  1. yarn的基本理念和底层架构
  2. hdfs的读写基本流程,数据如何分片,多副本写入算法等
  3. mr的原理描述
  4. 目前hadoop的局限不足,有那些优化空间如namenode的瓶颈问题等
2.2 其他大数据技术
  1. Kafka等消息队列:为什么能做到高吞吐,高性能,one copy原理等
  2. Flink等实时流处理:双流join,断流监控处理等
  3. 运维调度工具
2.3 传统数据库的技术问题
  1. OLAP/OLTP区别
  2. 传统数据库索引,如mysql的B+树原理解析
2.4 数仓建设的lambda架构
  1. 实时数仓和离线数仓共存的架构解析
2.5 性能优化相关
  1. 如果高效使用索引
  2. 大数据中的数据倾斜及解决方案
  3. 小文件问题
  4. 数据建模前的模型设计考量
  5. 上线后的任务监控和优化
  6. 服务器资源的监控和调试

三、代码能力

3.1 SQL
  1. 常用窗口函数考察
  2. Join相关
  3. 复制查询如子查询,行转列,排序分组等

43.jpeg

3.2 数据结构和算法

目前该部分不做强制要求,是否需要考察需要看候选人背景,有开发背景的可以适当考核。

  1. 常见数据结构的实现和基本操作:基本的链表(反转,是否有环),二叉树(BFS/DFS,高度等),大小堆(如何创建),hash表(原理和冲突解决),树(BFS/DFS,是否有环)等结构
  2. 常见的数组操作:几种排序和查找的考察(二分查找及其优化的空间,各种排序原理如选排,插排,冒泡,快排等和时间复杂度),一些简答的如topN大的数查询,寻找重复数字,矩阵转置等
  3. 常见算法思路:分治,贪心,动规(背包问题),递归回溯(8皇后)原理等
  4. 综合编码能力考察:java/python任选实现以上问题

四、开放问题

以下问题并没有标准答案,需要去考量解决问题的思路,考察综合能力,如沟通,管理和应急处置等。

4.1 项目中遇到的技术问题
  1. 项目使用的架构和数据流解析
  2. 从0搭建的过程中的问题
  1. 硬件配置如何考量
  2. 软件如何选型
4.2 项目中遇到的沟通问题
  1. 项目技术落地推动问题
  2. 升级沟通
  3. 交付延期
  4. 和售前的gap
  5. 开发团队之间技术gap
4.3 项目中遇到的管理问题
  1. 人月不足
  2. 团队流动快
  3. 人员技术层次不一致
  4. 日常管理方法
4.4 业务能力考察
  1. 项目中解决的业务问题:沟通为主
4.5 自我提升
  1. 如何快速学习新技术
  2. 项目中完全没遇到过的问题的解决思路
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
SQL 消息中间件 分布式计算
大三、研二的秋招备战路线(Java、大数据)
大三、研二的秋招备战路线(Java、大数据)
|
新零售 Web App开发 监控
《企业大数据实践路线》之企业大数据的现状与痛点
大数据与云计算的关系就像一枚硬币的正反面一样密不可分,没有云计算就没有大数据。
1898 0
|
机器学习/深度学习 数据采集 消息中间件
典型技术架构的分析和构建——《企业大数据实践路线》之四
企业大数据时间——典型技术架构的分析和构建
3415 0
|
Web App开发 监控 大数据
解析业务数据的特征——《企业大数据实践路线》之三
阿里云MVP戚俊带你分析数据类型,进行大数据实战
2492 0
|
大数据 数据库
大数据在媒体行业的应用——《企业大数据实践路线》之二
阿里云MVP戚俊带你以媒体行业为例,深入分析大数据在媒体行业的应用
2678 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
50 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
15 2
|
17天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1