课程资料
课程链接:https://live.juejin.cn/4354/yc_Datacenter
课程PPT:https://bytedance.feishu.cn/file/boxcnUuosAaotJt4NbKSIsLtoS3
学员手册:https://juejin.cn/post/7130131931722678308#heading-104
完整手册:https://bytedance.feishu.cn/docx/doxcnECGEFkCKYqbxaDipK1qrVf
一、企业数据架构
- 企业整体数据架构:基础引擎、数据集成/生产/服务、开发和治理工具
关键模块及数据流向
数据集成
- 业务数据收集:数据库变更数据收集(CDC)、业务日志收集(业务数据->数据处理系统)
- 大数据系统内传输:基于Flink丰富的connector体系 (数据系统内)
- 数据生产:实时和离线生产pipeline (数据系统内)
- 数据服务:统一数据服务架构(数据系统->业务系统)
二、数据中心案例
- 以房产业务举例说明数据中心建设目标和要求
- 房产业务介绍:房产服务平台、经纪人、客户
- 数据中心核心指标分析:供需、过程、结果
- 数据中心查询要求:查询条件、数据结果、技术要求
三、实时数据生产
- 案例生产方案分析:数据探查、明确指标口径和产出粒度、生产架构、计算难点
- 数据探查:分析数据信息是否齐全,即基于原始数据计算指标可行性
- 数据架构:lambda架构和全量计算架构比对,确定合适的生产架构方案
计算难点解决
- 全量数据获取:hybrid source
精确计算
- 去重&更新处理:基于retract机制
- 乱序问题解决:流join乱序问题方案
计算效率
- MiniBatch-聚合计算
- MiniBatch-join
数据质量
- 任务稳定性:消费LAG、JVM、资源、算子
- 数据正确性:和离线比对、趋势比对、异常值占比
实时数仓
- 数据分层:数据复用,减少重复开发
- 数据管理:格式、元数据
四、数据服务
- 整体架构:查询引擎、查询优化和执行、稳定性、元数据
案例查询方案分析
如何更快的查询
- 原始信息筛选和关联效率
- 计算处理效率
- 只关注目标所需数据
关注目标信息
- 列存
原始信息筛选效率
- OLAP引擎索引方案
原始信息关联
- join方案及优化
计算效率
- 向量化
- 执行计划优化:RBO、CBO
应用层优化
- 宽表构建
- 提升信息密度:bit化、bitmap
查询稳定性
- 熔断、限流、降级
- 元数据管理:指标口径管理、查询生成