开发者学堂课程【 SaaS 模式云数据仓库系列课程 —— 2021数仓必修课MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+实时分析:】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1031
MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+实时分析
内容介绍:
一、云数据仓库概述:
二、实时分析场景与价值
三、 MaxCompute 云数仓+实时分析
四、实时分析案例
一、云数据仓库概述
(一.1)数据仓库
1.什么是数仓:
数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。
2.数据仓库的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的,规范的数据出口。
3.观点:数据仓库(模型)本质是人收集和存储数据,认识数据,组织和管理数据,使用数据决策的最佳实践形成的方法论;模型本身与在哪、用什么技术无关,但逻辑模型和物理模型在最终方案中又是紧密结合的。
(一.2)云数据仓库
1.数据仓库的核心能力和价值:采集同步、加工、存储、建模、治理、查询
2.为实现数据仓库的能力和价值必须要具备的基础:IDC机房、部署、开通、高可用、安全、日常运维、扩容
3.总成本=核心能力成本+基础成本=产品成本+服务成本=当前成本+长期成本+演进成本
4.SaaS 模式云数据仓库:
1.开箱即用
2.丰富完善的数仓能力
3.大规模高性能
4.高可用,容灾备份
5.免运维、专家优化
6.极致安全
7.低成本
8.灵活扩展
9.能力快速演进
10.数据服务。
(一.3)云数据仓库支持多场景数仓应用
MaxCompute:SaaS 模式企业级云数据仓库
1.应用场景:
① 实时数据入仓和分析决策
② 业务运营场景-交互式业务指标计算、查询
③ 各行业搭建数据仓库-流批一体、湖仓一体
④ 云上弹性扩展大数据计算和存储
2.产品优势:
①云原生极致弹性:云原生设计,无服务器架构,支持秒级弹性伸缩,快速实现大规模弹性负载需求
②简单易用多功能计算:预置多种计算模型和数据通道能力,开通即用
③企业级平台服务:支持开放生态,提供企业级安全管理能力。与阿里云众多大数据服务无缝集成
④安全:多租户环境下安全控制能力强
⑤大规模集群性能强、全链路稳定性高,阿里巴巴双11场景验证
3.推荐组合:
实时分析场景
-MaxCompute+MC-Hologres+Flink+DataWorks+Quick
机器学习场景-MaxCompute+PAI+DataWorks
(一.4)云数据仓库面向用户的功能和数据流程
二、实时分析场景与价值
(二.1)重提大数据 5V
·越接近数据源,越早进行分析和决策,越能发挥数据价值
1.容量(Volume)
是指大规模的数据量,并且数据量呈持续增长趋势。目前一般指超过10T规模的数据量,但未来随着技术的进步,符合大数据标准的数据集大小也会变化
2.速率(Velocity)
即数据生成、流动速率快。数据流动速率指对数据采集、存储以及分析具有价值信息的速度。因此也意味着数据的采集和分析等过程必须迅速及时
3.多样性(Variety)
指是大数据包括多种不同格式和不同类型的数据。数据来源包括人与系统交互时与机器自动生成,来源的多样性导致数据类型的多样性。根据数据是否具有一定的模式结构和关系,数据可分为三种基本类型:结构化数据、非结构化数据、半结构化数据
4真实性(Veracity)
指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比
5.价值(Value)
即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长,而价值同时与数据的真实性和数据处理时间相关。
(二.2)实时分析的两种演化构建方式
类比1:大酒店同时具备其他综合业务,发展出餐饮(实时)业务,用以更好的发挥协同作用
演化1:以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成 Lambda 架构
类比2:饭店从餐饮(实时)业务发展而来,需要更好的外围支持作用,并向综合性发展
演化2:以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成 kappa 架构,后续还要考虑实时数据和模型如何入仓。
(二.3)实时分析的两种场景
1.以数仓分析为主场景,根据业务实时性需求进行实时分析,构建实时通道和实时交互式分析,形成 Lambda 架构。
例如 IOT 设备监控分析,下发策略,设备接收后上报新数据立即进行分析,对比之前的结果,反复分析调优。
2.以实时分析为主场景,形成流式架构,又需要能从数仓快速提取数据,和数据源回放,形成 kappa 架构,后续还要考虑实时数据和模型如何入仓例如欺诈监控,必须第一时间获取分析结论,并关联标签精准识别,最后实时数据落入数仓与其他数据融合形成知识。
(二.4)数仓实时分析的能力要求
数仓实时分析的能力要求:
1.极速查询相应
2.实时存储
3.数仓查询加速
4.应用生态
5.实时离线联合计算和建模
三、MaxCompute 云数仓+实时分析
(三.1)常见的 Lambda 架构的问题
1.一致性难题
①:2套语义、2套逻辑、2份数据:
两套代码,两套逻辑;流和批语义完全不同;离线层和实时层数据存储和变换方式完全不同。
②:环环相扣、多套系统、运维复杂、成本高昂:
多个不同的系统;大量的同步任务;资源消耗巨大;不同系统标准规范不统一
③:开发周期长、业务不敏捷:
错误难以诊断和定位;修订、补数周期长;无法自助实时分析;无法响应变化;分析到服务的转化周期长。
(三.2)开源方案的能力发散
场景案例:搜索推荐精细化运营
① KVStore:Redis/Mysql/Hbase/Cassandra 存储点查能力
② MPP: Impala/Presto/Drill 计算+查询能力
③ 实时数仓:Clickhouse/Druid 存储+计算+查询能力
④ 数仓:Hive/Spark/MaxCompute 存储+批处理
(多种能力统一于一个引擎。
(三.3)实时分析简单架构:实时写入和实时查询
1.实时离线数据统一存储
2.以实时分析为中心设计
3.MaxCompute 直接加速
(三.4)数仓加速分析:无数据搬迁、数据分析效率高
(三.5)开源方案实时数仓:实时成本高、开发周期长、业务支持不灵活
1.kappa 架构,基于流式架构,需要回放和关联数仓,后续还要考虑实时数据和模型如何入仓。
2.Kappa 架构的原理就是在Lambda的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次。
3.Kappa 架构看起来简洁,但实施难度相对较高,尤其是对于数据回放部分。
(三.6)实时、离线、分析、服务一体化方案
四、实时分析案例
(四-1)常用场景:实时、离线、分析、服务一体化方案
1.方案说明:适用于电商、游戏、社交等互联网行业数据化运营,如智能推荐、日志采集分析、用户画像、数据治理、业务大屏、搜索等场景
2.方案优势:阿里巴巴最佳实践的大数据平台,1)技术领先性;2)降本提效;3)高附加值业务收益;
3.涉及产品:日志服务 SLS、数据传输 DTS、DataHub、实时计算 Flink、交互式分析、云数仓 MaxCompute、数据治理 DataWorks、Quick BI 报表、DataV大屏、ES 搜索、机器学习 PAI
(四-2)PB 级用户行为交互式分析案例
——友盟+是国内最大的移动应用统计服务商,其统计分析产品 U-App&U-Mini&U-Web 为开发者提供基本报表统计及自定义用户行为分析服务
1.业务痛点:
1.业务数据量大,年新增行为数据 10PB 级
2.个性化、自定义地交互式用户行为分析强需求.
3.基于 MaxCompute 提供异步离线的 adhoc分析.
4.和优化、以及自研引擎开发尝试均无法满足业务需求
2.客户收益:
1.PB 级数据秒级查询响应,30s 交互式体验
2.与 MaxCompute 深度集成,能够利用 range cluster 索引加速,实时离线联邦查询,同时也可以实现冷热数据混合查询,有利于成本性能平衡
3.计算资源弹性伸缩,可兼顾扩展性、稳定性、性能、成本
(四-3)互联网内容资讯客户实时推荐案例
——小影是一款原创视频、全能剪辑的短视频社区APP,面向大众提供短视频创作工具,包括视频剪辑、教程玩法、视频拍摄,谷歌应用商城收入榜前五,全球累计用户突破 8.9 亿
>SaaS 模式云数据仓库:
一套存储引擎、三种计算力量
MaxCompute(离线计算)+Realtime Compute(实时计算)+MC-Hologres(交互式分析)
1.用户标签数据开发:
客户通过 MaxCompute 针对每天 APP 产生的客户基础属性数据、行为日志数据、内容数据等进行计算,每天离线更新用户标签的数据,支持营销业务的使用。
2.用户画像实时洞察:
客户基于 MC 离线计算好的用户标签,通过 MC-Hologres 进行多标签、多维度的实时分析,了解用户属性标签与内容标签之间的关联性,洞察交叉销售机会,并通过人群圈选,进行 APP 消息 PUSH。
3.实时视频推荐:
客户通过 Flink+MaxCompute+MC-Hologres+PAI 搭建个性化实时推荐系统,基于用户特征和实时行为特征,实时推荐个性化的短视频内容。