开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课:MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/55/detail/1028
MaxCompute 持续定义SaaS模式云数据仓库— 云数据仓库+Severless
内容介绍:
- MaxCompute 的 Severless 架构及特点
- Serverless 的数据接入服务
- Serverless 的多计算环境
- Serverless 的存储服务
- Serverless 的管理
- 按量+独占的混合售卖规格
- 大数据计算对计算资源的需求特点
- 借助固定资源池,在财务可预测的前提下,满 足不同业务、不同组织需求
- 成本与业务敏捷性融合
- 容量规划:按量付费转预付费资源需求评估
- 最佳实践-总结
1.MaxCompute 的 Severless 架构及特点
二、Serverless 的数据接入服务
- Tunnel 批量、流式导入,转换为MC列存格式、自动伸缩、免费
- OSS 导入/导出命令:LOAD/UNLOAD、免费
三、Serverless 的多计算环境
- Servlerss 计算资源池:大规模资源池,On-demand 按需提供,按作业付费
- 独占计算资源:支持包年包月付费、Workload 管理(负载隔离、优先级、分时伸缩、)
- 运行环境(runtime)支持ETL/OLAP/ML等大数据分析使用场景
四、Serverless 的存储服务
- 与计算无关,独立伸缩,GB->EB级
- 按实际存储大小付费
- 无需指定,默认面向分析优化(列存、压缩)
- 支持分区/分桶/Zorder等优化手段
五、Serverless 的管理
- 内建完整的管理能力,以api/sdk/web-console管理
- 平台侧无需用户运维
六、按量+独占的混合售卖规格
包年包月:订单计费模式为混合模式,计算资源是按包年包月进行预付费,存储 和下载则为使用之后再按量计费
按量计费:整个订单计费模式都为使用之后再按量计费,包括计算、存储
七、大数据计算对计算资源的需求特点
- 业务敏捷性需求
- 长期处于成长期,处理能力能满足业务自然增长的需要,特别是业务快速变化的阶段
- 可以是企业的初期,也可以是创新部门的创业业务
- 周期性峰谷差异明显
- 每天、每月周期性的峰谷波动巨大,以峰值容量规划,成本和SLA难以平衡
- 常规算力+弹性算力,根据调度/人为指定作业资源策略
- 稳定的业务关注关键任务的按SLA产出
- 基线作业,与非关键作业的SLA需求不同,基线产出时间需要保障
- 非关键作业尽可能低成本处理,同时不影响关键作业
- 资源治理:算力需求由快速变化转变为稳定可预期
- 对 CU 的容量规划,相互转换及测算
- 固定资源的精细化的Workload管理
追求的目标:在满足现实中的差异化需求的前提下,最小化成本
八、借助固定资源池,在财务可预测的前提下,满足不同业务、不同组织需求
- 负载隔离,避免互相争夺,优先关键项目与组织
- 作业优先级:保障关键动态作业链路查出
- 分时伸缩:设置白天、夜间资源分配策略,最大利用化
九、成本与业务敏捷性融合
1.按量付费 Project :发起的作业使用 Serverless 资源-切换 Project 绑定的资源组
2.使用人员主动设定:根据需要临时指定
十、容量规划:按量付费转预付费资源需求评估
——基于 information schema 按天统计近期项目作业消耗的计算单元(算力单位:cu时)
select to_char(end_time,' yyyy-mm-dd')
stat_day,sum(cost_cpu)/100/3600 cu_hours
from information schema. tasks history
where ds > = '20200710' and task_ schema in( 'lightning')
——基于 information schema 按天统计近期项目作业消耗最高的一天,计算每个小时的算力需求(算力单位:cu时)
select to_char(end_time,' yyyy-mm-dd hh')
stathour,sum(cost_cpu)/100/3600 cu_hours
from information schema. tasks history
where ds=' 20200713' and task_schema in (' lightning')
group by to_char (end_ time,' yyyy- mm- dd hh '):
十一、最佳实践-总结
- 按量付费:业务快速发展及变化阶段,配合 cost control 管理
- 预付费:通过 quota 管理,切分多个计算资源,做负载隔离、分时管理、利用 dw+mc 基线作业优先级保障关键作业 SLA
- 预付费固定资源+弹性按量付费组合,作业级别选择不同计算资源:
- 突发使用按量付费补充突发算力需求
- 周期性资源尖峰需求,通过按量付费满足
- 容量规划:元数据、算力需求评估,资源消耗分析与优化