MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless

MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless | 学习笔记

2021-12-19 128

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless

开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021数仓必修课：MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/55/detail/1028

MaxCompute 持续定义SaaS模式云数据仓库— 云数据仓库+Severless

内容介绍：

MaxCompute 的 Severless 架构及特点
Serverless 的数据接入服务
Serverless 的多计算环境
Serverless 的存储服务
Serverless 的管理
按量+独占的混合售卖规格
大数据计算对计算资源的需求特点
借助固定资源池，在财务可预测的前提下，满足不同业务、不同组织需求
成本与业务敏捷性融合
容量规划：按量付费转预付费资源需求评估
最佳实践-总结

1.MaxCompute 的 Severless 架构及特点

二、Serverless 的数据接入服务

Tunnel 批量、流式导入，转换为MC列存格式、自动伸缩、免费
OSS 导入/导出命令：LOAD/UNLOAD、免费

三、Serverless 的多计算环境

Servlerss 计算资源池：大规模资源池，On-demand 按需提供，按作业付费
独占计算资源：支持包年包月付费、Workload 管理(负载隔离、优先级、分时伸缩、）
运行环境（runtime)支持ETL/OLAP/ML等大数据分析使用场景

四、Serverless 的存储服务

与计算无关，独立伸缩，GB->EB级
按实际存储大小付费
无需指定，默认面向分析优化（列存、压缩）
支持分区/分桶/Zorder等优化手段

五、Serverless 的管理

内建完整的管理能力，以api/sdk/web-console管理
平台侧无需用户运维

六、按量+独占的混合售卖规格

包年包月：订单计费模式为混合模式，计算资源是按包年包月进行预付费，存储和下载则为使用之后再按量计费

按量计费：整个订单计费模式都为使用之后再按量计费，包括计算、存储

七、大数据计算对计算资源的需求特点

业务敏捷性需求

长期处于成长期，处理能力能满足业务自然增长的需要，特别是业务快速变化的阶段
可以是企业的初期，也可以是创新部门的创业业务

周期性峰谷差异明显

每天、每月周期性的峰谷波动巨大，以峰值容量规划，成本和SLA难以平衡
常规算力+弹性算力，根据调度/人为指定作业资源策略

稳定的业务关注关键任务的按SLA产出

基线作业，与非关键作业的SLA需求不同，基线产出时间需要保障
非关键作业尽可能低成本处理，同时不影响关键作业

资源治理：算力需求由快速变化转变为稳定可预期

对 CU 的容量规划，相互转换及测算
固定资源的精细化的Workload管理

追求的目标：在满足现实中的差异化需求的前提下，最小化成本

八、借助固定资源池，在财务可预测的前提下，满足不同业务、不同组织需求

负载隔离，避免互相争夺，优先关键项目与组织
作业优先级：保障关键动态作业链路查出
分时伸缩：设置白天、夜间资源分配策略，最大利用化

九、成本与业务敏捷性融合

1.按量付费 Project :发起的作业使用 Serverless 资源-切换 Project 绑定的资源组

2.使用人员主动设定：根据需要临时指定

十、容量规划：按量付费转预付费资源需求评估

——基于 information schema 按天统计近期项目作业消耗的计算单元(算力单位：cu时）

select to_char(end_time,' yyyy-mm-dd')

stat_day,sum(cost_cpu)/100/3600 cu_hours

from information schema. tasks history

where ds > = '20200710' and task_ schema in( 'lightning')

——基于 information schema 按天统计近期项目作业消耗最高的一天,计算每个小时的算力需求（算力单位：cu时）

select to_char(end_time,' yyyy-mm-dd hh')

stathour,sum(cost_cpu)/100/3600 cu_hours

from information schema. tasks history

where ds=' 20200713' and task_schema in (' lightning')

group by to_char (end_ time,' yyyy- mm- dd hh '):

十一、最佳实践-总结

按量付费：业务快速发展及变化阶段，配合 cost control 管理
预付费：通过 quota 管理，切分多个计算资源，做负载隔离、分时管理、利用 dw+mc 基线作业优先级保障关键作业 SLA
预付费固定资源+弹性按量付费组合，作业级别选择不同计算资源：
突发使用按量付费补充突发算力需求
周期性资源尖峰需求，通过按量付费满足
容量规划：元数据、算力需求评估，资源消耗分析与优化

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

MaxCompute 持续定义 SaaS 模式云数据仓库— 云数据仓库+ Severless | 学习笔记

MaxCompute 持续定义SaaS模式云数据仓库— 云数据仓库+Severless

1.MaxCompute 的 Severless 架构及特点

二、Serverless 的数据接入服务

三、Serverless 的多计算环境

四、Serverless 的存储服务

五、Serverless 的管理

六、按量+独占的混合售卖规格

七、大数据计算对计算资源的需求特点

八、借助固定资源池，在财务可预测的前提下，满足不同业务、不同组织需求

九、成本与业务敏捷性融合

十、容量规划：按量付费转预付费资源需求评估

十一、最佳实践-总结

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景