持续定义SaaS模式云数据仓库+Serverless

本文涉及的产品
函数计算FC,每月15万CU 3个月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 本文将为您介绍现代云数据仓库的业务场景与资源使用需求,不同资源交付模式的差异化分析。并结合MaxCompute Serverless的特点及价值来讲解使用MaxCompute Serverless的最佳实践。

一、Serverless简介

下图是MaxCompute的Serverless架构,主要包括数据接入服务、多计算环境、储存服务和管理几个模块。
1.png

其中各个模块的主要特点如下:
(1)Serverless的数据接入服务
-提供Tunnel批量、流式导入,转换为MC列存格式、自动伸缩等功能,且免费;
-可以免费使用LOAD/UNLOAD命令进行OSS导入/导出。
(2)Serverless的多计算环境
-Severless计算资源池,大规模计算资源池,On-demand按需提供,按作业付费;
-独占计算资源:支持包年包月付费、Workload管理(负载隔离、优先级、分时伸缩等);
-运行环境(runtime)支持ETL/OLAP/ML等大数据分析使用场景。
(3)Serverless的存储服务
-与计算无关,独立伸缩,提供GB-EB级别的存储服务;
-按实际存储大小付费,降低成本;
-无需指定,默认面向分析优化(列压、压缩);
-支持区分/分桶/Zorder等优化手段。
(4)Serverless的管理
-开箱即用,内建了完整的管理能力,以API/sdk/web-console管理;
-平台侧无需用户运维,降低成本。
上面是对Serverless架构的一个简述,本文的重点是如何利用MaxCompute的Serverless计算资源来满足数据仓库的需求。

下图所示的是MaxCompute计算资源与管理与使用的逻辑模型。对于MaxCompute中的Project,实际上对应的是一个逻辑的数据仓库的隔离单元,我们可以根据不同的管理目标创建不同的Project,比如我们可以分别创建面向测试的Project和面向开发的Project,两个项目之间有独立的数据和权限管理体系,并不互通,达到管理的隔离作用。当然,只有这样的隔离空间还不足够,因为我们的计算任务需要绑定计算资源,我们可以将Project与付费方式绑定,根据需求,对不同的Project设置不同的计费方式,使得不同的隔离空间使用不同的计算资源。

1.png

在上述的体系之下,MaxCompute有着一些独特的特点,首先就是有一个多租户环境,我们在开通了MaxCompute可以根据不同的管理需求创建多个隔离的数据仓库空间,对于企业来说,可以购买多组逻辑上的计算资源,这种多计算资源、多隔离环境,可以更好地满足不同的场景需要。
如下图所示,理想中的Serverless资源模型要求我们很好的规划资源的利用方式才能够完美的适配我们的实际需求(图中黑线)。

1.png

但是,实际上我们的客户有不同的资源需求,有着众多的差异化需求场景,其场景主要有:
-稳定的周期性作业场景;
-业务高度增长、需求快速变化的场景;
-常规需求伴随着突发需求的场景;
-测试/开发需求的场景。
从各种场景中我们可以发现,大数据计算对计算资源的需求方式并不是一个完完全全的纯Serverless的按需分配的需求,而是不同的阶段有不同的需求,且不同类型的需求有不同的要求,其对计算资源的需求特点主要包括如下:
(1)业务敏捷性需求
-长期处于成长期,处理能力能满足业务自然增长的需要,特别是业务快速变化的阶段;
-可以是企业的初期,也可以是创新部门的创业业务;
(2)周期性峰谷差异明显
-每天、每月周期性的峰谷波动巨大,以峰值容量规划,成本和SLA难以平衡;
-需要常规算力+弹性算力,根据调度/人为指定作业资源策略;
(3)稳定的业务,关注关键任务的按SLA产出
-基线作业,与非关键作业的SLA需求不同,基线产出时间需要保障;
-非关键作业尽可能低成本处理,同时不影响关键作业;
(3)资源治理:算例需求由快速变化转变为稳定可预期
-对CU的容量规划,相互转换以及测算;
-固定资源的精细化的Workload管理。
总得来说,现实中我们的算力需求最求的目标就是在满足现实中的差异化需求的前提下,还能够达到成本最小化的目标。

二、Serverless助力业务敏捷

那么,MaxCompute的Serverless如何满足上述的场景和需求呢?如果是一个业务快速发展、快速变化的企业,我们建议使用MaxCompute的Serverless按需使用的计算资源。从管理上来讲的话,我们可以建立不同的Project去做一些隔离的划分,比如说建立一套开发测试环境,一套生产环境。对于有些分析师来讲,他们往往随机地需要对一些明细数据做大量的探索,或做机器学习分析,往往有一些突发的算力需求,且这个算力需求的规模可能非常大,这个时候往往这些作业要和其他的环境隔离,因为他们是低频的,但是却需要对海量数据做分析。
我们还可以按照组织划分,比如很多企业的组织比较大,可以按照部门来进行划分,使得每个部门有一个隔离的环境,各个部门作为一个独立的组织,他们需要相对独立的数据和计算资源,我们可以使用Serverless按需分配的这种模式。有了这种模式之后,企业无需进行容量规划,在初期的时候可以使用按量付费的方式,通过这种超大的资源池来满足各个部门的资源需求,避免资源的争抢。
总的来说,利用Serverless在各种作业情况下Serverless都能够很好的满足需求:在单作业的情况下,无论是规模大小,Serverless都可以很好的满足不同规模的作业资源需求;在多并发的情况下,Serverless也能够满足多作业需求,避免出现资源的争抢情况出现;在某些我们希望能够控制作业费用的情况下,MaxCompute也可以提供费用预估+费用控制的方式来阻断高额作业。通过上述的方式,MaxCompute+Serverless可以大大提升业务敏捷性,加速价值实现。
1.png

另外,有一些企业结合自身日常的管理环境,更希望有一个相对稳定的资源池,因为其本身有一定的资源规划和资源治理的能力,这种情况下,我们购买一定固定规格大小的资源,然后按照职能或者按照组织划分隔离环境,利用MaxCompute提供的配额组管理能力将资源切分成多个资源组,在财务可预测的前提下,满足不同业务、不同组织的需求。这种模式的关键技术特点有:
-负载隔离,避免相互争抢,资源优先分配给关键项目和组织;
-作业优先级:保障关键动态作业链路查出;
-分时伸缩:设置白天、夜间资源分配策略,最大化利用资源。
1.png

第三种场景是关于成本与业务敏捷性的融合。举个例子,数据平台的管理者可能经常面临多种作业:一类是日常作业,通常把这里作业放在一个固定大小的资源中,成本可控、可预期;另外一类是一些关键作业,我们愿意花费一定的代价把它加速完成去满足业务需求,对于这类作业我们希望能够拿到一些额外的算力;还有一类作业是面向数据科学家的探索型作业,我们希望这类作业对我们的生产作业不要产生干扰,同时数据科学家又能利用强大的算力快速地完成业务假设和设想,我们可以将这类作业放在按需的资源池中;在复杂的企业中可能还会有创新类的业务,他们需要一个新的数据开发环境和应用创新的环境,我们可以新建一个数据仓库的隔离环境,按需分配资源,帮助他们快速的去验证业务假设。
产品侧我们主要提供了两种能力给用户:
-按量付费Project:发起的作业使用Serverless资源,可以切换Project绑定的资源组;
-使用人员主动设定:根据需要临时指定计算资源,作业级别的资源路由。

1.png

上面的三种场景都是在日常运营中的真实场景,还有一个场景就是客户在使用了按量付费一段时间之后,业务稳定下来了,希望将项目放在固定的、预付费的资源池上。这时候就会遇到一个问题:如何进行资源的需求评估呢?毕竟之前按量付费的时候是不需要进行资源需求预估的。MaxCompute提供了容量规划来解决这个问题,其原理是利用MaxCompute提供的元数据服务(information schema)根据历史的算力消耗情况来预估项目的整体算力需求,其关键信息有:
-基于information schema按天统计近期项目作业消耗的计算单元时(算力单位:cu时);
-基于information schema按天统计近期项目作业消耗最高的一天,计算每个小时的算力需求(算力单位:cu时)。
根据上面的信息我们就可以根据一定的规则来预测业务的算力需求,进行容量规划,关于这部分的详细内容大家可以到阿里云社区查找相应的文章进行了解。

三、总结

上文主要分享了如何利用Serverless服务来更好的进行资源管理,低成本地满足不同业务的资源需求。总得来说:
(1)按量付费的模式适合业务快速发展及变化阶段,配合MaxCompute的cost control管理手段,既能满足业务的算力需求,又能有效的控制成本。
(2)对于预付费的资源,我们可以通过quota管理,切分多个计算资源,做相应的负载隔离、分时管理,利用dw+mc基线作业优先级保障关键作业SLA。
(3)对于预付费固定资源和弹性按量付费组合的方式,我们可以根据作业级别选择不同的计算资源:对于突发作业,使用按量付费补充突发算力需求;对于周期性作业中的尖峰需求,也通过按量付费满足,从而达到资源的有效利用,且降低成本。
(4)我们可以利用元数据来进行算力需求评估,进行容量规划,从而在按量付费和预付费方式之间进行转换,还可以利用元数据来进行资源消耗分析,进行资源的优化,降低资源高消耗的作业,做相应的资源治理。

更多关于大数据计算产品技术交流,可扫码加入 “MaxCompute开发者社区” 钉钉群
image.png

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
目录
相关文章
|
8月前
|
Web App开发 编解码 Java
B/S基层卫生健康云HIS医院管理系统源码 SaaS模式 、Springboot框架
基层卫生健康云HIS系统采用云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医疗机构的主要工作流程,能够与监管系统有序对接,并能满足未来系统扩展的需要。
244 5
|
3月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
5月前
|
关系型数据库 Serverless 分布式数据库
揭秘PolarDB Serverless:大促洪峰秒级应对,无感伸缩见证科技魔法!一探云数据库管理的颠覆性革新,强一致性的守护神来了!
【8月更文挑战第13天】在云计算背景下,阿里巴巴的云原生数据库PolarDB Serverless针对弹性伸缩与高性能一致性提供了出色解决方案。本文通过一个电商平台大促活动的真实案例全面测评PolarDB Serverless的表现。面对激增流量,PolarDB Serverless能秒级自动扩展资源,如通过调用`pd_add_reader`快速增加读节点分摊压力;其无感伸缩确保服务平滑运行,不因扩展中断;强一致性模型则保障了数据准确性,即便在高并发写操作下也确保库存等数据的同步一致性。PolarDB Serverless简化了数据库管理,提升了系统效能,是追求高效云数据库管理企业的理想选择。
115 7
|
5月前
|
关系型数据库 MySQL Serverless
在部署云数据库PolarDB MySQL版 Serverless集群的过程中问题点
在部署PolarDB MySQL Serverless过程中,常见问题包括配置误解、网络配置错误、资源未及时释放及压测不熟练。建议深入理解配置项,确保合理设置伸缩策略;明确业务需求,使PolarDB与现有服务同处一地域与VPC;利用提醒功能管理资源生命周期;按官方指南执行压测。新用户面临的学习曲线、资源管理自动化不足及成本控制难题,可通过增强文档友好性、引入智能成本管理与用户界面优化来改善。
76 1
|
6月前
|
Oracle 安全 关系型数据库
ERP系统的云计算与SaaS模式:实现高效灵活的企业管理
【7月更文挑战第29天】 ERP系统的云计算与SaaS模式:实现高效灵活的企业管理
335 4
|
8月前
|
消息中间件 缓存 Java
【Java】全套云HIS(医院信息管理系统)可对接医保 采用云端SaaS模式部署
总体框架: SaaS应用,全浏览器访问 前后端分离,多服务协同 服务可拆分,功能易扩展
193 1
【Java】全套云HIS(医院信息管理系统)可对接医保 采用云端SaaS模式部署
|
8月前
|
传感器 人工智能 前端开发
JAVA语言VUE2+Spring boot+MySQL开发的智慧校园系统源码(电子班牌可人脸识别)Saas 模式
智慧校园电子班牌,坐落于班级的门口,适合于各类型学校的场景应用,班级学校日常内容更新可由班级自行管理,也可由学校统一管理。让我们一起看看,电子班牌有哪些功能呢?
572 4
JAVA语言VUE2+Spring boot+MySQL开发的智慧校园系统源码(电子班牌可人脸识别)Saas 模式
|
8月前
|
存储 运维 JavaScript
SaaS云HIS平台源码 采用云部署模式,部署一套可支持多家医院共同使用
通过基于SaaS模式的医院管理系统,院内的医护人员、患者可快速建立互联协同。不仅如此,通过SaaS模式提供的解决方案,医院机构可实现远程医疗,从而为不同地区的患者带来优质医疗资源,促进医疗公平。
154 5
|
8月前
|
人工智能 监控 数据可视化
Java智慧工地云平台源码带APP SaaS模式 支持私有化部署和云部署
智慧工地是指应用智能技术和互联网手段对施工现场进行管理和监控的一种工地管理模式。它利用传感器、监控摄像头、人工智能、大数据等技术,实现对施工现场的实时监测、数据分析和智能决策,以提高工地的安全性、效率和质量(技术架构:微服务+Java+Spring Cloud +UniApp +MySql)。
150 4
|
8月前
|
运维 供应链 安全
SaaS模式云HIS数字化医院信息系统源码
云HIS具有可扩展、易共享、易协同、低成本、体验号、更便捷、易维护的优势,重新定义了数字化医院信息系统,实现数字化医院信息系统的转型升级。云 HIS 系统具有功能完善,涵盖临床各业务部门,采集、抽提、汇总、存贮、展现所有的临床诊疗资料(包括:数据、文本、图形、图像、声音等),是医疗机构实现临床信息化的理想信息平台。
121 1

相关产品

  • 函数计算