Serverless数据仓库探索,助力企业敏捷数据分析

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
函数计算FC,每月15万CU 3个月
简介: 本文介绍了如何通过通过Serverless的OLAP产品,帮助企业升级至更加敏捷的分析平台架构,大幅简化架构复杂度并提高分析效率。

敏捷云原生数据仓库架构

传统的云数据仓库需要用户购买一个预置的数据资源进行7*24的长时间运行;这种方式对于当下崇尚敏捷创业者来说使用负担较大,对于探索类或成长型业务缺少灵活的使用模式以满足低成本数据分析诉求;


随着这个问题被越来越多的企业关注,Serverless的使用方式开始逐渐被各大厂商提及,Big Query, Snowflake,Redshift等都进行了类似的布局,而国内的数仓产品还处于探索阶段,对于基于计算资源以满足仓内分析的安量付费模式还没有被创业者所看见;


阿里云AnalyticDB PostgreSQL在2022底发布了其Serverless数据仓库引擎,它能帮助企业构建更加现代的数据策略; 在开通后仅需完成数据载入后即可立即开始分析,Serverless版本仅在分析执行时对使用中的计算资源计费,计算空闲时则免费,这可以大幅降低企业数据使用负担;该版本对于当下考虑构建全系企业的数据架构或想在不破坏当前架构下,探索创新业务时,均可提供高效且轻量的数据架构服务; 可在几分钟~小时内,帮助企业进行低成本探索;


用户可以开通一个Serverless的自动调度实例, 创建时进行分析计算资源(ACU Analytic Compute Unit)阈值设定,该阈值对该实例在计算触发时的计算资源上限进行限制,当计算发生时,系统会快速响应对应的资源来以满足用户的计算需求; 用户可以在控制台实时查看当前的计算资源(ACU)的实时使用情况。限制瞬时的资源使用上限,这可以更好的保障资源的财务可控; 当然这个可以根据不同的时刻对于资源的需求不同进行手动调整;


Serverless的三种推荐场景

1. 搭建敏捷分析平台,灵活支持数据湖分析,联邦分析;

海量数据存储在数据湖中,如OSS, ODPS等环境; 持续的分析并不是一个常态,对于业务需求我们将需要面向数据湖进行小额数据采样的分析;这个时候,无需繁重的IT规划,用户可以依托ADB PG的Serverless可以快速拉起起一个轻量级的数据分析框架并支持业务并完成一个最具性价比的分析服务;







网络异常,图片无法展示
|


1.

ADB PostgreSQL的数据湖分析

a.

面向ODPS的数据分析: https://help.aliyun.com/document_detail/172968.html

b.

面向OSS的数据分析: https://help.aliyun.com/document_detail/445437.html

c.

面向Hadoop的数据分析: https://help.aliyun.com/document_detail/181346.html

2.

ADB PostgreSQL的数据库联邦分析

a.

面向主流数据库的联邦分析: https://help.aliyun.com/document_detail/183722.html


2. 构建读写分立架构

稳定的数据业务更适合使用包年包月的购买模式,因为业务可以精确预期并相对稳定,通过包年包月的购买模式可以获得较大的折扣从而实现最优的财务选择;但是对于分析业务,它更多是以短期的业务目标作为驱动,是探索性的数据使用,具备高度紧急,不确定性强,时效性要求高等特征;业务侧需求和技术架构团队的稳定性存在局部矛盾,这时,最佳的分析路径是通过快速构建物理隔离的灵活分析架构;




网络异常,图片无法展示
|




当分析介入后,可以快速通过数据共享能力对现有实例进行数据联通,同时可以实现灵活的数据分析能力;同时如果分析需求过多,可以也可以开放多个资源实例来帮助用户满足分析能力的资源;


3.

高性价比数据归档

生产库产生的低频分析的数据一定要放到数据湖里? Serverless提供了一个新的方案;可以通过DMS自带的数据归档能力,将生产库中无用或者低频分析用的数据进行归档,并廉价存储;这个方案有几个好处;

1.

可以白屏化的批量构建数据归档及设置白屏化

2.

仅在归档的过程中进行资源启动,当数据归档后则仅需要付低价的存储用以保留;

3.

归档的数据可以随时启动分析,仅对分析的时间进行资源收费;

具体操作可以参考: https://developer.aliyun.com/article/1044443?




网络异常,图片无法展示
|




创建Serverless实例

接下来我们可以快速创建一个Demo来让大家更好的了解Serverless自动版的使用方式;


首先免费创建Serverless自动调度版本的实例,用户可以在按量付费下,选择Serverless,并在模式中选择自动调度版本进行创建;目前Serverless自动调度版本正在免费测试中,计算资源免费,存储价格为0.0008元/GB/小时(以北京地区为例);



网络异常,图片无法展示
|



创建后,来到实例控制台,在这里可以管理刚刚创建的实例;



网络异常,图片无法展示
|



可以看到实例在创建后,没有SQL计算的使用情况下,实例会处于一个空闲的状态,在这个状态下的计算是不会进行任何计费的;


接下来我们来用提前加载好的样本数据进行测试用例的使用;

1.

首先创建数据库主账号

2.

加载样本数据数据集,可在控制台选择加载样本数据集,并查看配套的样本SQL;



网络异常,图片无法展示
|



3.

登录数据库后,在对应的实例分析界面上可以执行样本SQL;



网络异常,图片无法展示
|


4.

对于实例资源的使用情况,可以回到实例详情页并在监控中进行查看;



网络异常,图片无法展示
|



5.

若发现算力不匹配或希望更快的资源释放时间,用户可以手动进行实例资源的阈值和冷却时间调整; 通过调整,可以改变在计算时需要介入的瞬时计算资源以及在SQL计算结束后,进入空闲状态的等待市场; 目前最少为60秒;



网络异常,图片无法展示
|



结语

对于serverless,我们看到了行业的头部厂商均已入局,更精细的按需使用和财务管理开始在国际的头部厂商中获得了越来越多的实践。将复杂留给厂商,将简单留给客户依然是云厂商始终坚持的原则;Serverless在海外也成为了更加灵活,易用的代名词;  

ADB PostgreSQL作为分析型数据仓库,是国内该领域的探索者; 目前ADB PG产品是首个获得了信通院的Serverless分析型数据库,“增强级”的评级,产品开放了公测版本试用,欢迎各位尝试并提供宝贵意见,一起为企业提供更易用,更灵活,更高性价比的云数据仓库服务。

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
数据挖掘
82 网站点击流数据分析案例(数据仓库设计)
82 网站点击流数据分析案例(数据仓库设计)
93 0
|
SQL 分布式计算 搜索推荐
Hive数据仓库数据分析
Hive数据仓库数据分析
215 0
|
3月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
76 3
|
6月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
134 2
|
6月前
|
SQL Cloud Native 数据挖掘
云原生数据仓库产品使用合集之在使用 ADB 进行数据分析处理时,出现分区倾斜的情况,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
存储 数据可视化 数据挖掘
【python】python企业财务能力数据分析可视化(源码+报告+数据集)【独一无二】
【python】python企业财务能力数据分析可视化(源码+报告+数据集)【独一无二】
147 1
|
4月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19196 12
|
6月前
|
消息中间件 编解码 运维
阿里云 Serverless 异步任务处理系统在数据分析领域的应用
本文主要介绍异步任务处理系统中的数据分析,函数计算异步任务最佳实践-Kafka ETL,函数计算异步任务最佳实践-音视频处理等。
175673 349
|
4月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
分布式计算 数据可视化 大数据
基于Spark的企业订单数据分析
基于Spark的企业订单数据分析

热门文章

最新文章

相关产品

  • 函数计算