Serverless数据仓库探索,助力企业敏捷数据分析

简介: 本文介绍了如何通过通过Serverless的OLAP产品,帮助企业升级至更加敏捷的分析平台架构,大幅简化架构复杂度并提高分析效率。

敏捷云原生数据仓库架构

传统的云数据仓库需要用户购买一个预置的数据资源进行7*24的长时间运行;这种方式对于当下崇尚敏捷创业者来说使用负担较大,对于探索类或成长型业务缺少灵活的使用模式以满足低成本数据分析诉求;


随着这个问题被越来越多的企业关注,Serverless的使用方式开始逐渐被各大厂商提及,Big Query, Snowflake,Redshift等都进行了类似的布局,而国内的数仓产品还处于探索阶段,对于基于计算资源以满足仓内分析的安量付费模式还没有被创业者所看见;


阿里云AnalyticDB PostgreSQL在2022底发布了其Serverless数据仓库引擎,它能帮助企业构建更加现代的数据策略; 在开通后仅需完成数据载入后即可立即开始分析,Serverless版本仅在分析执行时对使用中的计算资源计费,计算空闲时则免费,这可以大幅降低企业数据使用负担;该版本对于当下考虑构建全系企业的数据架构或想在不破坏当前架构下,探索创新业务时,均可提供高效且轻量的数据架构服务; 可在几分钟~小时内,帮助企业进行低成本探索;


用户可以开通一个Serverless的自动调度实例, 创建时进行分析计算资源(ACU Analytic Compute Unit)阈值设定,该阈值对该实例在计算触发时的计算资源上限进行限制,当计算发生时,系统会快速响应对应的资源来以满足用户的计算需求; 用户可以在控制台实时查看当前的计算资源(ACU)的实时使用情况。限制瞬时的资源使用上限,这可以更好的保障资源的财务可控; 当然这个可以根据不同的时刻对于资源的需求不同进行手动调整;


Serverless的三种推荐场景

1. 搭建敏捷分析平台,灵活支持数据湖分析,联邦分析;

海量数据存储在数据湖中,如OSS, ODPS等环境; 持续的分析并不是一个常态,对于业务需求我们将需要面向数据湖进行小额数据采样的分析;这个时候,无需繁重的IT规划,用户可以依托ADB PG的Serverless可以快速拉起起一个轻量级的数据分析框架并支持业务并完成一个最具性价比的分析服务;







网络异常,图片无法展示
|


1.

ADB PostgreSQL的数据湖分析

a.

面向ODPS的数据分析: https://help.aliyun.com/document_detail/172968.html

b.

面向OSS的数据分析: https://help.aliyun.com/document_detail/445437.html

c.

面向Hadoop的数据分析: https://help.aliyun.com/document_detail/181346.html

2.

ADB PostgreSQL的数据库联邦分析

a.

面向主流数据库的联邦分析: https://help.aliyun.com/document_detail/183722.html


2. 构建读写分立架构

稳定的数据业务更适合使用包年包月的购买模式,因为业务可以精确预期并相对稳定,通过包年包月的购买模式可以获得较大的折扣从而实现最优的财务选择;但是对于分析业务,它更多是以短期的业务目标作为驱动,是探索性的数据使用,具备高度紧急,不确定性强,时效性要求高等特征;业务侧需求和技术架构团队的稳定性存在局部矛盾,这时,最佳的分析路径是通过快速构建物理隔离的灵活分析架构;




网络异常,图片无法展示
|




当分析介入后,可以快速通过数据共享能力对现有实例进行数据联通,同时可以实现灵活的数据分析能力;同时如果分析需求过多,可以也可以开放多个资源实例来帮助用户满足分析能力的资源;


3.

高性价比数据归档

生产库产生的低频分析的数据一定要放到数据湖里? Serverless提供了一个新的方案;可以通过DMS自带的数据归档能力,将生产库中无用或者低频分析用的数据进行归档,并廉价存储;这个方案有几个好处;

1.

可以白屏化的批量构建数据归档及设置白屏化

2.

仅在归档的过程中进行资源启动,当数据归档后则仅需要付低价的存储用以保留;

3.

归档的数据可以随时启动分析,仅对分析的时间进行资源收费;

具体操作可以参考: https://developer.aliyun.com/article/1044443?




网络异常,图片无法展示
|




创建Serverless实例

接下来我们可以快速创建一个Demo来让大家更好的了解Serverless自动版的使用方式;


首先免费创建Serverless自动调度版本的实例,用户可以在按量付费下,选择Serverless,并在模式中选择自动调度版本进行创建;目前Serverless自动调度版本正在免费测试中,计算资源免费,存储价格为0.0008元/GB/小时(以北京地区为例);



网络异常,图片无法展示
|



创建后,来到实例控制台,在这里可以管理刚刚创建的实例;



网络异常,图片无法展示
|



可以看到实例在创建后,没有SQL计算的使用情况下,实例会处于一个空闲的状态,在这个状态下的计算是不会进行任何计费的;


接下来我们来用提前加载好的样本数据进行测试用例的使用;

1.

首先创建数据库主账号

2.

加载样本数据数据集,可在控制台选择加载样本数据集,并查看配套的样本SQL;



网络异常,图片无法展示
|



3.

登录数据库后,在对应的实例分析界面上可以执行样本SQL;



网络异常,图片无法展示
|


4.

对于实例资源的使用情况,可以回到实例详情页并在监控中进行查看;



网络异常,图片无法展示
|



5.

若发现算力不匹配或希望更快的资源释放时间,用户可以手动进行实例资源的阈值和冷却时间调整; 通过调整,可以改变在计算时需要介入的瞬时计算资源以及在SQL计算结束后,进入空闲状态的等待市场; 目前最少为60秒;



网络异常,图片无法展示
|



结语

对于serverless,我们看到了行业的头部厂商均已入局,更精细的按需使用和财务管理开始在国际的头部厂商中获得了越来越多的实践。将复杂留给厂商,将简单留给客户依然是云厂商始终坚持的原则;Serverless在海外也成为了更加灵活,易用的代名词;  

ADB PostgreSQL作为分析型数据仓库,是国内该领域的探索者; 目前ADB PG产品是首个获得了信通院的Serverless分析型数据库,“增强级”的评级,产品开放了公测版本试用,欢迎各位尝试并提供宝贵意见,一起为企业提供更易用,更灵活,更高性价比的云数据仓库服务。

相关实践学习
函数计算部署PuLID for FLUX人像写真实现智能换颜效果
只需一张图片,生成程序员专属写真!本次实验在函数计算中内置PuLID for FLUX,您可以通过函数计算+Serverless应用中心一键部署Flux模型,快速体验超写实图像生成的魅力。
从 0 入门函数计算
在函数计算的架构中,开发者只需要编写业务代码,并监控业务运行情况就可以了。这将开发者从繁重的运维工作中解放出来,将精力投入到更有意义的开发任务上。
相关文章
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
313 3
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
347 2
|
数据可视化 算法 数据挖掘
探索Python在数据分析中的应用
在这篇文章中,我们将深入探讨Python语言在数据分析领域的强大应用。Python,作为一门简洁、易学且功能强大的编程语言,已经成为数据科学家和分析师的首选工具之一。本文不仅会介绍Python在数据处理、清洗、分析和可视化方面的关键库,如Pandas、NumPy、Matplotlib和Seaborn,而且还会通过实际案例展示这些库如何被用于解决实际问题。我们的目标是为读者提供一个清晰的指南,帮助他们理解Python在数据分析中的潜力,并鼓励他们开始自己的数据分析项目。
|
SQL Cloud Native 数据挖掘
云原生数据仓库产品使用合集之在使用 ADB 进行数据分析处理时,出现分区倾斜的情况,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
人工智能 分布式计算 Cloud Native
云原生数据仓库AnalyticDB:深度智能化的数据分析洞察
云原生数据仓库AnalyticDB(ADB)是一款深度智能化的数据分析工具,支持大规模数据处理与实时分析。其架构演进包括存算分离、弹性伸缩及性能优化,提供zero-ETL和APS等数据融合功能。ADB通过多层隔离保障负载安全,托管Spark性能提升7倍,并引入AI预测能力。案例中,易点天下借助ADB优化广告营销业务,实现了30%的任务耗时降低和20%的成本节省,展示了云原生数据库对出海企业的数字化赋能。
646 3
|
消息中间件 编解码 运维
阿里云 Serverless 异步任务处理系统在数据分析领域的应用
本文主要介绍异步任务处理系统中的数据分析,函数计算异步任务最佳实践-Kafka ETL,函数计算异步任务最佳实践-音视频处理等。
176353 349
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
880 1
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19705 12
|
数据可视化 数据挖掘 数据处理
探索Python在数据分析中的应用
在这篇文章中,我们将深入探讨Python语言在数据分析领域的强大应用。Python,作为一种高级编程语言,以其简洁的语法、强大的库支持以及广泛的社区资源,成为了数据科学家和分析师的首选工具。本文不仅会介绍Python在数据处理、清洗、可视化以及模型构建中的关键角色,还会通过实际案例,展示如何运用Python解决复杂的数据分析问题。此外,我们将提供一系列高效的技巧和最佳实践,帮助读者提升使用Python进行数据分析的效率和效果。

相关产品

  • 函数计算
  • 下一篇
    开通oss服务