从0~1,基于DMS面向AnalyticDB PostgreSQL的数据ETL链路开发

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云监控,每月短信1000条
简介: 在传统数仓中,往往采用资源预购的方式,缺少面向业务的资源调整灵活性。 在数据分析这种存在明显业务波峰波谷或分时请求的场景下,实例无法按需使用,造成了大量成本浪费。云原生数仓AnalyticDB PostgreSQL产品自2022年2月正式发布了Serverless版之后,依托于内核强大的资源管理能力...

背景

在传统数仓中,往往采用资源预购的方式,缺少面向业务的资源调整灵活性。 在数据分析这种存在明显业务波峰波谷或分时请求的场景下,实例无法按需使用,造成了大量成本浪费。

云原生数仓AnalyticDB PostgreSQL产品自2022年2月正式发布了Serverless版之后,依托于内核强大的资源管理能力和面向云原生的管控系统,推出了Serverless实例计算暂停能力,并实现了秒级计费的改造和暂停期间计算资源免费。 这个能力为客户在计算空闲时期提供了大幅节约成本的能力,在以下场景中,效果明显:

  • 数据周期性归档: 可通过api进行启动和暂停,在归档结束后,可立即暂停;仅在偶发分析和归档期间进行计算使用,高效的节省归档成本,节省近80% 的使用成本;

  • 低成本POC测试: 用户不再需要对测试过程中的实例进行频繁释放,使用实例启停可降低近80%以上的POC成本,用户若在一周期内进行密集使用,则倾向于进行暂停从而简化每次初始化的复杂度,提升POC效率。

产品文档:https://help.aliyun.com/document_detail/445111.html

功能

实例暂停

支持用户通过控制台或者OpenAPI的方式对实例进行暂停或启动。在实例暂停中,我们会暂停用户实例的计算资源,并不再对计算进行任何收费,同时这个暂停不会影响实例的数据存储以及网络链接串;可实现启动后无需任何改动即可继续使用。

事件中心和告警

对暂停和启动相关的事件,提供了面向用户完整通知,告警和审计的流程; 用户可在控制台的事件中心中查阅手动启动、手动停止、计划启动、计划停止、扩缩容等操作进行事件侧展示。同时用户可根据这些事件配置云监控报警,及时追踪启停效果。

秒级计费

实例暂停时,只收取存储费用,不收取计算资源费用。为了保证更精确的使用统计,我们对底层的计费服务进行了改造,计费服务会实时感知实例启动和停止事件,按照秒级精度计算真正使用时长,然后按小时出账单。

技术架构

启停架构

用户可以通过控制台或直接使用OpenAPI触发实例启停,业务控制器会管理各项资源的生命周期,并以事件驱动秒级计量计费和事件告警。

image.png

资源生命周期管理

计算资源

实例运行在k8s上,涉及Pod优雅停止和新建、调度、pod信息重建:

  • 不直接依赖Pod的GraceTerminating来杀死实例,通过内核单独的操作来优雅Kill session,保护用户SQL请求;

  • 保留了完整的管控元数据,通过“申请临时实例,交换OwnerReference”的方式重建Pod;

  • 在资源池容量不够导致再次申请资源失败的情况,通过告警处理,保证5min完成资源扩容;

网络资源

在原生的k8s里,网络资源往往和Pod生命周期一致,随着Pod销毁而释放。有状态服务强依赖IP的场景下,社区大多采用IPPool的来实现IP保持,我们采用类似的将ENI和Pod关系一一对应的方式,单独管理ENI的保留和复用,保证:

  • 内核和链路使用原有IP,加速恢复启动时间;

  • Hold IP资源,防止耗尽导致恢复实例失败;

存储资源

包含用户数据、缓存数据、备份数据三部分。其中用户数据使用云盘或OSS存储,我们将保留复用;缓存可以释放,减少资源浪费;关于备份数据,我们将定期(典型的为7天)清理的策略改为保留最后一份备份集,这样实例在恢复启动时,还可以使用暂停前的备份数据,保障数据可靠性。

事件管理

在云原生生态里,可以看到越来越多的控制器基于事件驱动实现,我们也采用类似方案,采用阿里SLS作为CloudEvent通道,实现:

  • 秒级计费:基于启停事件计算各资源真正的使用时长;

  • 事件通知:提供了OpenAPI接口,并在控制台进行了可视化展示,做到可跟踪、可解释;

  • 云监控告警:用户可通过云监控,设置短信、电话、邮件、webhook等告警配置;

最佳实践

用户在购买一个Serverless实例后,可根据以下操作完成对实例的暂停和启动,并可在账单处见到所对应的计算资源使用账单;

提示: 目前Serverless 仅有按量付费支持暂停,包年包月由于资源预购,故暂停无显著效果;

点击购买Serverless实例 按量付费试用

手动暂停实例

登录云原生数仓AnalyticDB PostgreSQL产品控制台,进入实例列表页面,在要暂停的实例的更多操作里,点击"暂停实例":

image.png

或者在实例详情页,通过"实例管理" -> "暂停实例":

image.png

下发任务后,实例会变成暂停中状态,大约2min后,实例变为已暂停状态:

image.png

手动启动实例

在实例详情页,通过"实例管理" -> "启动实例":

image.png

启停事件的查看和配置告警

在云原生数仓AnalyticDB PostgreSQL产品控制台的事件中心,通知事件类别里可查看所有的启停事件:

image.png

通过"配置告警"链接,可跳转到云监控页面,我们帮助用户自动填写了默认参数,可配置电话、短信、邮件

、webHook等报警信息:

image.png

OpenAPI

除了通过控制台,我们还提供了OpenAPI的方式操作启停;

暂停实例:

http(s)://gpdb.aliyuncs.com/?Action=PauseInstance
&DBInstanceId=gp-bp***************
&公共请求参数

启动实例:

http(s)://gpdb.aliyuncs.com/?Action=ResumeInstance
&DBInstanceId=gp-bp***************
&公共请求参数

Java SDK:

<dependency>
  <groupId>com.aliyun</groupId>
  <artifactId>gpdb20160503</artifactId>
  <version>1.0.25</version>
</dependency>

结束语

降本增效一直是客户和我们共同的目标。借助云的技术和自研的产品内核,我们得以提供高性价比的产品,让实例真正可以按需使用,按量付费。同时我们也十分注重用户体验,力求在便利性、功能完善度等方面做的更好,对实例的暂停和启动时间,在几分钟即可完成,做到了暂停和按需拉起无负担,让云上的技术红利进一步帮助企业增效降本。

相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
相关文章
|
17天前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
2月前
|
SQL 运维 Oracle
【迁移秘籍揭晓】ADB如何助你一臂之力,轻松玩转Oracle至ADB的数据大转移?
【8月更文挑战第27天】ADB(Autonomous Database)是由甲骨文公司推出的自动化的数据库服务,它极大简化了数据库的运维工作。在从传统Oracle数据库升级至ADB的过程中,数据迁移至关重要。
42 0
|
3天前
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
10 1
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
17天前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
3天前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
14 4
|
16天前
|
机器学习/深度学习 搜索推荐 算法
从数据中台到数据飞轮:企业升级的必然之路
在探讨是否需从数据中台升级至数据飞轮前,我们应先理解两者之间的关系。数据中台作为数据集成、清洗及治理的强大平台,是数据飞轮的基础;而要实现数据飞轮,则需进一步增强数据自动化处理与智能化利用能力。借助机器学习与人工智能技术,“转动”数据并创建反馈机制,使数据在循环中不断优化,如改进产品推荐系统,进而形成数据飞轮。此外,为了适应市场变化,企业还需提高数据基础设施的敏捷性和灵活性,这可通过采用微服务架构和云计算技术来达成,从而确保数据系统的快速扩展与调整,支持数据飞轮高效运转。综上所述,数据中台虽为基础,但全面升级至数据飞轮则需在数据自动化处理、反馈机制及系统敏捷性方面进行全面提升。
73 14
|
2月前
|
监控 数据安全/隐私保护 异构计算
借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
【8月更文挑战第8天】借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
63 1
|
2月前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
32 0
|
2月前
|
SQL 存储 数据管理
掌握SQL Server Integration Services (SSIS)精髓:从零开始构建自动化数据提取、转换与加载(ETL)流程,实现高效数据迁移与集成——轻松上手SSIS打造企业级数据管理利器
【8月更文挑战第31天】SQL Server Integration Services (SSIS) 是 Microsoft 提供的企业级数据集成平台,用于高效完成数据提取、转换和加载(ETL)任务。本文通过简单示例介绍 SSIS 的基本使用方法,包括创建数据包、配置数据源与目标以及自动化执行流程。首先确保安装了 SQL Server Data Tools (SSDT),然后在 Visual Studio 中创建新的 SSIS 项目,通过添加控制流和数据流组件,实现从 CSV 文件到 SQL Server 数据库的数据迁移。
49 0
|
2月前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
130 0
下一篇
无影云桌面