【实操系列】 从0~1,基于DMS面向AnalyticDB PostgreSQL的数据ETL链路开发

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 本文以RDSPG 到 ADBPG 的数据链路作为案例,介绍了如何从0~1,基于DMS进行ETL数据链路开发


背景

PostgreSQL数据库目前被广泛应用于企业的在线业务,这款数据库也被业界誉为“最先进的开源数据库”。 本文介绍了AnalyticDB PostgreSQL如何能够使用DMS进行业务调度,完成面向RDS PG的实现定时调度的数据EL链路,开发并让企业可以同时享受PostgreSQL在OLTP & OLAP的场景下的全面能力。


工具介绍

本文使用了dms来实现了整个链路的调度, 使用了oss介质作为中间态的存储,将数据从PostgreSQL 加载到OSS后,落入ADB PG Serverless版本中,实现T+1的数据分析。


优势:

  1. 数据基于oss低成本存储实现归档,永不删除
  2. 数据从RDS(可以是PG也可以是MySQL),T+1加载到ADB PG Serverless版本中做高性能分析
  3. 基于DMS配置自动调度框架,白屏化,低代码。


约束:

  1. RDS源表中的数据,需要能够通过条件来增量归档。下面的例子是通过t_src表中的c date列,实现按天归档。


方案框架:


step by step流程 (大约20~30分钟可完成)

资源准备

注意:本方案对 rds 的pg14版本暂不支持; 支持pg9.4 到13 的版本;

  1. 已有一台开通的rds pg; (确认您的版本在pg9~pg13之间)若无RDS PG,可购买创建
  2. 开通adb pg serverless版本,(疫情期间,我们提供了疫情礼包,包含计算引擎); 在创建好实例之后,请先进行初始设置,需要设置实例账号;
  3. 开通oss,并建好对应的bucket,有对应的access key,secret可以。
  1. 若您没有oss,可免费开启该服务: https://www.aliyun.com/product/oss
  2. 当oss服务已开启,可登录oss控制台 : https://oss.console.aliyun.com/bucket
  3. 需要创建一个的oss bucket,需要保证该bucket和RDS PG 和 ADBPG在同一个region内;


  1. 建立bucket以后: 点击进入bucket,记录你的bucket信息;包括 bucket_host, bucket_name,获取方式如下;

  1. 怎么获取access_key 和 secret_key,在控制台右上角点击自己的头像,去到AccessKey管理

进入后可查看secret,记录好自己的两个关键key;


执行流程


第一步:数据和服务准备

理论上用户在RDSPG上已经存在着业务数据,本文为了方便理解,创建了样本数据来供测试流程使用;

  1. 登录rds pg,进入选择数据库,进入SQL编辑页面, 创建oss_fdw插件。
  1. 通过dms登录rds pg,运行SQL: create extension if not exists oss_fdw;  
  2. 创建一个表作为源表,运行SQL:

 

   create table t_src (a int, b int, c date);

   insert into t_src select generate_series(1, 1000), 1, now();

   select * from t_src;


  1. 为RDS PG创建一个外表写入

-- 导入外表插件

create extension if not exists oss_fdw;  


-- 创建外表服务;

create  SERVER ossserver FOREIGN DATA WRAPPER oss_fdw OPTIONS

    (host '[bucket_host]' , id '[access_key]', key '[secret_key]',bucket '[bucket_name]');


  1. 开通adb pg serverless版本,进入数据库, 在SQL编辑页面进行创建oss_fdw插件,创建目标表,并配置oss 外表。登录adb pg,运行SQL:

--添加外表访问插件

create extension if not exists oss_fdw;  


-- 和rdspg侧保持表的定义相同,创建一张表; 注意serverless版本暂不支持主键;

create table t_target (a int, b int, c date);

-- 导入外表访问插件

create extension if not exists oss_fdw;  


-- 创建外表访问链接服务

create server oss_serv

   foreign data wrapper oss_fdw

   options (

       endpoint '[bucket_host]',

       bucket '[bucket_name]');


create user mapping for public

   server oss_serv

   options (

     id '[access_key]',

     key '[secret_key]');


  1. 通过dms配置自动归档和加载任务流

第二步: 配置ETL任务;

1. RDS PG 抽取任务配置

  1. 新建任务编排。 在DMS页面上,集成与开发(DTS)”-> 任务编排->新建任务流 , 设置任务流名称“rdspg数据导入oss”

  1. 新建RDS PG归档流程: 选择新建任务流,数据加工 -> 单实例SQL,拖入面板

  1. 命名该实例,点击,改名为’rds数据抽取‘
  2. 点击实例设置按钮进入配置,并将如下SQL贴入,此段为将数据从RDS PG数据写入OSS存储介质中;

drop FOREIGN TABLE if exists oss_${mydate};


CREATE FOREIGN TABLE if not exists oss_${mydate}

   (a int,

    b int,

    c date)

    SERVER ossserver

    OPTIONS ( dir 'rds/t3/${mydate}/', delimiter '|' ,

        format 'csv', encoding 'utf8');

       


insert into oss_${mydate} select * from t_src where c >= '${mydate}';


  1. 填入该任务关联的数据库名称; (注意搜索方法为,回到SQL窗口,切换到需要的数据库,在头部有数据库对应的已public开头的库名,点击右侧进行复制; )

  1. 返回任务配置页,将刚刚复制的库名放入搜索框后,选中结果



  1. 点击“变量设置”一栏,配置日期变量mydate, 时间格式变为 yyyyMMdd; 注意:这个变量在后面的SQL中要用到,用来根据日期做增量归档。

2. 配置ADB PG的加载任务

  1. 新建ADB PG加载任务,数据加供 -> 单实例SQL,将其拖拽至面板,改名为“ADBPG数据加载”

  1. 点击内容设置,首先选取对应的ADBPG数据库实例(方法如上)

  1. 编辑对应SQL,在ADBPG侧进行数据从OSS抽取

CREATE FOREIGN TABLE if not EXISTS  oss_${mydate}(  

    a int ,

    b int ,

    c date

) server oss_serv

   options (

       dir 'rds/t3/${mydate}/',

       format 'csv',

       delimiter '|',

       encoding 'utf8');



insert into t_target select * from oss_${mydate};

  1. 配置日期变量mydate,作用同上。

3. 任务调度和执行时间配置

  1. 配置调度流程,先跑RDS PG任务,再跑ADB PG,选中RDS PG框下面圆点,拖到ADB PG上。

  1. 找到调度配置,开启调度, 并配置调度策略。配置调度页。选择你希望的任务调度周期,每次调度会对数据进行rdspg侧的导出和adbpg的导入,保证数据的同步;

4. 测试和发布

  1. 点击“试运行”,测试无误后,点击“发布”

总结

该产品能力支持用户快速完成一套免费的数据ETL链路,支持用户将现有的RDS PG的数据落入OSS 中,并加载至ADBPG中进行分析; 也可以落在OSS上后,以外表的形式进行联邦分析;

用法: 对于海量分区数据的分析,在ADBPG中有明显的加速效果; 对于TB~PB级的数据,可做到秒级查询,汇总并对接主流的BI产品,目前AnalyticDB PostgreSQL被广泛应用在企业的数字化转型,实现云端数据平台部署;


参考文档

【1】dms案例,https://www.alibabacloud.com/help/zh/data-management-service/latest/regularly-back-up-data-from-relational-databases-to-oss-in-dms

【2】rds pg外表使用说明 https://help.aliyun.com/document_detail/164815.html

【3】adb pg外表使用说明 https://help.aliyun.com/document_detail/164815.html

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
1月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
4月前
|
物联网 数据管理 Apache
拥抱IoT浪潮,Apache IoTDB如何成为你的智能数据守护者?解锁物联网新纪元的数据管理秘籍!
【8月更文挑战第22天】随着物联网技术的发展,数据量激增对数据库提出新挑战。Apache IoTDB凭借其面向时间序列数据的设计,在IoT领域脱颖而出。相较于传统数据库,IoTDB采用树形数据模型高效管理实时数据,具备轻量级结构与高并发能力,并集成Hadoop/Spark支持复杂分析。在智能城市等场景下,IoTDB能处理如交通流量等数据,为决策提供支持。IoTDB还提供InfluxDB协议适配器简化迁移过程,并支持细致的权限管理确保数据安全。综上所述,IoTDB在IoT数据管理中展现出巨大潜力与竞争力。
119 1
|
19天前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的数据文件
PostgreSQL的物理存储结构主要包括数据文件、日志文件等。数据文件按oid命名,超过1G时自动拆分。通过查询数据库和表的oid,可定位到具体的数据文件。例如,查询数据库oid后,再查询特定表的oid及relfilenode,即可找到该表对应的数据文件位置。
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
2月前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
166 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
2月前
|
数据采集 安全 数据管理
通信行业数据治理:如何实现高效、安全的数据管理?
在未来的发展中,通信行业的企业应加强数据治理意识,提高数据治理能力;同时,积极开展跨行业的合作创新,共同推动行业的繁荣与发展。相信在不久的将来,通信行业将迎来更加美好的明天。
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
219 1
|
4月前
|
Java 测试技术 容器
从零到英雄:Struts 2 最佳实践——你的Web应用开发超级变身指南!
【8月更文挑战第31天】《Struts 2 最佳实践:从设计到部署的全流程指南》深入介绍如何利用 Struts 2 框架从项目设计到部署的全流程。从初始化配置到采用 MVC 设计模式,再到性能优化与测试,本书详细讲解了如何构建高效、稳定的 Web 应用。通过最佳实践和代码示例,帮助读者掌握 Struts 2 的核心功能,并确保应用的安全性和可维护性。无论是在项目初期还是后期运维,本书都是不可或缺的参考指南。
54 0
|
4月前
|
SQL 存储 数据管理
掌握SQL Server Integration Services (SSIS)精髓:从零开始构建自动化数据提取、转换与加载(ETL)流程,实现高效数据迁移与集成——轻松上手SSIS打造企业级数据管理利器
【8月更文挑战第31天】SQL Server Integration Services (SSIS) 是 Microsoft 提供的企业级数据集成平台,用于高效完成数据提取、转换和加载(ETL)任务。本文通过简单示例介绍 SSIS 的基本使用方法,包括创建数据包、配置数据源与目标以及自动化执行流程。首先确保安装了 SQL Server Data Tools (SSDT),然后在 Visual Studio 中创建新的 SSIS 项目,通过添加控制流和数据流组件,实现从 CSV 文件到 SQL Server 数据库的数据迁移。
305 0
|
4月前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
482 0

热门文章

最新文章

相关产品

  • 云原生数据仓库 AnalyticDB PostgreSQL版
  • 云数据库 RDS PostgreSQL 版
  • 下一篇
    DataWorks