强制数据分布与导出prefix - 阿里云pg, hdb pg oss快速数据规整外部表导出实践案例

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介:

标签

PostgreSQL , 阿里云 , RDS PG , HDB PG


背景

批量数据导出在数据分析、数据圈选、广告系统、数据清洗系统、数据规整系统中是一个比较常见的需求,例如:

1、导出任务流。

2、广告系统,圈选人群。

3、数据清洗并导出。

4、数据按某些规则分类,规整并输出到不同的文件。

通常数据库的导出功能相对来说比较单一,例如可以导出query的结果,导出表,导出SCHEMA,导出整个库等。

导出的格式包括CSV,STDOUT等。

但是一个QUERY如果要导出到多个文件(例如前面提到的数据规整需求),目前数据库是没有这样的功能的,需要程序开发。

阿里云RDS PostgreSQL和HDB PostgreSQL提供了这样的导出功能,可以将数据按一定的规则快速的导出到OSS(定义文件的PREFIX,导出的格式等)。

数据按某些规则分类,规整并输出到不同的文件

将数据按某些(字段或虚拟列)内容的不同,写入不同的文件。

这些字段或虚拟列,可以输出到文件,也可以不输出到文件(通过参数调整)。

目前不支持写文件头(列的描述),后面可以加这个功能。或者用户可以在文件最前面加一行,比如用sed或其他编辑工具来添加。

HybridDB for PostgreSQL 例子如下:

1、创建源表

create table t_source (host text, key int , data text);   

2、写入一些测试数据

insert into t_source values('host1',1,'1');   
insert into t_source values('host1',1,'2');   
insert into t_source values('host1',2,'3');   
insert into t_source values('host2',1,'4');   
insert into t_source values('host3',1,'5');   
insert into t_source values('host4',1,'6');   
insert into t_source values('host5',1,'7');   

3、创建目标表(通用型)

file_name_generator_col,指定这列的内容,作为输出OSS文件的PREFIX。不同的值,输出到不同的文件中。

output_generator_col,指是否将file_name_generator_col列输出到OSS中。false表示不输出。

create WRITABLE external table cdn_demo_output   
(   
  prefix text,  -- 这个列作为分布键、也作为输出文件的PREFIX,同时可以通过output_generator_col参数控制是否将这个列输出到OSS文件中。   
  Data json   
)   
location('@@oss_host@@   
        dir=cdn_demo_20170824/ id=@@oss_id@@   
        key= @@oss_key@@ bucket=@@oss_bucket@@ output_generator_col=false file_name_generator_col=prefix') FORMAT 'csv'    
DISTRIBUTED BY (prefix);   

4、创建导出的日志表(元数据表)

create table tbl_output_struct(   
  id int primary key,   -- PK   
  prefix text, -- 前缀   
  struct json, -- 这个前缀对应的,JSON的结构   
  osspath text -- 这个前缀对应的OSS的路径(bucket)。   
);   

5、导出到OSS

由于HybridDB for PostgreSQL是分布式数据库,OSS表选择了根据prefix做分布键,所以分布键有几个,就有机会最多往几个SEGMENT去分发,并行写OSS。如果只有一个prefix值,那么就只会分发到一个SEGMENT写OSS。

用户可以根据需要,选择几个PREFIX,当然PREFIX还可以在分词prefix1和prefix2组成的联合prefix。

例如:

国家||'_'||省份     
这个相当于两个字段联合的prefix。   
   
   
taskid||'_'||(random()*9)::int::text   
从而每个taskid可以拆成10个prefix2,相当于一个taskid开了10个并行写。   
(当没有第二个字段时,使用这种手段效果一样可以多个节点并行)   

导出:

begin;   
   
-- 记录下此次导出的结构,PREFIX等(若已知)。   
insert into tbl_output_struct values ('label1', '{col:type1, col2:type2, ....}', 'bucket_path');   
-- OR   
insert into tbl_output_struct select host||key, '{col:type1, col2:type2, ....}', 'bucket_path' from t_source group by 1;   
   
-- 打开按prefix导出的参数开关   
set rds_write_oss_file_by_distribution_column=on;   
   
-- 导出到OSS   
insert into cdn_demo_output   
(   
  prefix,   
  Data   
)   
select    
  host_and_key,                       -- prefix驱动键   
  row_to_json(row(host_and_key,data)  -- 将需要导出的内容,封装到JSON中   
from   
(   
select    
  row_number() over (partition by host||key order by host||key) as RN,     -- 强制数据库按PREFIX的顺序排序,这样才能保证prefix写入到对应的文件   
  host||key as host_and_key,     
  data    
  from t_source t1    
) t;   
   
end;   

PS,强制分布的原理:

                                                  QUERY PLAN                                                     
--------------------------------------------------------------------------------------------------------------   
 Gather Motion 48:1  (slice2; segments: 48)  (cost=0.04..0.06 rows=1 width=64)   
   ->  Subquery Scan t  (cost=0.04..0.06 rows=1 width=64)   
         ->  Window  (cost=0.04..0.05 rows=1 width=68)   
               Partition By: host_and_key   
               Order By: host_and_key   
               ->  Sort  (cost=0.04..0.04 rows=1 width=68)   
                     Sort Key: host_and_key   
                     ->  Redistribute Motion 48:48  (slice1; segments: 48)  (cost=0.00..0.03 rows=1 width=68)   
                           Hash Key: host_and_key   
                           ->  Seq Scan on t_source t1  (cost=0.00..0.01 rows=1 width=68)   
 Settings:  enable_bitmapscan=off; enable_seqscan=off; optimizer=off   
 Optimizer status: legacy query optimizer   
(12 rows)   

6、格式转换

导出为JSON格式,如果需要转换为CSV,用户可以将数据从OSS读出之后,写程序转换为CSV格式。

格式的内容在元数据表里面。

OSS将来应该也会提供这样的函数编程接口,对OSS里面的数据进行格式转换。

7、将结果作为OSS外部表

将导出的内容,再提供查询。

由于前面我们设置了output_generator_col=false,所以不输出分布键,那么实际上在OSS文件中,只有一列,所以只读OSS外部表的定义如下

create external table cdn_demo_check   
(   
Data json   
)   
location('@@oss_host@@   
        dir=cdn_demo_20170824/ id=@@oss_id@@   
        key= @@oss_key@@ bucket=@@oss_bucket@@') FORMAT 'csv';   
   
select * from  cdn_demo_check order by data;   

参考

RDS PG OSS 外部表文档:https://help.aliyun.com/knowledge_detail/43352.html

HDB PG OSS 外部表文档:https://help.aliyun.com/document_detail/35457.html

《日增量万亿+级 实时分析、数据规整 - 阿里云HybridDB for PostgreSQL最佳实践》

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
2月前
|
存储 安全 大数据
对象存储的意义:探索数据新纪元的关键基石
在信息爆炸时代,数据成为核心资产,而高效安全的数据存储至关重要。对象存储作为一种新兴技术,起源于20世纪90年代,旨在解决传统文件系统的局限性。随着云计算和大数据技术的发展,它已成为关键技术之一。对象存储具备高可扩展性、高可靠性、低成本、易于管理和多协议支持等优点。它支撑大数据发展、推动云计算繁荣、助力企业数字化转型并保障数据安全。未来,对象存储将进一步提升性能,实现智能化管理,并与边缘计算融合,获得政策支持,成为数据新时代的关键基石。
104 3
|
2月前
|
存储 关系型数据库 对象存储
MPP架构数据仓库使用问题之OSS的RT相比ESSD云盘较高,ADB PG这一问题是如何解决的
MPP架构数据仓库使用问题之OSS的RT相比ESSD云盘较高,ADB PG这一问题是如何解决的
|
3月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
DataWorks 安全 定位技术
DataWorks产品使用合集之如何同步OSS中的Parquet数据,并解析里面的数组成多个字段
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
存储 运维 安全
阿里云OSS的优势
【7月更文挑战第19天】阿里云OSS的优势
137 2
|
3月前
|
存储 API 开发工具
阿里云OSS
【7月更文挑战第19天】阿里云OSS
129 1
|
3月前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
113 1
|
3月前
|
持续交付 开发工具 对象存储
阿里云云效产品使用合集之构建物如何上传到阿里云OSS
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。