PgSQL · 最佳实践 · 从 MaxCompute (ODPS) 迁移数据到 HybridDB-阿里云开发者社区

开发者社区> 曾文旌> 正文

PgSQL · 最佳实践 · 从 MaxCompute (ODPS) 迁移数据到 HybridDB

简介: title: PgSQL · 最佳实践 · 从 ODPS 迁移数据到 HybridDB author: 义从 背景 最近,不少用户在尝试使用 HybridDB 的过程中,询问我们如何把之前在 ODPS 中的数据迁移到 HybridDB。
+关注继续查看

title: PgSQL · 最佳实践 · 从 ODPS 迁移数据到 HybridDB

author: 曾文旌(义从)

背景

最近,不少用户在尝试使用 HybridDB 的过程中,询问我们如何把之前在 ODPS 中的数据迁移到 HybridDB。今天就跟大家介绍一种效率较高的方法。

一:原理

ODPS 和 HybridDB 都是多数据节点组合成的集群架构,这样的架构如果要做到效率较高的数据吞吐,需要驱动数据节点主动推送数据。幸运的是 ODPS 和 HybridDB 都支持用该方式向 OSS 读写数据。于是解决方案来了。

要在 OSS 交换数据,约定数据格式是必要的。调查发现,ODPS 支持向 ODPS 写文本格式的数据(TEXT/CSV),HybridDB 也支持读取文本格式的数据。

二:解决方案

下面通过一个简单的 demo 描述整体方案

1. ODPS OSS 外表

首先,我们需要创建一个和 ODPS 数据表相同结构的外部表,用于打通和 OSS 的数据通道。

 CREATE external TABLE `demo_oss_ext` (
    id string COMMENT 'id',
    data1 string COMMENT 'data1',
    data2 string COMMENT 'data2'
  ) 
partitioned by (ds string)
STORED BY 'com.aliyun.odps.TextStorageHandler'
WITH SERDEPROPERTIES ('odps.text.option.delimiter'='\t')
LOCATION 'oss://id:key@endpoint/bucketname/oss_dir/';

关键参数:

  • 1. com.aliyun.odps.TextStorageHandler 定义了数据存储到 OSS 的数据格式

    • TextStorageHandler 由 JAVA 开发,是缺省的数据投递选择
    • 缺省的 TextStorageHandler 不支持完整的 TEXT/CSV 协议,如果要支持,则建议和开源的 JAVA CSV 格式实现对接。有开发工作量。
  • 2. TextStorageHandler 支持两个自定义参数

    • odps.text.option.delimiter 用于指定列分割符。
    • odps.text.option.use.quote 定义引用字符。
    • 对于 NULL 列值,默认是 N 且不可更改。
    • 不支持转义特殊字符,只能通过自定义 Handler 实现。
  • 3. LOCATION 指定投递到 OSS 上的具体账号和位置,包含了 id, key, endpoint, bucket, 和具体位置。

2. 把数据通过外表迁移到 OSS

使用下面的 SQL 把 ODPS 中的数据转移到 OSS

insert into demo_oss_ext select * from t_data;

注意:

  • 1. 该操作是并行的进行的,默认每 256MB 数据开启一个并发。

    • 可以通 set odps.sql.mapper.split.size=xxx; 改小值增大并发。
  • 2. ODPS 到 OSS 数据的转移会受到 OSS 流控的影响,理论上单个并发到 OSS 的网络带宽是 100MB/S。
  • 3. 如果想进一步提高带宽,需要联系 OSS 的相关同学放开限制。

3. HybridDB 外部表

HybridDB 外部表 oss_ext

CREATE READABLE EXTERNAL TABLE user_data_oss_ext (
    id int64,
    data1 text,
    data2 text
)
location('oss://endpoint 
    dir=data_oss_dir
    id=ossid 
    key=osskey 
    bucket=bucketname') 
FORMAT 'TEXT' (DELIMITER '\t' )
LOG ERRORS INTO error_track_table SEGMENT REJECT LIMIT 10;

关键参数:

  • 1. location 指定了所有和 oss 相关的参数
  • 2. 文件的格式需要和 ODPS 的外表匹配 FORMAT 'TEXT' (DELIMITER 't' )
  • 3. 设置跳过错误的行

    • 异构数据的迁移难免会碰到校验不过的数据,可能是特殊字符,也可能是不合法的编码。
    • LOG ERRORS INTO error_track_table 会把出错的数据写到一张表中。
    • SEGMENT REJECT LIMIT X 设置支持单个 SEGMENT 允许错误的行,也可以设置成允许错误的百分比。
  • 4. HybridDB 的导入也是并行的,并行程度和计算节点数一致。
  • 5. 导入 gzip 格式的 text/csv 数据会提高一倍以上的性能,但前提是 ODPS 支持输出压缩格式的文件。

4. HybridDB 列压缩本地表

CREATE TABLE t_ao(
    id int64,
    data1 text,
    data2 text
)
with (
APPENDONLY=true, COMPRESSTYPE=zlib,
 ,BLOCKSIZE=2097152,
ORIENTATION=COLUMN,CHECKSUM=true,
OIDS=false) 
DISTRIBUTED BY (id);

关键参数:

  • 1. 如果导入到 HybridDB 不需要大量的修改数据,那么使用 append only 以列组织再加上压缩是最好的方案

    • 对应下列几个参数 APPENDONLY=true COMPRESSTYPE=zlib COMPRESSLEVEL=5 ORIENTATION=COLUMN BLOCKSIZE=2097152
    • HybridDB 是按列组织的压缩,压缩比会比按行压缩高很多,COMPRESSLEVEL=5 压缩比很容易到之前的 20%。
  • 2. DISTRIBUTED BY (column) 用于把数据均匀打散到 HybridDB 的各计算节点,数据尽量的均匀分布是选择分布列的关键。

5. 从 OSS 导入数据到 HybridDB

使用下面的 SQL 把 OSS 中的数据导入到 HybridDB

insert into t_ao select * from user_data_oss_ext;

HybridDB 和 PostgreSQL 都支持从 OSS 读写数据

OSS 和 AWS 的 S3 一致,是云上廉价的存储服务,它打通了几乎所有的云产品。我们推荐的云上数据通道。

目前,云上的 PostgreSQL 和 HybridDB 都支持 OSS 数据源的读写。

  • PostgreSQL + OSS 读写外部数据源 [oss_fdw] [5]
  • HybridDB for PostgreSQL + OSS 并行的导入导出数据 [oss_ext] [3]

参考资料

  1. PostgreSQL + OSS oss_fdw
  2. HybridDB for PostgreSQL + OSS oss_ext
  3. SLS 支持投递 CSV 格式的数据到 OSS
  4. 开源的 JAVA 数据格式化实现
  5. ODPS 导出数据到 OSS
  6. ODPS 上如何访问OSS

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Kafka数据迁移MaxCompute最佳实践
本文向您详细介绍如何使用DataWorks数据同步功能,将Kafka集群上的数据迁移到阿里云MaxCompute大数据计算服务。
3465 0
MSSQL · 最佳实践 · 使用混合密钥实现列加密
摘要 在SQL Server安全系列专题的上两期月报分享中,我们分别分享了:如何使用对称密钥实现SQL Server列加密技术和使用非对称密钥加密方式实现SQL Server列加密。本期月报我们分享使用混合密钥加密方式实现SQL Server列加密技术,最大限度减少性能损失,最大程度保护用户数据安全。
1504 0
PostgreSQL 最佳实践 - 在线逻辑备份与恢复介绍
背景 PostgreSQL 逻辑备份, 指在线备份数据库数据, DDL以SQL语句形式输出, 数据则可以以SQL语句或者固定分隔符(row格式)的形式输出. 备份时不影响其他用户对备份对象的DML操作. 本文主要介绍一下PostgreSQL提供的逻辑备份工具pg_dump, p
3565 0
SQL Server - 最佳实践 - SSMS配合BCP迁移SQL Server数据库上阿里云
本文讨论的主题是使用SSMS(SQL Server Management Studio)配合BCP命令行的方式来迁移SQL Server数据库。使用SSMS做数据库结构迁移,使用BCP命令做全量数据迁移,此方案是以本地SQL Server数据库迁移到阿里云RDS SQL Server 2012为例。
3401 0
Hadoop数据迁移MaxCompute最佳实践
本文向您详细介绍如何通过使用DataWorks数据同步功能,将Hadoop数据迁移到阿里云MaxCompute大数据计算服务上。您也可以参考本文进行MaxCompute数据到Hadoop的反向迁移。
9210 0
MSSQL - 最佳实践 - 使用SSL加密连接
--- title: MSSQL - 最佳实践 - 使用SSL加密连接 author: 风移 --- # 摘要 在SQL Server安全系列专题月报分享中,往期我们已经陆续分享了:[如何使用对称密钥实现SQL Server列加密技术](http://mysql.taobao.org/monthly/2018/08/03/)、[使用非对称密钥实现SQL Server列加密](http:/
2441 0
MSSQL - 最佳实践 - 如何打码隐私数据列
--- title: MSSQL - 最佳实践 - 如何打码隐私数据列 author: 风移 --- # 摘要 在SQL Server安全系列专题月报分享中,我们已经分享了:如何使用对称密钥实现SQL Server列加密技术、使用非对称密钥加密方式实现SQL Server列加密、使用混合密钥实现SQL Server列加密技术、列加密技术带来的查询性能问题以及相应解决方案和行级别安全解决方
1080 0
+关注
曾文旌
个人简介 曾文旌 阿里巴巴 RDS for PostgreSQL 数据库专家 目前在阿里云RDS 数据库内核服务组,负责PostgreSQL相关业务.
17
文章
3
问答
来源圈子
更多
阿里云数据库:帮用户承担一切数据库风险,给您何止是安心!支持关系型数据库:MySQL、SQL Server、PostgreSQL、PPAS(完美兼容Oracle)、自研PB级数据存储的分布式数据库Petadata、自研金融级云数据库OceanBase支持NoSQL数据库:MongoDB、Redis、Memcache更有褚霸、丁奇、德哥、彭立勋、玄惭、叶翔等顶尖数据库专家服务。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载