开发者社区> 云学习小组> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

让数据从PostgreSQL流动到Greenplum

简介: 在2016云栖大会杭州峰会开源数据库之 Greenplum专场上,阿里云数据库专家曾文旌(义从)做了题为《PostgreSQL Greenplum 数据上云》的演讲。分享了数据上云可能会面对的问题,并且为大家分享了阿里云所提供的解决方案以及使用OSS插件支持Greenplum方案的优势。
+关注继续查看

以下内容根据演讲PPT以及现场分享整理而成。


本次分享的主要内容
一、数据上云面对的问题
二、解决方案
三、方案优势


一、数据上云面对的问题
现在大家在使用云数据库的时候,可能会遇到的一个很大的问题就是:如何将海量的数据迁移到云端上去。当然在数据迁移的过程中还有可能会遇到网络问题,当网络时好时坏,可能数据上传过程中网络突然断掉,那么几个G或者几十个G的任务就挂掉了,需要重新再导入一遍。还有一个问题就是使用阿里云的各个数据产品时,如何在这些数据产品之间进行数据互通。


二、解决方案
面对这些问题,阿里云也为大家提供了一些解决方案和工具。

f5d8be9a5f6c4b988e7639fd369e019d8c4d0388

  • 第一个工具是oss_ext,它在Greenplum上支持OSS的外表,这个OSS外表将数据通道从OSS打通到Greenplum,其表现形式是在Greenplum中创建一张表,而这张表可以从OSS中导入数据,并且以文本文件的形式存储在OSS上面,并且可以通过文件名进行前缀匹配。简单来说,使用几条SQL语句就可以将OSS上面的数据导入到Greenplum上面去。
  • 第二个工具是oss_fdw,通过它可以将OSS和PG以及PPAS打通,在交易型业务上获取的数据可以很容易地存储到OSS上并且最终导入到Greenplum上,所以通过云做交易业务的用户能够很容易地将数据导入到Greenplum进行数据分析。
  • 第三个工具是pgsql2pgsql,它支持了整个Postgre家族,从PPAS到Greenplum都是兼容的,只需要经过简单的配置就可以将数据从一端保存到另一端。
  • 第四个工具就是mysql2pgsql,它可以使MySQL数据库的数据很容易地导入到Greenplum上面来。

对于整个解决方案而言,每个工具都具有一些特点。

首先,OSS是阿里云上非常廉价的存储服务,它可以和云上所有的数据产品进行打通,并且其收费非常便宜,按照存储量和请求次数进行收费,具体的收费规则在阿里云官网上大家可以看到。

总体而言,使用OSS的成本是相当低的。

  • oss_ext的特点是使用驱动segment对于数据进行装载和导入,并且也支持Greenplum,其数据导入导出性能非常高。
  • 对于oss_fdw来说,它可以支持PG和PPAS,而且数据的格式完全和之前的数据格式兼容,对数据进行读写没有任何障碍。
  • pgsql2pgsql的特点是数据可以在整个PG家族之间进行来回迁移,值得一提的就是在某些场景下还能够支持增量。
  • mysql2pgsql的特点就是,MySQL上面的数据通过它可以很容易迁移到PG家族中去。

整个方案都是以OSS为存储中心,交易型的业务都可以使用OSS作为数据的中间介质进行导入导出。

e0ed4288a7b63c2571243cc3c036d11ff354a4f5

之前在单节点的RDS上面可能会遇到问题就是:购买实例的存储是有限制的。一般而言存储就是几个T,但是一些含有历史数据的表会非常庞大,占据了大量的存储空间,但是对于这些表格查询的次数往往比较少,也就是属于常说的冷数据。面对这样的场景,可以使用OSS对其进行存储,以此将这些冷数据原本占据的大量的存储空间释放掉,当需要的时候再将其导入到数据库中。其实当数据表存储到OSS上面时,也可以非常容易地访问到,只不过性能稍微弱一点,花费的时间稍微长一些。

bebc3ca7669a65d6d9ff79745d87333b0368984c

接下来分享一下Greenplum上的OSS插件的工作原理,我们都知道这样的架构主要由一个主节点和多个计算节点组成。读写的过程中完全让segment进行计算,充分利用segment上面的计算资源、内存和网络。

a73fa7f38ec589058060c2e5567672d3b5b226dd

Greenplum上的OSS插件有很多丰富的特性。

  1. 支持分布式并行数据加载,读写数据的性能随集群segment节点数线性增长,集群越大,性能越强。
  2. 支持自定义格式的文本文件,可以自定义分隔符,自定义数据格式。
  3. 支持多种OSS文件匹配模式,存放非常灵活。
  4. oss_fdw、oss_ext都支持容错模式,对于一个含有上亿条数据的任务而言,当发现几条或者几十条错误的时候,任务会继续执行,并且将错误记录下来,不会由于某些错误而使得整个过程终止。
  5. 支持丰富的性能调优参数。
  6. 支持网络超时自动重试。
  7. 安全特性支持OSS id key 加密存储和隐藏显示。

OSS插件在未来还会支持更多的特性,很多的特性都是根据阿里云客户在实际使用中挖掘出来的,未来阿里云OSS将会对这些特性进行更好地支持。

  1. 未来会支持读写多种压缩文件,进一步降低使用成本。
  2. 扩展多样的读写模式,比如覆盖写模式和追加写模式。
  3. 面对现实场景下的CPU性能导致的数据导入导出瓶颈,未来OSS将会采取一些方案来优化CPU,提高数据的导入和导出速度。
  4. 未来会做同一个外表放在同一个目录,使用OSS文件前缀进行匹配,使文件命名更加方便。

Greenplum已经支持的其他特性

79107be09c43785edc22bcb596fc4d79927f4d94


三、方案优势
使用Greenplum上的OSS插件的方案具有很多优势。
1.使用OSS
OSS的使用成本比较低,并且可以跨各数据库产品进行支持,可以跨可用区进行数据同步。对于冷数据转存到OSS,依然可以当做表访问,只不过性能表现略微降低。
2.并行导入性能高于常规数据导入导出方式
充分利用每个数据节点的CPU、内存、网络等硬件资源,举个例子对于650G的数据,大约20亿行文本数据需要导入到32个segment的Greenplum集群只需要大约35分钟。
3.各数据产品间灵活的交换数据
4.pgsql2pgsql

可以支持不落地数据迁移,pg、ppas大于9.4的版本可以支持基于逻辑复制的增量迁移。
5.mysql2pgsql
可以支持不落地数据迁移,支持多表并发,支持基于条件的增量。
6.工具现在已开源到GitHub
https://github.com/aliyun/rds_dbsync

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云RDS恢复数据到自建数据库趟坑记录
阿里云RDS恢复数据到自建数据库趟坑记录
0 0
RDS数据库为慧联无限数据库运维减负
武汉慧联无限科技有限公司是中国电子信息产业集团有限公司(CEC)战略投资企业,专业从事低功耗广域物联网(LPWAN)核心技术研发与应用的高新技术企业。公司致力于城市级和行业级 LPWAN网络建设、运维及服务,产品及方案已广泛应用在智慧城市建设中的多个领域。公司核心产品包括:LPWAN模组、LPWAN网关、EasyLinkin物联网平台、元场景产品和微场景解决方案。
0 0
商业化十周年,阿里云RDS推出企业级自治数据库
近日,阿里云宣布RDS数据库品牌升级计划,推出云原生企业级自治数据库。今天也是阿里云RDS商业化十周年。据了解,阿里云是国内首家提供自治服务的数据库厂商,基于人工智能和机器学习技术,阿里云RDS数据库提供自动升级、自动调优等100%数据库自动驾驶能力。云原生数据库2.0时代,阿里云RDS通过企业级的自治能力为客户提供更快、更稳、更安全的数据库服务。
0 0
RDS审计中心--数据库安全监控利器
依托阿里云SLS日志服务及阿里云RDS SQL审计,以极低的代价采集对SQL执行的所有操作,RDS审计中心提供丰富的内置告警规则,覆盖绝大部分场景的安全、运营、性能报表,只需要做最少的配置即可实现对数据库的全方位监控。
0 0
虎扑利用阿里云RDS自治数据库轻松应对欧洲杯流量洪峰
今年欧洲杯、美洲杯等热点赛事期间,国内最大的体育互联网平台虎扑迎来密集流量洪峰的大考,通过充分使用云上资源,尤其利用阿里云RDS数据库企业级自治能力,轻松应对创下新高的并发访问量。
0 0
RDS数据库架构实践及解析|阿里云产品内容精选(十二)
本文内容来源于阿里云开发者社区,助力各位开发者了解阿里云数据库相关内容。
0 0
阿里云RDS数据库助力孔网提升运维效率
业务/技术亮点:高效运维/弹性能力/跨机房容灾/数据迁移一致性
0 0
+关注
云学习小组
一群热爱技术的朋友们在云栖社区组成的学习小组!
文章
问答
文章排行榜
最热
最新
相关电子书
更多
PostgreSQL Greemplum 数据上云
立即下载
PostgresChina2018_肖斐_PostgreSQL数据库时空引擎Ganos
立即下载
PostgresChina2018_权宗亮_基于odyssey连接池实现企业级PostgreSQL数据分布中间件
立即下载