实践 —— 亲测从 RDS MySQL 通过数据集成导入 MaxCompute-阿里云开发者社区

实践 —— 亲测从 RDS MySQL 通过数据集成导入 MaxCompute

2017-07-16 2891

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS PostgreSQL，集群系列 2核4GB

简介： 作者尝试了从RDS 的MySQL数据库到MaxCompute的 ODPS 的数据同步过程，并导入成功。有需要的同学赶紧试起来吧～～～

我们今天要试的，是从RDS 的MySQL数据库到MaxCompute的 ODPS 的数据同步过程。

往简单了说，就是把源数据库（Read）里的数据，转移到目标数据库（Write）。 DataWorks 产品组里的 数据集成 提供了数据一次性搬移，以及周期性搬移的功能，搬移的细节可以在数据同步任务中设置。

一、数据源
1、来源数据源
申请RDS 上的MySQL就不多说了，此处的注意事项是，数据集成服务连接RDS MySQL数据库属于远程连接，需要添加连通允许的白名单，如下图所示设置：

参考链接：RDS数据源配置，如何添加RDS IP白名单

注意：白名单设置我这里很简单，设置为所有ip都可以访问，实际上数据集成服务需要的ip为：

2、目标数据源
MaxCompte后台用的存储是ODPS，在大数据开发套件里创建的任务默认会带一个ODPS的数据存储，所以需要新建一个project就新建了一个ODPS数据源。

二、任务配置
进入 数据集成，按照向导模式，将read数据源和write数据源都配置好。

配置来源：

配置目标：

配置字段映射：

预览配置并保存：

配置完成后，就可以运行任务了。点击“运行”会把当前配置好的数据源导入一次。
可以在 DataWorks 产品组中的 数据管理 中查看导入进来的数据表，如下图所示：

笔者尝试过两次导入，一次是几百行，很快完成，一次是大于1亿行，运行了好几个小时，所以要尝试的同学要注意一下，尝试流程时不要试太大的数据集，避免造成运算量过大。