数据同步节点任务是阿里云大数据平台对外提供的稳定高效、弹性伸缩的数据同步云服务。DRDS到ODPS数据迁移采用CDP的方式同步数据。
开始DRDS到ODPS数据迁移
1. 创建源和目标库表结构
初次在同步数据前需要在源库和目标库创建好相应的表结构。
2. 配置数据源
2.1源数据源配置-DRDS
1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。
2.进入数据源配置,单击新增数据源。
3. 在新建数据源弹出框中,选择数据源类型为DRDS;
配置项说明(上图中带*的都必须输入相应的信息):
l 数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。
l 数据源描述:对数据源进行简单描述,不得超过80个字符。
l 数据源类型:当前选择的数据源类型DRDS。
l jdbcUrl:JDBC连接信息,格式为:jdbc://mysql://serverIP:Port/database。
l 用户名/密码:DRDS库对应的用户名和密码。
4. 单击测试连通性。
5. 测试连通性通过后,单击确定。
2.2目标数据源配置-ODPS
1.登录Base管控台,单击顶部菜单栏中的项目管理,并选择相应的项目。
2. 进入数据源配置,单击新增数据源。
3. 在新建数据源弹出框中,选择数据源类型为 ODPS。
配置项说明(上图中带*的都必须输入相应的信息):
l 数据源名称:由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过60个字符。
l 数据源描述:对数据源进行简单描述,不得超过80个字符。
l 数据源类型:当前选择的数据源类型ODPS。
l ODPS Endpoint:默认只读。从系统配置中自动读取。
l ODPS项目名称:与计算引擎配置中的ODPS项目名称相同。
l AccessID/AceessKey:访问密钥 AccessKey(AK) 相当于登录密码。
4. 单击测试连通性。
5. 测试连通性通过后,单击确定。
3.创建同步任务
1.  新建数据同步节点,如下图所示:
新建任务配置项说明(带*项都需要输入或选择):
名称: 起一个好识别的名称,符合命名规则即可;
任务类型为工作流任务可一次性调度或周期调度,节点任务只能是周期调度;
类型:选择数据同步;
选择目录:根据任务开发,选择您所使用的文件夹中要同步的任务。
2.
选择数据来源和目标
其中:数据来源指的是数据源,数据流向指的是目标数据源。
3. 字段配置
当源表和目标表结构一致时源和目标表字段默认是一一对应的关系,不用做任何设置。如下图所示:
4.抽取控制和加载控制
• 抽取控制
全量迁移数据过滤为空,增量同步时需要增加时间过滤条件。
• 加载控制
清理规则需要根据数据要求配置,默认是写入前清理已有数据。
写入前清理已有数据写入前保留已有数据
5.流量与出错控制
作业速率上限是指数据同步作业可能达到的最高速率,其最终实际速率受网络环境、数据库配置等影响。
4.任务调度
新建任务创建好保存后,会默认产生一个周期调度任务,默认的时间是每天晚上00:00执行。客户也可根据实际的同步场景进行时间调整配置。下图所示是默认的配置:
默认的依赖属性:
依赖属性中可以配置任务的上游依赖,表示即使当前任务的实例已经到定时时间,也必须等待上游任务的实例运行完毕才会触发运行。
如果没有配置上游任务,则当前任务默认由项目本身触发运行,故在调度系统中,该任务的上游默认为 project_start 任务。每一个项目中默认会创建一个 project_start 任务作为根任务。
5.运行及日志排查
5.1测试运行
1.单击工作流页面中的测试运行按钮,如下图所示:
2. 根据跳转页面的提示,单击确认和运行;
3.单击前往运维中心查看任务运行状态和运行日志,如下图所示:
说明:
测试运行是手动触发任务执行,任务调度的时间到了,就自动运行,无视实例的上游依赖关系。
若测试运行只需要运行一次,测试运行完成后需要在调度状态前打勾暂停掉此任务。