4. 任务配置
1) 创建同步任务
在 DataWorks 管控台进入数据集成主站,点击同步任务,新建任务。
选择分库分表实时同步至 MaxCompute 解决方案。
2) 配置同步网络连接
在数据来源中选择多个数据源,作为分库分表解决方案的数据来源,点击各个数据来源可以收缩、展开。其中多个数据源必须保持类型一致,比如都是 MySQL 数据源。
本步骤要求所选用的数据源和资源组具有网络连通性。
3) 设置任务名称
方案名称需要仅限输入英文数字下划线,描述信息填写限制相对宽泛。
4) 分库源表配置
分库分表解决方案同步的最小单位是逻辑表,一个逻辑表对应一套物理库表规则、一个目标 base 表。
自动生成逻辑表的功能,可以大大简化逻辑表的配置步骤,一般情况下,我们都可以使用自动生成逻辑表来扫描源端数据源,简化大部分配置操作。
如果自动扫描的结果不符合预期,只需要对自动扫描的结果做简单修正即可。
复杂的物理库表规则可以使用手动配置逻辑表功能实现。
5) 自动生成逻辑表
单击该步骤中的“自动生成逻辑表”按钮。
在数据源列表中选择部分数据源,用作生成逻辑表的扫描数据源。
假设我使用 2 个预设规则生成逻辑表:
l 将来源表名仅后缀数字不同的表合并为目标表。
l 直接将来源表名相同的表合并为目标表。
在一个有这些表的数据源执行自动生成:
l order_0
l order_1
l order_2
l user
l address
运行上述规则,可以算出 3 个目标表,其名称和正则分别是:
《全链路数据治理-全域数据集成》——六、分库表至 MaxCompute 实践——4.任务配置(中):https://developer.aliyun.com/article/1222934