4. 配置任务
1) 创建同步任务
l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存
在业务流程或新建业务流程。
l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线
同步”节点。
l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则
和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks
的调度系统参数。切分键用于并发同步时数据分片使用,为提升效率建议使
用主键或索引键,支持类型为数值型。设置完毕后可以点击“数据预览”键
查看预览数据。
l 设置数据去向:设置数据源类型、数据源名称(MaxCompute 数据类型可
以使用绑定引擎时默认建立的 odps_first 数据源)和目标表等参数。
Ø 目标表支持从下拉列表中选择,也支持使用“一键生成目标表”根据源
表 schema 新建目标表(注:一键生成目标表功能自动生成的 SQL 仅为基
础 SQL,用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗
口)。
Ø 数据写入支持 Insert Overwrite(清理写入前数据)和 Insert Into(保留
写入前数据)两种模式。
Ø 源表数据为空字符串时,支持两种处理模式。
l 配置字段的映射关系:选择数据来源和数据去向后,需要指定读取端和写入
端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。
l 配置通道控制:配置完成上述操作后,请进行通道控制。
2) 配置数据集成资源组
点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上,可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组,需要保证源端和目标端数据源,和新建的数数据集成资源组连通性测试正常。
3) 配置调度属性
离线同步节点中,经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略,设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。