带你读《全链路数据治理-全域数据集成》之25：4. 配置任务

2023-05-22 245 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

大数据开发治理平台DataWorks，资源组抵扣包 750CU*H

简介： 带你读《全链路数据治理-全域数据集成》之25：4. 配置任务

4. 配置任务

1) 创建同步任务

l 新建业务流程：进入 DataWorks DataStudio（数据开发）页面，选中已存

在业务流程或新建业务流程。

l 创建离线同步节点：选中离线任务所属的业务流程，单击右键，新建“离线

同步”节点。

l 设置数据来源：设置数据源类型、数据源名称、待同步源表、数据过滤规则

和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks

的调度系统参数。切分键用于并发同步时数据分片使用，为提升效率建议使

用主键或索引键，支持类型为数值型。设置完毕后可以点击“数据预览”键

查看预览数据。

l 设置数据去向：设置数据源类型、数据源名称（MaxCompute 数据类型可

以使用绑定引擎时默认建立的 odps_first 数据源）和目标表等参数。

Ø 目标表支持从下拉列表中选择，也支持使用“一键生成目标表”根据源

表 schema 新建目标表（注：一键生成目标表功能自动生成的 SQL 仅为基

础 SQL，用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗

口）。

Ø 数据写入支持 Insert Overwrite（清理写入前数据）和 Insert Into（保留

写入前数据）两种模式。

Ø 源表数据为空字符串时，支持两种处理模式。

l 配置字段的映射关系：选择数据来源和数据去向后，需要指定读取端和写入

端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。

l 配置通道控制：配置完成上述操作后，请进行通道控制。

2) 配置数据集成资源组

点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上，可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组，需要保证源端和目标端数据源，和新建的数数据集成资源组连通性测试正常。

3) 配置调度属性

离线同步节点中，经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略，设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。

带你读《全链路数据治理-全域数据集成》之25：4. 配置任务

4. 配置任务

1) 创建同步任务

2) 配置数据集成资源组

3) 配置调度属性

大数据开发治理DataWorks

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

带你读《全链路数据治理-全域数据集成》之25：4. 配置任务

4. 配置任务

1) 创建同步任务

2) 配置数据集成资源组

3) 配置调度属性

大数据开发治理DataWorks

热门文章

最新文章

相关课程

相关电子书

相关实验场景