带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务


1) 创建同步任务


l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存

在业务流程或新建业务流程。

image.png

l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线

同步”节点。

image.png

l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则

和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks

的调度系统参数。切分键用于并发同步时数据分片使用,为提升效率建议使

用主键或索引键,支持类型为数值型。设置完毕后可以点击“数据预览”键

查看预览数据。

image.png

l 设置数据去向:设置数据源类型、数据源名称(MaxCompute 数据类型可

以使用绑定引擎时默认建立的 odps_first 数据源)和目标表等参数。

Ø 目标表支持从下拉列表中选择,也支持使用“一键生成目标表”根据源

表 schema 新建目标表(注:一键生成目标表功能自动生成的 SQL 仅为基

础 SQL,用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗

口)。

Ø 数据写入支持 Insert Overwrite(清理写入前数据)和 Insert Into(保留

写入前数据)两种模式。

Ø 源表数据为空字符串时,支持两种处理模式。

image.png

l 配置字段的映射关系:选择数据来源和数据去向后,需要指定读取端和写入

端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。

image.png

image.png


l 配置通道控制:配置完成上述操作后,请进行通道控制。

image.png

image.png


2) 配置数据集成资源组

点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上,可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组,需要保证源端和目标端数据源,和新建的数数据集成资源组连通性测试正常。

image.png


3) 配置调度属性

离线同步节点中,经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略,设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。

image.png

目录
打赏
0
0
1
0
52
分享
相关文章
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
285 92
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
数据让农业更聪明——用大数据激活田间地头
数据让农业更聪明——用大数据激活田间地头
36 2
数据的“潘多拉魔盒”:大数据伦理的深度思考
数据的“潘多拉魔盒”:大数据伦理的深度思考
95 25
无缝集成 MySQL,解锁秒级 OLAP 分析性能极限,完成任务可领取三合一数据线!
通过 AnalyticDB MySQL 版、DMS、DTS 和 RDS MySQL 版协同工作,解决大规模业务数据统计难题,参与活动完成任务即可领取三合一数据线(限量200个),还有机会抽取蓝牙音箱大奖!
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
数据大爆炸:解析大数据的起源及其对未来的启示
数据大爆炸:解析大数据的起源及其对未来的启示
194 15
数据大爆炸:解析大数据的起源及其对未来的启示

热门文章

最新文章