带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务


1) 创建同步任务


l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存

在业务流程或新建业务流程。

image.png

l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线

同步”节点。

image.png

l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则

和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks

的调度系统参数。切分键用于并发同步时数据分片使用,为提升效率建议使

用主键或索引键,支持类型为数值型。设置完毕后可以点击“数据预览”键

查看预览数据。

image.png

l 设置数据去向:设置数据源类型、数据源名称(MaxCompute 数据类型可

以使用绑定引擎时默认建立的 odps_first 数据源)和目标表等参数。

Ø 目标表支持从下拉列表中选择,也支持使用“一键生成目标表”根据源

表 schema 新建目标表(注:一键生成目标表功能自动生成的 SQL 仅为基

础 SQL,用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗

口)。

Ø 数据写入支持 Insert Overwrite(清理写入前数据)和 Insert Into(保留

写入前数据)两种模式。

Ø 源表数据为空字符串时,支持两种处理模式。

image.png

l 配置字段的映射关系:选择数据来源和数据去向后,需要指定读取端和写入

端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。

image.png

image.png


l 配置通道控制:配置完成上述操作后,请进行通道控制。

image.png

image.png


2) 配置数据集成资源组

点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上,可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组,需要保证源端和目标端数据源,和新建的数数据集成资源组连通性测试正常。

image.png


3) 配置调度属性

离线同步节点中,经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略,设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。

image.png

相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
3天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
41 7
|
3天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
13 2
|
16天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1
|
10天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
24 3
|
10天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
39 2
|
13天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
45 2
|
15天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
48 2
|
17天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
21天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
47 2

热门文章

最新文章