备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 文章正文

DataWorks数据集成离线增量同步配置讲解

2021-09-06 4646

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

大数据开发治理平台DataWorks，资源组抵扣包 750CU*H

简介： 本篇为熟能生巧系列19期的离线增量同步讲解部分，鉴于用户咨询需求，单独成一篇，方便大家阅览

我们以MySQL数据增量同步到MaxCompute（ODPS）为例。

首先示例中我们创建了一个MySQL的数据库以及示例表demo_wpw_addsync。

该表有3列，分别存储id、name和时间戳

表内现在有一条8月8日的数据，我们需要配置增量同步规则，将这条数据同步到Max Compute中。

接下来我们进入到DataWorks数据开发界面，使用Di节点配置数据集成同步任务。

可以看到“数据来源”我们配置了刚才的MySQL数据库，“数据去向”是我们的一个ODPS实例里一张名字相同的表，列字段和MySQL保持一致。这里重点是数据过滤的条件配置，这里我们配置了col3 >=’${bizdate} 00:00:00’ 。意思就是源端数据抽取时col3这列的值要大于等于我们配置的值，col3我们存的是数据的时间戳，bizdate是我们配置的一个参数变量。

3参数配置.png

点开调度配置我们可以看到参数这栏里我们配置bizdate = ${yyyy-mm-dd+1}，也就是取“业务时间+1”天，一般离线同步今天同步昨天的数据，示例中当天是8月8日，所以业务时间为8月7日，那么加一天就是8月8日了。

我们将任务提交后，可以去运维中心开发环境测试运行

右键点击节点后点测试

弹出来冒烟测试框，可以看到业务日期是8月7日，我们直接点确定新建实例运行测试

我们点击最新的实例，点击“查看日志”，可以查看执行日志

可以看到实际执行时变量bizdate解析成了8月8日

这样我们实际读取MySQL时，where条件就会解析成col3 >= ’2021-08-08 00:00:00’，也就是创建时时间戳大于8月8日0点的数据都会被读取

我们在DataWorks中可以查询ODPS表，可以看到MySQL中的这条数据已经同步过来了。当然，我们可以设置更加复杂的数据过滤条件，来满足实际使用的场景需要

比如上图中，我们在右侧“参数”配置中，定义了 bizdate、canshu2、bizdate2这三个参数，分别赋值‘${yyyy-mm-dd+1}’、‘$[hh24:mi:ss]’、‘${yyyy-mm-dd+2}’。

最终bizdate=20210808，canshu2= 00:29:00，bizdate2=20210809。这里canshu2取值是等于定时调度时间。

对调度参数不熟悉的用户，调度参数配置规则可以查看这篇文章：

https://developer.aliyun.com/article/784963

那么左侧的数据过滤条件就会解析成col3 >= ‘20210808 00:29:00’ and col3 <= ‘20210809 23:59:59’

也就是8月8日定时调度时间之后到8月9日最后一秒钟（8月10日前）的所有数据。

这里的条件依用户的使用场景定义即可。

增量同步的核心就是数据源存在一个DateTime类型的列，通过定义调度参数以及该列的过滤条件，来实现增量同步。实际任务执行时是每天一次，业务日期自动顺延，那bizdate解析出来的日期也会自动增加。

另外，实时同步的话大体都是增量同步的，需要注意的是配置一个重置位点

通常大家数据上云时会做一次全量同步后增量同步的配置，增量同步任务如果需要修改配置的话可以先暂停任务，记下任务暂停时间，然后重启任务时配置这个“重置位点”，取任务暂停时间，这样，实时同步任务会从重置位点向后同步数据，避免重复消费之前的数据。

DataWorks使用过程中有任何问题，欢迎加入我们的大群咨询：

https://developer.aliyun.com/article/740906

文章标签：

数据集成 Data Integration

大数据开发治理平台 DataWorks

云解析DNS

云数据库 RDS MySQL 版

云原生大数据计算服务 MaxCompute

数据采集

分布式计算

关系型数据库

运维

MySQL

数据库

调度

存储

MaxCompute

DataWorks

关键词：

集成增量同步

大数据开发治理平台 DataWorks增量

大数据开发治理平台 DataWorks集成增量同步

大数据开发治理平台 DataWorks集成

集成配置

dataworks_demo21

目录

相关文章

DataWorks@佳里

|

6月前

|

传感器人工智能自然语言处理

火热邀测！DataWorks数据集成支持大模型AI处理

阿里云DataWorks数据集成新增大模型AI处理功能，支持在数据同步中无缝调用通义千问等AI模型，实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景，大幅提升数据处理效率与洞察深度。用户可通过自然语言配置，快速完成高级数据分析与处理，无需额外部署调试。立即申请测试资格，体验智能化数据处理！

DataWorks@佳里

1305 4 4

火热邀测！DataWorks数据集成支持大模型AI处理

DataWorks@佳里

|

4月前

|

数据采集运维 DataWorks

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

智能驾驶数据预处理面临数据孤岛、任务爆炸与开发运维一体化三大挑战。DataWorks提供一站式的解决方案，支持千万级任务调度、多源数据集成及全链路数据开发，助力智能驾驶模型数据处理与模型训练高效落地。

DataWorks@佳里

495 0 0

瓴羊Dataphin

|

6月前

|

测试技术数据处理调度

Dataphin功能Tips系列（57）「预览」vs「运行」：离线集成的神奇按钮

在数据开发过程中，使用Dataphin处理离线集成任务时，可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能，可快速验证处理逻辑而不影响目标表；对于需要调度的任务，担心资源占用和耗时超出预期时，可使用「运行」功能进行全流程测试，评估实际耗时与资源消耗。「预览」适合逻辑验证，「运行」用于真实环境模拟，两者结合助力高效开发与调试。

瓴羊Dataphin

178 5 5

瓴羊Dataphin

|

6月前

|

SQL Java 关系型数据库

Dataphin功能Tips系列（53)-离线集成任务如何合理配置JVM资源

本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。

瓴羊Dataphin

167 5 5

DataWorks@佳里

|

7月前

|

人工智能自然语言处理 DataWorks

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型，数据开发与分析效率再升级！

阿里云DataWorks平台正式接入Qwen3模型，支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型，以自然语言交互实现代码生成、优化、解释及纠错等功能，大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型，具备混合专家（MoE）和稠密（Dense）架构，适应多种应用场景，并支持MCP协议优化复杂任务处理。目前，用户可通过DataWorks Data Studio新版本体验此功能。

DataWorks@佳里

588 23 23

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型，数据开发与分析效率再升级！

瓴羊Dataphin

|

8月前

|

关系型数据库 MySQL 数据库

Dataphin功能Tips系列（50）-离线集成输入端支持mysql数据源分库分表

离线集成输入端支持mysql数据源分库分表

瓴羊Dataphin

318 11 11

技术小达人

|

8月前

|

SQL 弹性计算 DataWorks

Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践

技术小达人

399 6 6

实时数仓Hologres团队

|

8月前

|

DataWorks 关系型数据库 Serverless

DataWorks数据集成同步至Hologres能力介绍

本文由DataWorks PD王喆分享，介绍DataWorks数据集成同步至Hologres的能力。DataWorks提供低成本、高效率的全场景数据同步方案，支持离线与实时同步。通过Serverless资源组，实现灵活付费与动态扩缩容，提升隔离性和安全性。文章还详细演示了MySQL和ClickHouse整库同步至Hologres的过程。

实时数仓Hologres团队

284 0 0

瓴羊Dataphin

|

8月前

|

SQL 分布式计算关系型数据库

Dataphin功能Tips系列（32）-离线集成之增量追加

离线集成之增量追加

瓴羊Dataphin

202 0 0

番茄酱脑袋

|

数据采集 DataWorks 监控

DataWorks产品使用合集之数据集成并发数不支持批量修改，该怎么办

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

番茄酱脑袋

184 0 0

大数据与机器学习

大数据开发治理DataWorks

热门文章

最新文章

云上一指禅：大数据产品DataWorks每日问答

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

DataWorks售前咨询

语雀+通义千问+DataWorks，让AI定期推送每周总结

基于DataWorks搭建新零售数据中台

DataWorks数据服务介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》

DataWorks百问百答69：有哪些数据集成报错（数据集成报错归类）？

DataWorks Copilot：让你的数据质量覆盖率一键飞升！

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

数据开发再提速！DataWorks正式接入Qwen3-Coder

DataWorks 千万级任务调度与全链路集成开发治理赋能智能驾驶技术突破

使用sql转换身份证15位-18位

使用DataWorks PyODPS节点调用XGBoost算法

DataWorks x 婚礼纪：智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

火热邀测！DataWorks数据集成支持大模型AI处理

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型，数据开发与分析效率再升级！

Qwen3 X DataWorks ：为数据开发与分析加满Buff !

Qwen3 X DataWorks ：给你的数据开发与分析加满Buff！

智能体Agent解析：用自然语言重构数据开发工作方式

相关产品

大数据开发治理平台 DataWorks

文档详情产品详情

相关课程

更多

阿里云 DTS是如何做实时数据集成的？

事件总线EventBridge生态集成课程

消息队列 RocketMQ 消息集成

相关电子书

更多

Flink CDC：新一代数据集成框架

DataWorks数据集成实时同步最佳实践（含内测邀请）-2020飞天大数据平台实战应用第一季

《DataWorks 数据集成实时同步》

相关实验场景

更多

AnalyticDB Zero-ETL：简单易用零成本的一站式数据分析

下一篇

oss云网关配置