DataWorks数据集成离线增量同步配置讲解

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 本篇为熟能生巧系列19期的离线增量同步讲解部分,鉴于用户咨询需求,单独成一篇,方便大家阅览

我们以MySQL数据增量同步到MaxCompute(ODPS)为例。

首先示例中我们创建了一个MySQL的数据库以及示例表demo_wpw_addsync。

该表有3列,分别存储id、name和时间戳

1.png

表内现在有一条8月8日的数据,我们需要配置增量同步规则,将这条数据同步到Max Compute中。

接下来我们进入到DataWorks数据开发界面,使用Di节点配置数据集成同步任务。

2.png

可以看到“数据来源”我们配置了刚才的MySQL数据库,“数据去向”是我们的一个ODPS实例里一张名字相同的表,列字段和MySQL保持一致。这里重点是数据过滤的条件配置,这里我们配置了col3 >=’${bizdate} 00:00:00’ 。意思就是源端数据抽取时col3这列的值要大于等于我们配置的值,col3我们存的是数据的时间戳,bizdate是我们配置的一个参数变量。

3参数配置.png

点开调度配置我们可以看到参数这栏里我们配置bizdate = ${yyyy-mm-dd+1},也就是取“业务时间+1”天,一般离线同步今天同步昨天的数据,示例中当天是8月8日,所以业务时间为8月7日,那么加一天就是8月8日了。

我们将任务提交后,可以去运维中心开发环境测试运行

4.png

右键点击节点后点测试

5.png

弹出来冒烟测试框,可以看到业务日期是8月7日,我们直接点确定新建实例运行测试


6.png

我们点击最新的实例,点击“查看日志”,可以查看执行日志

7.png

可以看到实际执行时变量bizdate解析成了8月8日


8.png

这样我们实际读取MySQL时,where条件就会解析成col3 >= ’2021-08-08 00:00:00’,也就是创建时时间戳大于8月8日0点的数据都会被读取


9.png


我们在DataWorks中可以查询ODPS表,可以看到MySQL中的这条数据已经同步过来了。当然,我们可以设置更加复杂的数据过滤条件,来满足实际使用的场景需要


10.png

比如上图中,我们在右侧“参数”配置中,定义了 bizdate、canshu2、bizdate2这三个参数,分别赋值‘${yyyy-mm-dd+1}’、‘$[hh24:mi:ss]’、‘${yyyy-mm-dd+2}’。

最终bizdate=20210808,canshu2= 00:29:00,bizdate2=20210809。这里canshu2取值是等于定时调度时间。


对调度参数不熟悉的用户,调度参数配置规则可以查看这篇文章:

https://developer.aliyun.com/article/784963


那么左侧的数据过滤条件就会解析成col3 >= ‘20210808 00:29:00’ and col3 <= ‘20210809 23:59:59’

也就是8月8日定时调度时间之后到8月9日最后一秒钟(8月10日前)的所有数据。

这里的条件依用户的使用场景定义即可。


增量同步的核心就是数据源存在一个DateTime类型的列,通过定义调度参数以及该列的过滤条件,来实现增量同步。实际任务执行时是每天一次,业务日期自动顺延,那bizdate解析出来的日期也会自动增加。


另外,实时同步的话大体都是增量同步的,需要注意的是配置一个重置位点

11.png

通常大家数据上云时会做一次全量同步后增量同步的配置,增量同步任务如果需要修改配置的话可以先暂停任务,记下任务暂停时间,然后重启任务时配置这个“重置位点”,取任务暂停时间,这样,实时同步任务会从重置位点向后同步数据,避免重复消费之前的数据。


DataWorks使用过程中有任何问题,欢迎加入我们的大群咨询:

https://developer.aliyun.com/article/740906






相关文章
|
5天前
|
DataWorks 关系型数据库 Serverless
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
35 12
|
1月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
3月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
161 1
|
3月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
151 3
|
3月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
2月前
|
消息中间件 监控 Java
您是否已集成 Spring Boot 与 ActiveMQ?
您是否已集成 Spring Boot 与 ActiveMQ?
67 0
|
6月前
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
338 6
|
6月前
|
Java 关系型数据库 MySQL
如何实现Springboot+camunda+mysql的集成
【7月更文挑战第2天】集成Spring Boot、Camunda和MySQL的简要步骤: 1. 初始化Spring Boot项目,添加Camunda和MySQL驱动依赖。 2. 配置`application.properties`,包括数据库URL、用户名和密码。 3. 设置Camunda引擎属性,指定数据源。 4. 引入流程定义文件(如`.bpmn`)。 5. 创建服务处理流程操作,创建控制器接收请求。 6. Camunda自动在数据库创建表结构。 7. 启动应用,测试流程启动,如通过服务和控制器开始流程实例。 示例代码包括服务类启动流程实例及控制器接口。实际集成需按业务需求调整。
466 4
|
6月前
|
消息中间件 Java 测试技术
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
439 1
|
7月前
|
消息中间件 Java Kafka
springboot集成kafka
springboot集成kafka
202 2

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks