DataWorks百问百答56:数据集成同步中的增量同步功能如何配置?

简介: 常见数据源增量同步技巧

背景

数据集成同步中的增量同步功能在现在很多用户日常的任务中占据的比例越来越多,意义很多时候比全量同步还大,但是很多用户在使用增量同时,遇到了不知道该如何配置参数的问题,面对纷繁复杂的数据库种类,每种类型都略有不同。下面就给您介绍一下使用不同数据库时可以使用的增量查询条件,干货满满,可以收藏保存。

数据源配置技巧

image.png
如图,具备增量同步的数据源都需要在数据过滤的地方填写对应的过滤语句,您可以通过数据表的时间列(比如gmt_modify、gmt_update)获取某一个时间范围内的增量数据(示例中为天增量${bizdate},您可以配合其他调度参数做小时增量),不同数据库的增量查询where条件略有区别。具体参考如下:

MySQL、DRDS、ADS、AnalyticDB for MySQL、PolarDB(MySQL引擎)、HybridDB for MySQL

STR_TO_DATE('${bizdate}', '%Y%m%d') <= 
增量时间列 AND 增量时间列 
< DATE_ADD(STR_TO_DATE('${bizdate}', '%Y%m%d'), interval 1 day)

Oracle、PostgreSQL

TO_DATE('${bizdate}', 'yyyymmdd') <= 
增量时间列 AND 增量时间列 
< TO_DATE('${bizdate}', 'yyyymmdd') + 1

SQL Server

CONVERT(datetime, '${bizdate}') <= 
增量时间列 AND 增量时间列 
< DATEADD(day, 1, CONVERT(datetime, '${bizdate}'))

调度配置关键步骤

配置好同步过滤参数后,对于调度也是要打好配合的,上面实例选择的按天进行过滤数据,那么同样的调度参数里我们也要设置为按天调度:
image.png

关键参数如下:

参数 含义
生成实例方式 【T+1次日生成】:任务发布后的第二天才会有对应的实例开始执行
【发布后即时生成】:如果任务发布的当前时间在允许调度执行的时间之前,那么立刻就生成实例,在调度时间到达后实例就会执行,否则不生成实例。
调度周期 设置按照“分、小时、日、周、月”这样的周期循环单位
具体时间 在设置完调度周期之后,设置每一个周期里具体调度的时间点

最后发布或者提交之后,在运维就可以看到实例了,然后每个循环周期都会对应的生成,并执行增量同步任务。

总结

一句话,在数据集成中的将过滤的增量数据设置,同调度的周期保持一致,即可以保证不遗漏任何增量,按期所有数据妥妥入库,您Get到了吗?

DataWorks百问百答历史记录 请点击这里查看>>

更多DataWorks技术和产品信息,欢迎加入【DataWorks钉钉交流群】

相关文章
|
4月前
|
XML 测试技术 API
利用C#开发ONVIF客户端和集成RTSP播放功能
利用C#开发ONVIF客户端和集成RTSP播放功能
1979 123
|
8月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
237 5
|
8月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
213 5
|
4月前
|
SQL 运维 关系型数据库
【产品升级】Dataphin V5.0版本发布:助力出海业务、增全量一体集成、异步调用API等更多功能等你发现
Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V5.0版本研发新增支持Databricks作为离线计算引擎、支持MySQL数据库一键增全量同步、支持管理Hudi、Delta Lake表等;资产运营与消费持续提效,支持批量编辑目录名称及描述、Quick BI仪表板的上架管理等功能,增加资产可用性与盘点效率。
297 8
|
11月前
|
存储 NoSQL 关系型数据库
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
836 2
|
5月前
|
存储 JSON 前端开发
Django集成图片验证码功能:基于django-simple-captcha实现
在Web应用开发中,验证码是防止恶意攻击、自动化脚本滥用的重要手段。本文将介绍如何使用django-simple-captcha库在Django项目中快速集成图片验证码功能,包括安装配置、核心实现代码及使用方法。
186 0
|
8月前
|
传感器 供应链 物联网
农业单亩价值创造功能技术集成的概念与内涵
农业单亩价值创造的技术集成,通过系统性创新打破传统单一模式,融合现代科技与生态理念,提升资源效率、经济效益和生态价值。其核心在于技术协同,实现精准农业、智能装备和生物强化等多维联动,推动经济、生态和社会价值统一。同时,注重资源集约化与循环化利用,延伸产业链并升级价值链,从短期高产转向长期可持续发展。政策与制度创新支撑技术普惠,未来需因地制宜解决技术适配性和成本收益平衡问题,重塑农业评价体系,实现高质量发展。
|
8月前
|
存储 分布式计算 供应链
Dataphin功能Tips系列(51)-支持增全量一体实时集成
本文介绍了基于增全量一体实时集成的库存管理与分析解决方案。通过将业务中台的库存表同步至MaxCompute Delta表,实现离线与实时分析的统一支持。相比传统方案,该方法确保数据一致性,优化存储成本,降低维护复杂度,并大幅提升实时性,满足高效库存管理需求。
185 5
|
7月前
|
监控 安全 Java
Java 开发中基于 Spring Boot 3.2 框架集成 MQTT 5.0 协议实现消息推送与订阅功能的技术方案解析
本文介绍基于Spring Boot 3.2集成MQTT 5.0的消息推送与订阅技术方案,涵盖核心技术栈选型(Spring Boot、Eclipse Paho、HiveMQ)、项目搭建与配置、消息发布与订阅服务实现,以及在智能家居控制系统中的应用实例。同时,详细探讨了安全增强(TLS/SSL)、性能优化(异步处理与背压控制)、测试监控及生产环境部署方案,为构建高可用、高性能的消息通信系统提供全面指导。附资源下载链接:[https://pan.quark.cn/s/14fcf913bae6](https://pan.quark.cn/s/14fcf913bae6)。
1480 0
|
8月前
|
资源调度 安全 数据安全/隐私保护
Cyber Triage 3.14 发布,带来全新用户界面、Hayabusa 集成、基线设定等功能
Cyber Triage 3.14 发布,带来全新用户界面、Hayabusa 集成、基线设定等功能
164 0
Cyber Triage 3.14 发布,带来全新用户界面、Hayabusa 集成、基线设定等功能

相关产品

  • 大数据开发治理平台 DataWorks