开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据集成,源表无时间属性,应该怎么实现离线增量同步

875问.png

展开
收起
游客3oewgrzrf6o5c 2022-07-04 16:38:21 429 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,如果源表没有时间属性,就无法通过时间戳增量同步实现增量同步了,可以通过以下步骤实现离线增量同步:

    1. 创建一个增量标识表,记录每次同步的最大ID或者最后一次同步的时间,作为增量同步的依据。
    2. 利用DataWorks的Data Integration实现全量抽取源表的数据,然后将数据写入目标表。
    3. 针对增量标识表,使用DataWorks的Data Integration创建同步任务,根据增量标识表中记录的最大ID或最后同步时间抽取源表增量数据,然后将增量数据写入目标表。

    这种方式虽然不是实时同步,但是可以实现增量同步效果,并且可以通过调整抽取频率来满足数据粒度的需求。

    2023-08-22 17:00:49
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载