开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks中如何实现增量数据的同步?

dataworks中如何实现增量数据的同步?

展开
收起
爱喝咖啡嘿 2022-12-09 17:58:39 200 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    根据需要同步的数据在写入后是否发生变化,分为恒定的存量数据(通常是日志数据)和持续更新的数据(例如人员表中,人员的状态会发生变化)。 (一个任务多次运行的结果一致,则该任务支持重跑调度。如果该任务出现错误,脏数据较容易清理),每次导入数据都是导入至一张单独的表或分区中,或者覆盖历史记录。 调度参数将根据任务运行的业务时间实现参数值的动态替换,实现每日数据增量同步,将每日MySQL增量数据写入到MaxCompute表对应分区中。 由于数据生成后不会发生变化,因此可以很方便地根据数据的生成规律进行分区。较常见的是根据日期进行分区,例如每天1个分区。 建议每天对人员表、订单表等会发生变化的数据进行全量同步,即每天保存的都是全量数据,方便您获取历史数据和当前数据。

    2022-12-10 15:35:17
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    低代码开发师(初级)实战教程 立即下载
    冬季实战营第三期:MySQL数据库进阶实战 立即下载
    阿里巴巴DevOps 最佳实践手册 立即下载