开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

datawork支持指定时间范围离线增量同步kafka数据吗?

datawork支持指定时间范围离线增量同步kafka数据吗?

展开
收起
真的很搞笑 2024-01-14 19:45:33 40 0
2 条回答
写回答
取消 提交回答
  • 可以看下kafka 数据源文档哈 有对应的说明 https://help.aliyun.com/zh/dataworks/user-guide/supported-data-source-types-and-read-and-write-operations ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2024-01-15 07:46:37
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks支持离线增量同步Kafka数据,并且可以指定时间范围进行同步。您可以在数据集成任务中配置Kafka作为数据源,并使用独享数据集成资源组。当设置读取Kafka配置的endDateTime时,就指定了所要同步的数据的截止范围。

    不过需要注意的是,对于版本低于0.10.2的Kafka,由于其不支持检索分区数据offset,以及可能不支持时间戳,因此无法支持数据同步。此外,增量同步的核心是数据源存在一个DateTime类型的列,通过定义调度参数以及该列的过滤条件,来实现增量同步。如果需要修改配置,可以先暂停任务,记下任务暂停时间,然后重启任务时配置这个“重置位点”,取任务暂停时间,这样,实时同步任务会从重置位点向后同步数据,避免重复消费之前的数据。

    2024-01-14 19:48:43
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

热门讨论

热门文章

相关电子书

更多
Java Spring Boot开发实战系列课程【第16讲】:Spring Boot 2.0 实战Apache Kafka百万级高并发消息中间件与原理解析 立即下载
MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute 立即下载
消息队列kafka介绍 立即下载