开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DataWorks中单表实时同步只能是增量同步,不支持对历史数据某个字段的更新吗?

DataWorks中单表实时同步只能是增量同步,不支持对历史数据某个字段的更新吗?

展开
收起
提个问题 2023-07-10 14:04:02 223 0
4 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在DataWorks中,单表实时同步默认是增量同步,即只能同步新增的记录。但是,DataWorks也提供了一些解决方案,可以实现对历史数据某个字段的更新同步,例如:

    使用ODPS SQL语句实现全量同步:可以使用ODPS的SQL语句实现全量同步,即将源表和目标表进行关联,并将源表中的历史数据更新到目标表中。在进行全量同步时,需要注意避免数据重复和数据不一致的问题。

    使用DataWorks的数据集成服务实现全量同步:DataWorks提供了一套完整的数据集成服务,包括数据同步、数据转换、数据处理等功能。可以使用DataWorks的数据集成服务实现全量同步,即将源表中的历史数据同步到目标表中。在进行全量同步时,需要对数据进行去重和合并,以确保数据的一致性。

    2023-07-30 22:06:47
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    阿里云DataWorks数据集成是DataX团队在阿里云上的商业化产品,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,以及繁杂业务背景下的数据同步解决方案。目前已经支持云上近3000家客户,单日同步数据超过3万亿条。DataWorks数据集成目前支持离线50+种数据源,可以进行整库迁移、批量上云、增量同步、分库分表等各类同步解决方案。

    2020年更新实时同步能力,支持10+种数据源的读写任意组合。提供MySQL,Oracle等多种数据源到阿里云MaxCompute,Hologres等大数据引擎的一键全增量同步解决方案。

    DataWorks内部划分为7个模块,最下面是数据集成,可以完成各种该模式的数据同步,数据集成之上,是元数据中心,提供统一的元数据服务,任务调度中心可以执行任务调度服务,数据开发方面,不同的存储引擎,比如实时计算和离线计算,其有着不同的开发模式,DataWorks支持离线开发和实时开发。

    同时DataWorks拥有一套综合数据治理的解决方案,会有一个数据服务模块,统一向上提供数据服务,对接各种数据应用。最后将DataWorks各种能力统一通过OpenAPI对外提供服务。

    数据集成模块是可以单独对用户提供服务,单独使用的,并不需要了解和掌握所有DataWorks模块就可以将数据同步作业配置运行起来。

    2023-07-10 16:20:07
    赞同 1 展开评论 打赏
  • 在DataWorks中,单表实时同步主要用于增量同步数据,即将源表的新增记录实时同步到目标表。因此,对于历史数据某个字段的更新,单表实时同步并不直接支持。

    如果您需要对历史数据的某个字段进行更新操作,可以考虑以下两种解决方案:

    1. 批量更新:使用DataWorks提供的离线批量同步功能,在目标表中执行批量更新操作。您可以通过创建一个离线节点,利用SQL或者其他ETL工具来完成对历史数据的更新操作。

    2. 增量同步+更新逻辑:在单表实时同步的基础上,结合自定义的更新逻辑来实现对历史数据字段的更新。可以在同步任务的增量处理逻辑中,根据业务需求对历史数据进行判断和处理,实现字段的更新操作。

    2023-07-10 14:55:38
    赞同 展开评论 打赏
  • 是的 因为mc本身没有主键的概念 也不支持更新写入 ,所以一键实时同步到mc这个方案提供了T+1的merge,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-10 14:12:12
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载