开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks数据集成实时同步任务?

dataworks数据集成实时同步任务?

展开
收起
真的很搞笑 2023-10-17 10:46:06 28 0
4 条回答
写回答
取消 提交回答
  • DataWorks数据集成实时同步任务,目前对于Oracle主库支持订阅联机重做日志(Online Redo),对于Oracle备库仅支持订阅归档日志。因此,对于时效性要求比较高的实时同步任务,建议订阅主库的实时增量变更。订阅Oracle备库时,Oracle日志的产生到可以被获取的最短延迟时间取决于Oracle的自动切换归档日志的时间,不能保证时效性。Oracle数据库的归档日志建议保留3天。当写入大批量数据至Oracle数据库时,实时同步数据的速度可能会慢于日志生成的速度,方便在同步任务出现问题时,为追溯数据预留足够的时间。您可以通过分析归档日志排查问题并恢复数据。DataWorks数据集成实时同步任务,不支持对Oracle数据库中无主键的表进行truncate操作。对于无主键表进行日志分析(即logminer操作)是根据Rowid进行回查,当遇到truncate操作时会修改原表的Rowid,该操作会导致同步任务运行报错。
    在规格为24 vCPU 192 GiB的DataWorks上运行实时同步任务时,如果非update等操作日志较多,并且速度达到约每秒记录3~5W条数据的极限速度,则Oracle服务器的单核CPU使用率最高可以达到25%~35%;如果处理update等操作日志,则处理实时同步消息的DataWorks机器可能会存在性能瓶颈,Oracle服务器的单核CPU使用率仅可以达到1%~5%。
    https://help.aliyun.com/document_detail/203578.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-18 17:54:51
    赞同 展开评论 打赏
  • 月移花影,暗香浮动

    在DataWorks中,实时同步任务的创建和配置可以通过以下步骤完成:

    1. 首先,准备并配置好数据源、网络以及所需资源。
    2. 接着,创建实时同步节点,将多种输入及输出数据源搭配组成同步链路。
    3. 设置同步来源与规则,包括选择同步的表或库、指定同步类型(全量或增量)、设置过滤条件等。
    4. 然后,定义目标表,包括选择目标数据库、表名等。
    5. 对于DDL消息处理策略进行设定。
    6. 最后,设置任务运行资源,包括选择运行环境、配置调度周期等。

    若选择使用一键实时同步方案,该方案将分别创建用于同步全量数据的离线同步任务,和用于同步增量数据的实时同步任务。您需要在运行资源设置界面分别配置离线同步任务的及实时同步任务的相关属性。

    2023-10-17 14:20:32
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据集成提供了实时同步任务功能,可以将MySQL全增量数据一体化同步至MaxCompute表中。具体步骤如下:

    1. 登录DataWorks控制台,并进入MaxCompute开发环境。
    2. 点击“数据源管理”,选择需要同步的MySQL数据源。
    3. 点击“新建同步任务”,选择需要同步的MySQL表和MaxCompute表,配置同步方式和时间间隔。
    4. 点击“保存并执行”,执行同步任务,将MySQL全增量数据一体化同步至MaxCompute表中。
    2023-10-17 13:30:03
    赞同 展开评论 打赏
  • 通过OpenAPI创建、修改、删除离线同步任务https://help.aliyun.com/zh/dataworks/user-guide/use-api-operations-to-perform-operations-related-to-a-batch-synchronization-node?spm=a2c4g.11186623.0.0.35d5314d7Zdav3

    本文为您介绍如何使用OpenAPI创建、修改、删除数据集成同步任务,同步来源端数据至去向端。

    前提条件
    已创建Maven项目,详情请参见创建Maven项目。
    已创建业务流程,详情请参见创建周期业务流程。
    已创建同步任务需要的数据源,详情请参见配置数据源。
    使用限制
    DataWorks当前仅支持使用OpenAPI创建数据集成离线同步任务。
    调用CreateDISyncTask创建数据集成同步任务,仅支持使用脚本模式配置同步任务内容,详情请参见通过脚本模式配置离线同步任务。
    DataWorks暂不支持使用OpenAPI创建业务流程,您需要使用现有的业务流程创建数据同步任务。

    2023-10-17 11:29:20
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多