开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks数据集成实时同步任务是什么?

dataworks数据集成实时同步任务是什么?

展开
收起
游客uu65yiq7myioi 2023-02-07 13:25:26 225 0
2 条回答
写回答
取消 提交回答
  • DataWorks数据集成实时同步任务是指DataWorks可以实时将源表中的数据同步到目标表中,以实现实时数据集成。DataWorks实时同步任务可以有效提高数据集成的效率,减少数据集成的时间。

    2023-02-09 10:05:59
    赞同 展开评论 打赏
  • DataWorks数据集成实时同步任务,目前对于Oracle主库支持订阅联机重做日志(Online Redo),对于Oracle备库仅支持订阅归档日志。因此,对于时效性要求比较高的实时同步任务,建议订阅主库的实时增量变更。订阅Oracle备库时,Oracle日志的产生到可以被获取的最短延迟时间取决于Oracle的自动切换归档日志的时间,不能保证时效性。Oracle数据库的归档日志建议保留3天。当写入大批量数据至Oracle数据库时,实时同步数据的速度可能会慢于日志生成的速度,方便在同步任务出现问题时,为追溯数据预留足够的时间。您可以通过分析归档日志排查问题并恢复数据。DataWorks数据集成实时同步任务,不支持对Oracle数据库中无主键的表进行truncate操作。对于无主键表进行日志分析(即logminer操作)是根据Rowid进行回查,当遇到truncate操作时会修改原表的Rowid,该操作会导致同步任务运行报错。 在规格为24 vCPU 192 GiB的DataWorks上运行实时同步任务时,如果非update等操作日志较多,并且速度达到约每秒记录3~5W条数据的极限速度,则Oracle服务器的单核CPU使用率最高可以达到25%~35%;如果处理update等操作日志,则处理实时同步消息的DataWorks机器可能会存在性能瓶颈,Oracle服务器的单核CPU使用率仅可以达到1%~5%。——该回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-02-07 17:10:27
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载