开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks最近感觉离线同步的任务执行时间比之前长很多,速度也慢了很多,什么原因呢?

DataWorks最近感觉离线同步的任务执行时间比之前长很多,速度也慢了很多,什么原因呢?凌晨资源使用率快到100%了,请问什么问题呢,同不数量没变,同步任务没变?image.png
买的独享调度资源,在凌晨1点到4点,峰值最高,经常会有失败调度

展开
收起
cuicuicuic 2023-10-15 20:02:55 43 0
3 条回答
写回答
取消 提交回答
  • 月移花影,暗香浮动

    DataWorks离线同步任务执行时间变长、速度变慢的可能原因如下:

    数据量过大。源表中的每个数据行都需要被抽取、转换和加载,数据量的增大将导致同步任务执行时间增长。
    源表复杂 join 操作。如果源表中需要进行复杂的 join 操作,会使同步任务执行变慢,处理时间大大增加。
    源表存在较多不必要的字段。如果源表中有很多字段,但只有一部分(或可能只有一个字段)是需要被同步到目标表上的,那么同步任务执行的速度会变慢。
    同步过程中存在空记录。如果同步任务中存在大量的空记录,这将影响数据处理的速度。
    目标表维护不当。如果目标表过于复杂,或表结构不合理,也会导致同步任务执行缓慢。
    并发度设置不当。数据同步策略的并发度设置不当,一般情况下,过于频繁的进行增量同步可能会导致同步任务执行缓慢。
    网络连接问题。如果目标服务器和源服务器之间的网络出现问题,将会影响同步任务的执行速度。
    数据迁移时数据类型不匹配。如果源表和目标表数据结构类型不匹配,导致数据在迁移的过程中需要进行转换和处理,从而导致同步任务变慢。
    过多的ETL转换。在数据处理的过程中存在多次的数据转化和处理,可能会导致处理时间过长。

    2023-10-16 16:41:13
    赞同 展开评论 打赏
  • 对的 是脚本模式的,一个运行中的任务 占用一个并发 凌晨任务同时执行的个数到达了资源组并发的上限 任务慢也有可能导致水位高的时间持续久,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-15 23:01:11
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 DataWorks 中,如果离线同步任务的执行时间比之前长很多,速度也慢了很多,可能是由于以下原因导致的:

    1. 数据量增加:如果数据量增加,可能会导致离线同步任务的执行时间增加和速度减慢。例如,如果数据源的数据量增加,或者数据的复杂度增加,可能会导致离线同步任务的执行时间增加和速度减慢。
    2. 数据源问题:如果数据源出现问题,可能会导致离线同步任务的执行时间增加和速度减慢。例如,如果数据源的网络连接不稳定,或者数据源的服务器资源不足,可能会导致离线同步任务的执行时间增加和速度减慢。
    3. 资源使用率问题:如果资源使用率过高,可能会导致离线同步任务的执行时间增加和速度减慢。例如,如果其他任务的资源使用率过高,或者系统的负载过高,可能会导致离线同步任务的执行时间增加和速度减慢。
      为了解决这个问题,可以尝试以下方法:
    4. 检查数据量:检查数据源的数据量,确保数据量的增加不会导致离线同步任务的执行时间增加和速度减慢。
    5. 检查数据源:检查数据源的状态,确保数据源的网络连接稳定,服务器资源充足,以及服务正常运行。
    6. 调整资源使用率:如果资源使用率过高,可以尝试调整资源使用率,例如减少其他任务的资源使用率,或者增加系统的资源。
    2023-10-15 21:49:40
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多