开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks之前是并发我设置的4,但是我发现多整七八个这样的调度,如何解决?

DataWorks之前是并发我设置的4,但是我发现多整七八个这样的调度,就把集成资源占用完了,其他任务就都卡着等待了,然后另外一个,我使用的是时间自动分区没使用按照字段内容动态分区 ?

展开
收起
cuicuicuic 2024-03-11 14:16:49 21 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,您可以通过设置并发级别来控制周期业务流程的并发执行,以避免资源被过度占用导致其他任务等待。同时,DataWorks支持时间自动分区,但并未提及按字段内容动态分区的能力。

    首先,关于并发设置的问题,您可以按照以下步骤进行调整:

    1. 打开DataWorks工作空间:登录到DataWorks控制台,并选择您的工作空间。
    2. 选择业务流程:在工作空间中,找到需要设置并发级别的业务流程。
    3. 调整并发级别:在业务流程的配置页面中,找到“并发级别”设置项,并输入您希望设置的并发级别。

    其次,如果您使用的是时间自动分区,这意味着您的数据会根据时间自动划分到不同的分区中。这是一种常见的分区策略,适用于大多数按时间序列存储的数据。然而,如果您需要更精细的控制,比如根据字段内容进行动态分区,您可能需要检查DataWorks的最新功能更新或考虑使用其他工具或脚本来实现这一需求。

    此外,为了确保任务的平稳运行,您还可以考虑以下方面:

    1. 监控资源使用情况:定期检查DataWorks的资源监控报告,以便及时发现并解决资源瓶颈问题。
    2. 优化任务配置:根据任务的实际运行情况,调整任务的资源配置,如内存限制、CPU限制等,以提高任务执行效率。
    3. 限速选项:如果数据库性能有限,可以通过设置限速选项来防止同步任务对数据库造成过大压力。
    2024-03-11 22:22:06
    赞同 展开评论 打赏
  • 并发数和速度正相关 单通道同步确实比较慢 建议对实时要求比较高的表 提高并发 其他的表转离线任务 错峰执行; ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2024-03-11 15:26:03
    赞同 展开评论 打赏
  • 在DataWorks中,如果你发现并发数设置得不够,导致多个任务同时运行时资源被占满,其他任务出现等待的情况,你可以考虑调整并发数或优化任务执行策略。以下是一些建议:

    1. 调整并发数

      • 评估当前系统的资源负载和任务量,适当增加每个调度任务的并发数。但请注意,过高的并发数可能会导致系统过载或资源耗尽。
      • 如果资源有限,你可以考虑优化任务,减少每个任务所需的资源,或者增加更多资源(如计算实例)来支持更高的并发。
    2. 优化任务执行策略

      • 分析任务的执行时间和资源使用情况,将高资源消耗的任务安排在资源相对空闲的时间段运行。
      • 对于可以并行执行的任务,确保它们不会互相竞争相同的资源。
      • 尝试将长时间运行的任务拆分成多个短小的任务,以减小单个任务对资源的占用时间。
    3. 关于分区策略

      • 你提到使用的是时间自动分区,而不是按照字段内容动态分区。时间自动分区通常适用于按照时间维度进行数据处理的场景,但如果你的数据表包含大量数据且时间范围广泛,可能会导致分区过多或过大,从而影响性能。
      • 考虑根据你的数据和业务场景调整分区策略。例如,如果数据量很大但时间范围相对集中,可以考虑增加分区的粒度(如缩小分区的时间范围)。
      • 如果可能的话,尝试使用字段内容动态分区,这样可以更精确地控制数据的分区和查询效率。但请注意,动态分区的管理和配置可能相对复杂一些。
    4. 监控和调优

      • 使用DataWorks的监控功能来观察任务的执行情况、资源使用情况以及性能瓶颈。
      • 根据监控数据进行调优,如调整任务的执行顺序、优化SQL语句、增加索引等。
    5. 考虑其他资源优化措施

      • 如果你的数据存储在云存储服务(如OSS)中,考虑优化数据的存储和访问方式,以减少数据传输和处理的开销。
      • 如果使用的是计算实例(如MaxCompute),考虑调整实例的规格和数量,以更好地满足任务的需求。

    总之,在DataWorks中管理并发和资源占用是一个持续的过程,需要不断地监控、分析和调优。通过合理的配置和优化,你可以提高任务的执行效率并减少资源冲突。

    2024-03-11 14:26:45
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多