开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks资源够这就很微妙了,怎么算资源够?这个有没有计算方式?

DataWorks资源够这就很微妙了,怎么算资源够?这个有没有计算方式?因为我昨晚我自己监控了一下,发现虽然我有50多个同时的实例,但是并不是全部一起吊起来的。所以我很好奇这个调度并发是怎么算的?

展开
收起
cuicuicuic 2023-12-17 12:55:45 26 0
4 条回答
写回答
取消 提交回答
  • 一个并发运行一个实例 可以根据自己实例运行的平均时长 需要同时运行的实例数来决定独享资源组的规格
    https://help.aliyun.com/zh/dataworks/product-overview/exclusive-resource-groups-for-scheduling?spm=a2c4g.11186623.0.i2 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-18 07:44:41
    赞同 展开评论 打赏
  • 在DataWorks中,资源的够与不够是一个相对的概念,具体取决于任务的性质、数据量、处理逻辑等多个因素。一般来说,如果DataWorks中的资源能够满足任务的需求,使得任务能够正常运行并完成预期的功能,那么就可以认为资源是够的。

    计算DataWorks资源是否够的方式有很多,以下是一些可能的计算方式:

    1.根据任务的需求计算所需的资源。例如,如果一个任务需要处理大量的数据,那么就需要更多的计算资源和存储资源。
    2.根据实际的使用情况来调整资源的分配。例如,如果某个任务经常出现资源不足的情况,那么可以增加该任务的资源分配。
    3.通过监控系统的指标来评估资源的够与不够。例如,可以监控CPU使用率、内存使用率、磁盘I/O等指标,如果这些指标过高,那么就可能需要增加资源。
    关于调度并发的问题,DataWorks的调度器会根据任务的优先级、可用资源等因素来决定任务的执行顺序。当有多个任务同时申请资源时,调度器会根据一定的策略进行分配,例如按照任务的优先级、任务的执行顺序等因素进行分配。因此,即使有多个实例同时运行,也并不一定所有的任务都会同时被执行,这取决于调度器的策略和当前可用的资源。

    2023-12-17 17:19:13
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,"资源够"主要是根据任务并发度和任务执行时间来计算的。DataWorks为您提供了公共资源组,这些资源包括公共调度资源组、公共数据集成(调试)资源组、公共数据服务资源组,可以用于数据开发、运行测试等操作。

    DataWorks的任务调度机制是根据调度类型及周期数生成相应的周期实例来运行任务的。例如,对于小时调度任务,每天会根据周期数产生相应数量的小时实例。如果任务并发度高到无法错峰运行时,那么就需要独享调度资源组来保障任务能被定时调度运行。同时,离线任务也是通过调度资源组下发至各引擎或服务器资源上执行的。

    至于如何判断你的实例是否全部一起启动,这主要取决于你的任务并发度和调度类型。如果你的任务并发度较高,那么可能会所有实例一起启动;反之,如果并发度较低,那么可能无法所有实例一起启动。

    2023-12-17 14:49:35
    赞同 展开评论 打赏
  • 在DataWorks中,资源是否足够通常涉及到以下几个关键因素:

    1. 计算资源

      • 核心数(CPU):每个运行的任务需要一定数量的CPU核心进行计算。
      • 内存(RAM):任务执行过程中可能需要大量内存来处理和存储数据。
    2. 存储资源

      • 数据存储空间:包括源数据、中间结果和最终结果的存储需求。
      • 日志和元数据存储:任务执行产生的日志和系统元数据也需要占用存储空间。
    3. 网络资源

      • 数据传输带宽:数据同步、读写等操作需要网络带宽支持。
    4. 调度并发能力

      • 调度服务器的并发处理能力:决定了同时可以调度和执行的任务数量。
      • 任务的并发度设置:每个任务可以配置的最大并发执行次数。

    调度并发的计算方式通常基于以下几点:

    • 最大并发任务数
      DataWorks可能会设定一个最大并发任务数的限制,这个值可以根据您的资源包或者实例规格来确定。超过这个限制的任务会被排队等待执行。

    • 任务的资源需求
      每个任务根据其复杂性和数据量有不同的资源需求。调度系统会考虑每个任务所需的CPU、内存和网络资源,以确保总的资源使用不超过系统的总容量。

    • 任务的优先级和依赖关系
      调度系统还会考虑任务的优先级和依赖关系。高优先级的任务可能会抢占资源,而有依赖关系的任务则需要等待前置任务完成才能开始执行。

    • 动态调整和优化
      DataWorks的调度系统可能会根据实时的资源使用情况和任务负载进行动态调整和优化,比如通过负载均衡、资源预留等方式来最大化资源利用率和任务执行效率。

    2023-12-17 14:09:35
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多