DataWorks中调度资源组使用率100%应该怎么处理?
在DataWorks中,调度资源组使用率达到100%时,可能会导致调度任务失败或者长时间等待,影响任务的正常运行。为此,可以考虑以下几种方式来处理:
扩容调度资源组:如果调度资源组的使用率达到了100%,可以考虑扩容调度资源组的容量,以增加调度任务的处理能力。在DataWorks中,可以通过增加调度节点的数量、升级调度节点的配置等方式来扩容调度资源组。
调整调度任务的优先级:如果调度资源组的使用率达到了100%,可以考虑调整调度任务的优先级,以确保重要任务能够及时得到处理。在DataWorks中,可以通过设置调度任务的优先级来调整任务的执行顺序和优先级。
优化调度任务的资源占用:如果调度任务的资源占用率过高,可能会导致调度资源组的使用率达到100%。此时,可以考虑优化调度任务的资源占用,例如减少任务的并行度、优化任务的SQL语句等方式,以降低调度资源组的负载。
【等待gateway资源】
当前任务执行资源组并发达到上限,需要等待运行中的任务执行完成释放资源。
使用公共调度资源组,您可以在运维大屏处查看。
使用独享调度资源组,您可以使用在控制台查看该资源组当前执行的任务列表。
【排查案例一:生产任务等待调度资源gateway】
背景:
运维中心大量生产任务在等待调度资源,日志显示“任务并发数已达上限,正在等待在云端的gateway资源...”,但是找不到在运行中的任务,阻塞业务。
排查:
1)确认调度资源组类型:
公共:租户级别下(该租户所有region所有项目),公共资源组支持的并发数有限制,参见官方文档
独享:规格参见官方文档
自定义:参见官方文档
2)DataWorks专业版以上运行诊断功能可以直接找到占用资源任务。
3)非专业版以上,使用该资源组的所有region、所有项目按运行状态“运行中”过滤筛选。
4)排查这些运行中的任务迟迟不释放资源的原因,查看日志。
如果是离线同步任务,大概率是二级数据集成同步资源槽位不够,任务一直在等待同步资源(detail log日志中长时间打印wait)(大概率原因)。
如果是odps sql等计算任务,日志打印queue说明任务在等待计算资源,或logview中长尾数据倾斜导致计算慢需联系MaxCompute或对应计算引擎同学。
解决:
1)终止优先级低占用调度资源的任务,让重要的任务先跑。
2)公共资源组上的任务迁移独享后补数据跑。
3)独享资源组扩容。
【资源组使用率】
控制台-资源组列表-使用率点击进去
,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。