一、等待调度资源组
运维中心大量生产任务在等待调度资源,日志显示“任务并发数已达上限,正在等待在云端的gateway资源...”,但是找不到在运行中的任务,阻塞业务。
排查:
1.确认调度资源组类型。
公共:租户级别下(该租户所有region所有项目下)在非高峰期支持同时运行的任务数有限,参见
文档。
3.“周期实例/补数据实例/手动任务运维”使用该资源组的所有region、所有项目按运行状态“运行中”过滤筛选。
4.排查这些运行中的任务迟迟不释放资源的原因,查看日志。
· 如果是离线同步任务,大概率是二级数据集成同步资源槽位不够,任务一直在等待同步资源(detail log日志中长时间打印wait)(大概率原因)。
· 如果是odps sql等计算任务,日志打印queue说明任务在等待计算资源,或logview中长尾数据倾斜导致计算慢需联系MaxCompute或对应计算引擎同学。
- 咨询一下有没有shell、pyodps节点任务使用大量独享资源组的内存。
解决:
1.终止优先级低占用调度资源的任务,让重要的任务先跑。
2.公共资源组上的任务迁移独享后补数据跑。
3.独享资源组扩容。
二、等待集成资源组
数据集成等待资源一般会在日志里打印wait,
第一:查看资源水位的情况;
第二:到运维助手里查看任务运行情况,如下图: