运维中心大量生产任务在等待调度资源,日志显示“任务并发数已达上限,正在等待在云端的gateway资源...”,但是找不到在运行中的任务,阻塞业务。
排查:
公共:租户级别下(该租户所有region所有项目下)在非高峰期支持同时运行的任务数有限,参见公共资源组概述。
独享:独享调度资源组计费说明:包年包月。
2.使用智能诊断功能可以直接找到占用资源任务。
3.“周期实例/补数据实例/手动任务运维”使用该资源组的所有region、所有项目按运行状态“运行中”过滤筛选。
4.排查这些运行中的任务迟迟不释放资源的原因,查看日志。
● 如果是离线同步任务,大概率是二级数据集成同步资源槽位不够,任务一直在等待同步资源(detail log日志中长时间打印wait)(大概率原因)。
● 如果是odps sql等计算任务,日志打印queue说明任务在等待计算资源,或logview中长尾数据倾斜导致计算慢需联系MaxCompute或对应计算引擎同学。
解决:
终止优先级低占用调度资源的任务,让重要的任务先跑。
公共资源组上的任务迁移独享后补数据跑。
独享资源组扩容。
更多信息参见等待资源。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。