DataWorks配置的失败告警, 但是任务超时失败的话不会告警, 需要怎么配置超时失败告警?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在DataWorks中,如果任务因超时失败而未触发告警,可能是因为超时失败的任务不会自动触发重跑机制,因此需要单独配置超时失败的告警规则。以下是具体的配置步骤和注意事项:
在创建自定义规则时,可以选择超时作为触发条件,并设置相应的阈值。具体操作如下: - 对象类型:选择需要监控的对象类型(如任务节点、基线、工作空间等)。 - 触发条件:选择超时。 - 描述:当任务从运行起始时间点开始监控,到指定的运行时长后仍未结束运行,则系统会发送报警。 - 说明:如果任务执行失败且超时,系统将触发超时告警。
在任务的调度配置中,明确设置超时时间,并确保超时时间与告警规则匹配: - 超时时间配置: - 在任务的调度配置中,设置时间属性中的超时时间。 - 如果任务运行时长超过该超时时间,任务将被系统终止并标记为失败。 - 告警阈值配置: - 在自定义规则中,设置超时时间的阈值。例如,如果任务运行超过30分钟仍未完成,则触发告警。
在创建自定义规则时,选择适合的报警方式,并确保接收人能够及时收到告警信息: - 报警方式:支持邮件、短信、电话、钉钉群机器人或WebHook。 - 重要提醒:如果选择电话报警方式,需注意以下限制: - DataWorks专业版及以上版本才支持电话报警。 - 同一个用户在20分钟内最多接收到一通报警电话,其余电话将降级为短信。 - 报警接收人:可以配置为任务责任人、值班表中的当日值班人员或其他指定人员。
为了避免频繁的告警信息提示,建议配置疲劳度控制参数: - 最大报警次数:设置报警的最大次数,超过后不再产生报警。 - 最小报警间隔:设置两次报警之间的最小时间间隔。 - 免打扰时间:设置免打扰时间段,在此期间系统不会发送告警信息。例如,设置免打扰时间为00:00
到08:00
,则在此时间段内不会触发告警。
如果任务因超时失败后需要重跑,需检查任务的调度配置: - 重跑属性:确保任务的重跑属性配置为运行成功或失败后皆可重跑或运行失败后可以重跑。 - 注意事项:如果任务因超时失败,重跑机制可能不生效,需手动重启相关任务。
完成配置后,建议进行测试以确保告警规则生效: - 发送测试消息:在配置钉钉群机器人或WebHook时,单击发送测试消息,验证告警信息是否能正常发送。 - 校验联系方式:对于邮件、短信或电话报警方式,单击校验联系方式,确保接收人的联系方式填写正确。
如果配置完成后仍无法收到超时失败的告警,请参考以下排查步骤: - 确认任务的超时时间是否已正确配置。 - 检查自定义规则的触发条件是否包含超时。 - 确保报警接收人的联系方式已正确配置,并且符合版本限制(如电话报警需专业版及以上版本)。 - 如果使用钉钉群机器人,确保安全配置中包含关键字“DataWorks”。
通过以上步骤,您可以成功配置任务超时失败的告警规则,并确保在任务超时失败时能够及时收到通知。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。