容器服务ACK云监控里调用钉钉报警这个报错怎么解决?

容器服务ACK云监控里调用钉钉报警这个报错怎么解决?d8052dd4a6ea43ee4d44170d28b06e01.png

展开
收起
真的很搞笑 2023-12-05 21:34:26 101 分享 版权
阿里云 AI 助理回答

在容器服务ACK云监控中调用钉钉报警时,如果遇到报错问题,可以按照以下步骤进行排查和解决。以下是详细的解决方案:


1. 检查钉钉机器人配置

确保钉钉机器人的配置正确无误,这是实现告警通知的关键步骤。

  • 检查Webhook地址
    确认钉钉机器人的Webhook地址是否正确填写到ACK的告警配置中。如果Webhook地址错误或失效,会导致告警无法发送。

    • 如果需要重新获取Webhook地址,请参考钉钉群设置页面的操作步骤。
    • 注意:如果Webhook地址被重置,需同步更新ACK中的配置。
  • 安全设置验证
    钉钉机器人支持的安全设置包括自定义关键词、加签和IP地址(段)。ACK事件监控仅支持自定义关键词方式。

    • 确保在钉钉机器人中设置了正确的关键词(如Warning),并将其与ACK告警消息内容匹配。
    • 如果发现告警消息未触发,可能是关键词过滤导致,请调整关键词设置。

2. 检查ack-node-problem-detector组件

ack-node-problem-detector组件是ACK中用于事件监控和告警的核心组件,其配置错误可能导致告警失败。

  • 重新安装组件
    如果之前已安装过该组件,建议删除后重新安装以确保配置生效:

    1. 在容器服务管理控制台的目标集群页面,选择应用 > Helm
    2. 找到ack-node-problem-detector组件,单击操作列的删除
    3. 删除完成后,重新安装组件。具体操作请参考知识库文档。
  • 更新组件配置
    确保ack-node-problem-detector组件的配置正确:

    1. 在Helm页面找到ack-node-problem-detector组件,单击操作列的更新
    2. 修改以下参数:
      • npd下的enabled设置为false
      • eventer.sinks.dingtalk.enabled设置为true
      • 填入钉钉机器人的Webhook Token。
    3. 单击确定保存配置。

3. 检查报警规则和联系人组

确保报警规则和联系人组配置正确,避免因缺少订阅联系人组导致告警失败。

  • 创建报警联系人和联系组

    1. 登录云监控控制台,选择报警服务 > 报警联系人
    2. 创建报警联系人,并将其添加到对应的报警联系组中。
    3. 确保报警规则中已关联正确的联系人组。
  • 验证报警规则

    1. 在云监控控制台中,检查目标集群的报警规则是否已正确配置。
    2. 确认报警规则的作用范围(如集群、节点或Pod)和触发条件是否符合预期。
    3. 如果报警规则未生效,尝试重新创建规则并测试。

4. 检查日志服务Project资源

如果报错信息中提到类似The Project does not exist : k8s-log-xxx的问题,可能是日志服务的Project资源不足或配置错误。

  • 检查Project Quota限制

    1. 登录日志服务管理控制台,检查目标Project是否达到Quota上限。
    2. 如果资源不足,删除多余的Project或提交工单申请扩大Quota限制。
  • 重新安装相关组件
    如果Project资源正常但仍报错,建议重新安装ack-node-problem-detector组件以同步最新配置。


5. 测试和验证

完成上述配置后,进行以下测试以验证告警功能是否正常:

  • 手动触发告警
    通过模拟异常事件(如Pod Crash或节点不可用),观察钉钉群是否收到告警消息。

  • 检查日志记录
    登录日志服务控制台,查看相关日志是否正常采集和存储。如果日志缺失,可能是日志采集配置有问题,需进一步排查。


重要提醒

  • 权限问题:确保ACK集群和日志服务之间的权限配置正确,特别是Prometheus监控相关的授权规则。
  • 版本兼容性:确认ack-node-problem-detector组件和ACK集群版本兼容。如果组件版本过旧,建议升级到最新版本。

通过以上步骤,您可以有效解决容器服务ACK云监控中调用钉钉报警的报错问题。如果问题仍未解决,请提交工单联系技术支持获取帮助。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

国内唯一 Forrester 公共云容器平台领导者象限。

还有其他疑问?
咨询AI助理