注册的集群接入 node-problem-detector(NPD)组件能为分布在各处的 Kubernetes 集群提供统一的管理方式。本文介绍如何通过容器服务 Kubernetes 版中的应用将 NPD 接入至注册的 Kubernetes 集群。 前提条件 您已通过容器服务 Kubernetes 版接入一个注册的 Kubernetes 集群。具体操作步骤,请参见注册外部 Kubernetes 集群。 操作步骤
登录容器服务管理控制台。
选择左侧导航栏中的市场 > 应用目录进入阿里云应用页签。
单击运维/可观测性 (6) > ack-node-problem-detector。
cluster_NPD_01
单击参数页签,设置相应的参数。单击创建。
参数 描述
alibaba_cloud_plugins 删除 ram_role_check。
另外,当机器没有 GPU 卡时,删除 nvidia_gpu_check。
serviceaccount 填入拥有管理员权限的 serviceaccount。您可以执行kubectl -n kube-system get sa查看 serviceaccount。详情请查看在CloudShell上通过kubectl管理Kubernetes集群。
env 填入 AccessKeyId、AccessKeySecret、RegionId 三个参数。
sls enabled 如果需要将 event 归档到日志服务,就将 enabled 设为 true。
topic 填写您的集群可读名称。
project 填写您的集群对应的日志服务 project 名称。
logstore 填写 project 下已有的某个 logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event)。
internal 如果有专线,填为 true,否则填为 false。
dingtalk enabled 如果需要将 event 告警发送到钉钉群,则将 enabled 设为 true。
monitorkinds 选择要接收的告警类型,取值:
Node
Pod
如果告警只发送到钉钉,建议只选 Node。
token 填入钉钉群助手的 token。token 可以从钉钉群助手的 URL 中获取。
执行结果 配置成功后,钉钉告警效果如下。cluster_NPD_03
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。