接入NPD
在容器服务的应用目录里找到“ack-node-problem-detector”
部署NPD要配置的参数较多:
- alibaba_cloud_plugins:不需要选择ram_role_check,nvidia_gpu_check视情况选择
- serviceaccount:填入集群中权限较大的一个,一般自建的有admin-user,可以
kubectl -n kube-system get sa
来查看 - env:填入AccessKeyId、AccessKeySecret、RegionId这三个参数
- sls:
- enabled:如果需要将event归档到日志服务,就将enabled设为true
- topic:填写您的集群可读名称
- project:填写您的集群对应的日志服务project名称
- logstore:填写project下已有的某个logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event)
- internal:如果有专线,可以填为true,否则填为false
- dingtalk:
- enabled:如果需要将event告警到钉钉群,就将enabled设为true
- monitorkinds:选择要接收的告警类型,一般选择Node
- token:填入钉钉只能群助手的token(不是全部的URL)
创建事件中心
- 登录日志服务控制台。
- 在日志应用区域,单击K8s事件中心。
- 在事件中心管理页面,单击添加。
- 在添加事件中心页面,配置相关参数。
- 选择已有Project,可从Project下拉框中选择已创建的Project。(与NPD的参数保持一致)
配置成功后,即可使用事件中心