事件监控是Kubernetes中的另一种监控方式,可以弥补资源监控在实时性、准确性和场景上的欠缺。您可以通过使用NPD结合SLS的Kubernetes事件中心、配置NPD集群检查项以及异常事件离线功能、使用钉钉、使用SLS离线Kubernetes事件及使用EventBridge离线Kubernetes事件,实时监控集群的异常与问题。
背景信息
Kubernetes的架构设计基于状态机,不同的状态之间进行转换则会生成相应的事件,正常的状态之间转换会生成Normal等级的事件,正常状态与异常状态之间的转换会生成Warning等级的事件。
ACK提供开箱即用的容器场景事件监控方案,通过ACK维护的NPD(node-problem-detector)以及包含在NPD中的kube-eventer提供容器事件监控能力。
- NPD(node-problem-detector)是Kubernetes节点诊断的工具,可以将节点的异常,例如Docker Engine Hang、Linux Kernel Hang、网络出网异常、文件描述符异常转换为Node的事件,结合kube-eventer可以实现节点事件告警的闭环。更多信息,请参见NPD。
- kube-eventer是ACK维护的开源Kubernetes事件离线工具,可以将集群的事件离线到钉钉、SLS、EventBridge等系统,并提供不同等级的过滤条件,实现事件的实时采集、定向告警、异步归档。更多信息,请参见kube-eventer。
使用NPD结合SLS的Kubernetes事件中心监控集群事件
NPD根据配置与第三方插件检测节点的问题或故障,生成相应的集群事件。而Kubernetes集群自身也会因为集群状态的切换产生各种事件。例如Pod驱逐,镜像拉取失败等异常情况。日志服务SLS(Log Service)的Kubernetes事件中心实时汇聚Kubernetes中的所有事件并提供存储、查询、分析、可视化、告警等能力。将集群事件接入日志服务的Kubernetes事件中心操作步骤如下。
前提条件
- 您需要创建一个注册集群,并将自建Kubernetes集群接入注册集群。具体操作,请参见创建阿里云注册集群并接入自建Kubernetes集群。
步骤一:在自建集群中配置事件中心组件RAM权限
在注册集群中安装组件前,您需要在接入集群中设置AK用来访问云服务的权限。设置AK前,您需要创建RAM用户并为其添加访问相关云资源的权限。
- 创建RAM用户。有关如何创建RAM用户的具体步骤,请参见创建RAM用户。
- 创建权限策略。有关创建权限策略的具体操作步骤,请参见创建自定义策略。请授权RAM的AliyunCSManagedLogRolePolicy策略。
- 为RAM用户添加权限。有关如何为RAM用户授权的具体步骤,请参见为RAM用户授权。
- 为RAM用户创建AK。有关如何为子账户创建AK,请参见获取AccessKey。
- 使用AK在自建Kubernetes集群中创建名为alibaba-addon-secret的Secret资源,步骤二中安装事件中心相关组件时将自动引用此AK访问对应的云服务资源。
kubectl -n kube-system create secret generic alibaba-addon-secret --from-literal='access-key-id=<your access key id>' --from-literal='access-key-secret=<your access key secret>'
您需要将上述代码中和替换为您获取的AK信息。
步骤二:安装和查看事件中心。
请按照以下步骤安装和查看Kubernetes事件中心。
- 登录容器服务管理控制台。
- 在控制台左侧导航栏中,单击集群。
- 在集群列表页面中,单击目标集群名称或者目标集群右侧操作列下的详情。
- 选择运维管理 > 事件中心 >事件总览,点击创建时间中心。
- 单击事件中心管理页签,在K8s事件中心页面左侧导航栏,单击目标集群名称左边的展开图标,查看Kubernetes事件中心相关信息。您可以查看Kubernetes事件的总览及详情、Pod生命周期,还可以进行自定义查询及告警配置。