开发者社区> 了哥-duff> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

通过NPD在kubernetes集群上增强节点的错误检测能力

简介: 通过部署Node Problem Detector来增强node节点的错误检测能力
+关注继续查看

根源

在kubernetes集群上,通常我们只是管制集群本身以及容器的稳定运行。但是这些稳定性都是强依赖节点node的稳定的。可是node的管理,在kubernetes是比较弱的,因为可能对于kubernetes的初始设计来说,这些应该是IaaS的事。但是随着kubernetes的发展,它越来变成了一个操作系统,它管理的内容将越来越多,所以对于node的管理也将纳入kuberntes里管理。所以延伸出了node problem detector(参考1)这个项目。

Node的主要影响kuberntes稳定性的因素

硬件错误

  • CPU坏了
  • Memory坏了
  • 磁盘坏了

kernel问题

  • kernel deadlock (内核死锁)
  • corrupted file systems (文件系统崩溃)
  • unresponsive runtime daemons (系统运行后台进程无响应)

docker问题

  • unresponsive runtime daemons (docker后台进程无响应)
  • docker image error (docker文件系统错误)

Node问题上报机制

Kubernetes支持两种上报机制:

  • NodeCondition(节点状况): 这是指永久性的错误,它将造成pod无法在这个节点运行。这个节点状况只有在节点重启后才会被重置
  • Event(事件): 影响节点的临时性问题,但是它是对于系统诊断是有意义的

Node Problem Detector(NPD)

NPD就是利用kubernetes的上报机制,通过检测系统的日志(例如centos中journal),把错误的信息上报到kuberntes的node上。

NPD的架构

(图来源于mastering kubernetes)
Snip20181009_520

NPD支持多种monitor来检测不同的错误类型。然后它把对应的信息上报给api server。

后面NPD也在计划提供一个remedy controller(治疗控制器),通过捕获这些信息作些补救的处理。例如在公有云可以将硬件错误的机器自动换掉等

部署NPD实践

前提,你需要有一个k8s集群,必须有1个以上的worker节点。有需要你可以在阿里云的容器服务里,几分钟内创建一个k8s集群。

我将对应的内容放到了我的github上,大家可以参考,地址在:
https://github.com/vipdocker/npd-centos

因为官网的文档描述不是太清楚,以及对于centos journal的支持也是刚完成,所以文档还跟不上,也造成了我一些弯路

具体步骤参考上面github的README就可,这里就不啰嗦了。

如何验证NPD捕获信息

通常这些错误是比较难真实测试,只能通过发送消息到journal来模拟。

  • 发送一个kernel deadlock类型的condition:在对应的node节点上执行以下操作
echo "task docker:7 blocked for more than 300 seconds." |systemd-cat -t kernel

然后通过k8s控制台,你可以看到对应的信息:
Snip20181009_518

  • 发送一个event
echo "Error trying v2 registry: failed to register layer: rename /var/lib/docker/image/test /var/lib/docker/image/ddd: directory not empty.*" |systemd-cat -t docker

然后通过以下命令来对应的event

kubectl describe node/xxxx

Snip20181009_519

小结

通过NPD,我们可以看到一种node错误检测的增强手段, 后面它也将提供更多的plugin的集成机制来集成其它的监控系统,例如nagios等。
我们或许会看到这样的一个k8s,它已经包罗万象,不在需要“依赖”其它就可以完成的管理好一个集群,它将更像一个分布式的OS。

参考

  1. https://kubernetes.io/docs/tasks/debug-application-cluster/monitor-node-health/
  2. https://github.com/fabric8io/kubernetes-model/blob/master/vendor/k8s.io/kubernetes/cluster/addons/node-problem-detector/npd.yaml

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
蚂蚁大规模 Kubernetes 集群无损升级实践指南【探索篇】
蚂蚁 Sigma 作为蚂蚁集团核心的基础设施,经过多年的发展其规模已经处于业界领先位置,大规模集群对 Kubernetes 的稳定性及功能性提出更高的要求。蚂蚁 Sigma 力争在万级规模的云原生环境下,挑战高效稳定、无损无感的云原生操作系统升级,给用户带来极致稳定的、功能新颖的云原生服务。
142 0
云主机搭建Kubernetes 1.10集群
一、基础环境 云主机 下载软件包 将所有软件下载至/data目录 # 链接:https://pan.baidu.com/s/13DlR1akNBCjib5VFaIjGTQ 密码:1l69 # 链接:https://pan.
2490 0
使用 kubeadm 创建一个 kubernetes 集群
kubeadm 是一个 kubernetes 官方提供的快速安装和初始化拥有最佳实践(best practice)的 kubernetes 集群的工具,虽然目前还处于 beta 和 alpha 状态,还不能用在生产环境,但是我们可以通过学习这种部署方法来体会一些官方推荐的kubernetes最佳实践的设计和思想。
6547 0
kubernetes集群问题排查
本文CSDN博客地址:http://blog.csdn.net/huwh_/article/details/71308301 1. 查看系统Event事件 [plain] view plain copy kubectl describe pod  --namespace=   该命令可以显示Pod创建时的配置定义、状态等信息和最近的Event事件,事件信息可用于排错。
3793 0
+关注
了哥-duff
游走于产品与架构间,关注容器、Kubernetes,微服务,ServiceMesh
18
文章
0
问答
来源圈子
更多
容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级 Kubernetes 容器化应用的全生命周期管理。容器服务 Kubernetes 版简化集群的搭建和扩容等工作,整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳的 Kubernetes 容器化应用运行环境。
+ 订阅
相关文档: 云原生应用交付平台 ADP 容器镜像服务 容器服务Kubernetes版
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载