开发者社区问答正文

想问一下，npd+draino如何实现，它的工作原理是怎么样的，加上autoscale怎么再实现

npd可以通过守护进程来收集节点问题，并以event的形式报告给apiserver,由于这些问题对集群是不可见的，依然会将pod调度到坏的节点，所以引进了普通的救济系统,而目前开源的draino可以完成救济，那么我想它的工作原理是不是这样的，通过npd拿到信息之后，发现节点是有问题的，进行判断节点不可用，然后进行设置维护，不然可能会有其他的pod再调度这个节点上来，然后驱逐此节点的pod，到冗余的节点上，那么如果有冗余相信这个问题很快可以搞定，但是一般情况下，为了资源也不会单独拿一台机器空闲着，可能还会使用autoscale动态的进行扩容，当draino触发之后再去扩容，我想我的理解是否是正确的呢，是否有指正的

展开

收起

南方姑椋 2020-06-28 19:14:08 639 版权

阿里云 AI 助理回答

您的理解大体上是正确的，但让我为您详细梳理一下这个过程，以确保每个步骤都清晰明了。

节点问题检测（Node Problem Detector, NPD）：NPD 是一个 Kubernetes 的守护进程，它通过运行一系列的探测器来监控节点的健康状况。这些探测器可以检查如磁盘空间不足、网络不可达或系统日志中的错误等潜在问题。一旦发现问题，NPD 会生成一个事件（Event）并报告给 Kubernetes API Server。
事件报告与处理：API Server 收到 NPD 报告的问题后，这些信息本身并不直接导致 Kubernetes 避免调度新的 Pod 到该节点上。Kubernetes 默认的调度器不会基于这些事件直接做出决策，因此确实存在将 Pod 调度到已知有问题节点的风险。
引入维护模式（Cordon and Drain）：为了防止这种情况，需要手动或自动地将有问题的节点设置为“维护模式”（cordon）。这一步骤实际上阻止了新的 Pod 被调度到该节点上。接下来，需要从该节点驱逐（drain）现有的 Pod，以便它们可以在其他健康的节点上重新调度。这就是所谓的“Draining”。
Draino 的角色：开源工具 Draino 正是为了自动化这一流程而设计的。Draino 可以监听 NPD 发出的事件，自动执行 cordon 和 drain 的操作，无需人工干预。当它检测到某个节点有故障时，Draino 将自动对该节点进行 cordon，并开始驱逐其上的 Pod，确保服务的连续性和高可用性。
资源冗余与自动扩缩容（Auto Scaling）：在实际生产环境中，通常会利用 Kubernetes 的水平自动扩缩容功能（Horizontal Pod Autoscaler, HPA）来根据负载动态调整应用的副本数。当 Drainer 开始驱逐 Pod 时，如果集群中没有足够的资源来接收这些被驱逐的 Pod，理论上确实可能遇到问题。但是，结合使用 Cluster Autoscaler（负责节点层面的扩缩容），可以在资源紧张时自动增加新节点，从而提供必要的资源来接纳被驱逐的 Pod。不过，Cluster Autoscaler 的响应时间需要考虑在内，因为它不是即时扩容，而是根据预设条件和监测周期来决定是否扩容。

综上所述，您的理解基本正确，只是需要注意的是，在实际操作中，从 Drainer 触发到 Auto Scaler 扩容之间可能会有一个时间差，且整个流程的有效性依赖于各组件的配置和协调。此外，合理的资源预留策略也是确保高可用性的关键因素之一。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

调度 Perl

问答地址：

开发者社区 > 开发与运维 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

想问一下，npd+draino如何实现，它的工作原理是怎么样的，加上autoscale怎么再实现

相关文章