如果你非要在 Kubernetes 集群中用 nscd

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 前言我写了一篇文档《Kubernetes 集群中的 DNS 最佳实践》,其中提到你可以使用 nscd 作为容器内的 DNS 缓存。对,只写了这简单一句话,但没有提到其具体的实现方案。原因是 nscd 方案可能是我最不推荐的方案,本文将阐述你应该优先考虑的方案、为什么不推荐 nscd、以及如何合理地在 Kubernetes 集群中使用 nscd。更好的方案连接池在 Kubernetes 集群中 DN

前言

我写了一篇文档《Kubernetes 集群中的 DNS 最佳实践》,其中提到你可以使用 nscd 作为容器内的 DNS 缓存。对,只写了这简单一句话,但没有提到其具体的实现方案。原因是 nscd 方案可能是我最不推荐的方案,本文将阐述你应该优先考虑的方案、为什么不推荐 nscd、以及如何合理地在 Kubernetes 集群中使用 nscd。

更好的方案

连接池

在 Kubernetes 集群中 DNS 域名解析经常会出问题,原因各种各样,有因为内核问题的,有因为负载问题的,而你一定是遇到了这些烦人的域名解析问题才打开了这篇文章。在很多时候,我们不一定有精力找到问题根因,但我们可以尽可能地避免使用 DNS 域名解析。怎么做?连接池!引入连接池的方式无需赘述,除了可以节省掉 DNS 域名解析开销之外,可以直接避免每个 TCP 链接握手挥手的额外开销。

无论是微服务之间互访还是直连数据库都可以使用连接池管理长连接,几乎所有 Web、RPC 框架都可以支持连接池。关于 PHP 如何支持连接池,可以参考官方文档

节点 DNS 缓存

Kubernetes 集群中容器一般是高密度部署的,单个集群节点上会运行多个业务 Pod,我们可以在每个集群节点上运行节点级 DNS 缓存组件,代理本地所有容器的 DNS 解析并做缓存。我们在 ACK 产品上提供了 NodeLocal DNSCache 缓存组件和对应 Webhook 控制器。这个缓存组件也是一个 DNS 服务器,监听于节点上的一个接口,通过一个本地 IP 地址暴露 DNS 服务。Webhook 控制器则在 Pod 调度之前,将这个本地 DNS 服务器 IP 地址写入到 Pod 配置中,这样 Pod 启动后就默认使用了缓存组件当 DNS 服务器了。

该缓存组件以下几个优点:

  • 每个节点只运行一个缓存组件,降低资源损耗
  • 缓存组件就是一个 DNS 服务器,对业务透明,没有兼容性问题
  • 业务 Pod 连接至缓存组件不消耗 Conntrack 表项,比起直接请求 CoreDNS 绕过了大量 iptables 规则
  • 缓存组件连接至 CoreDNS 使用 TCP 协议,提升可用性

NodeLocal DNSCache 原理图

为什么不推荐 nscd 方案

兼容性

nscd 是一个 Daemon 程序,也提供 DNS 缓存能力,但事实上它并不算是一个 DNS 服务器,它甚至不是以 TCP/IP 方式工作的。nscd 默认会监听在 /var/run/nscd/socket 下,当你的应用通过 glibc 库调用例如 getaddrinfo 这样的方法时,这个方法会去检查该 socket 是否存在,如果存在,glibc 会让 nscd 会代理发送 DNS 请求并缓存结果。

关键问题是,并不是所有应用都在用 glibc 做域名解析,例如 Golang 默认就用了自己的 DNS Resolver,根本不会去理会 nscd 的 socket。再例如,在常见的 Alpine 镜像中,系统用了 musl 替代 glibc,musl 原生根本不支持 nscd 做域名解析。

另外值得一提的是,网络上有一些挂载 /var/run/nscd/socket 目录进容器内提供容器内 DNS 缓存的方案。这种方案一旦 ECS 和容器的 glibc 版本出现差异,将会导致缓存功能失效甚至解析异常。

准确性

如果你依赖于多条 A 记录做 Round-Robin 类型的负载均衡,nscd 仅会缓存第一条 A 记录,并做返回。因此在缓存失效的周期内,负载仅会转发到其中一条 A 记录上。如果使用 NodeLocal DNSCache,缓存结果在返回时也会进行 random 打散,不存在这个问题。

时效性

DNS 变更的生效时间通常应小于其 TTL,nscd 缓存机制中的默认参数允许其在 TTL + CACHE_PRUNE_INTERVAL(15 秒)以后才刷新。

使用合理的姿势

阅读到了这里,看起来你是执意要使用 nscd 方案了。在网络上流传着两种方案:

方案一:宿主机启动 nscd

思想:宿主机 ECS 上启动 nscd,Pod 里挂载宿主机路径 /var/run/nscd/socket

缺点:需严格保证 glibc 版本在宿主机和容器之间一致,否则会遇到兼容性问题

方案二:容器内启动 nscd

思想:修改容器镜像,在单个容器启动业务进程前,先启动 nscd 作为后台进程

缺点:

  • 需重新打镜像
  • 违背容器的单一职责原则,业务进程不再是容器主进程,较难处理优雅退出逻辑

推荐方案:SideCar 启动 nscd

思想:修改容器部署 YAML,运行业务容器时,同时启动一个独立 nscd 容器,通过挂载同目录的形式共享 nscd socket 给业务容器。

优点:

  • 业务侵入少,可以不用重新制作容器镜像
  • 业务容器和 Cache 容器使用同样的容器镜像,避免 glibc 版本不一致

我以 Wordpress 应用举个例子,你可以在 artifacthub.io 下载到这个 Helm Chart。应用中有一个 Deployment 如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ack-wordpress-sample-default
  namespace: default
spec:
  replicas: 1
  template:
    spec:
      containers:
      - image: registry.cn-hangzhou.aliyuncs.com/plugins/wordpress:5.4.2-debian-10-r36
        name: wordpress
        volumeMounts:
        - mountPath: /bitnami/wordpress
          name: wordpress-data
          subPath: wordpress
      volumes:
      - emptyDir: {}
        name: wordpress-data

以上我省略了所有无关的属性,YAML 中 wordpress 名字的容器即代表你的业务容器。我们在同一个 Pod 中注入以下 nscd 容器,注意:

  1. nscd 容器建议采用同样的业务镜像
  2. 创建一个公共的 emptyDir 类型的目录,同时挂载到业务容器和 nscd 容器
  3. 务必给 nscd 做好资源限制,避免影响主容器
  4. nscd 可以提前在容器镜像中安装好,也可以启动后安装,以下例子是启动后安装,nscd 容器的 YAML 如下:
      - image: registry.cn-hangzhou.aliyuncs.com/plugins/wordpress:5.4.2-debian-10-r36
        command:
        - /bin/bash
        - -c
        - apt update; apt install -y nscd; nscd -F
        name: nscd
        resources:
          requests:
            cpu: 300m
            memory: 512Mi
        volumeMounts:
        - mountPath: /var/run/nscd
          name: nscd

与业务容器,整合在一起后,YAML 如下:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ack-wordpress-sample-default
  namespace: default
spec:
  replicas: 1
  template:
    spec:
      containers:
      - image: registry.cn-hangzhou.aliyuncs.com/plugins/wordpress:5.4.2-debian-10-r36
        name: wordpress
        volumeMounts:
        - mountPath: /bitnami/wordpress
          name: wordpress-data
          subPath: wordpress
        - mountPath: /var/run/nscd
          name: nscd
      - image: registry.cn-hangzhou.aliyuncs.com/plugins/wordpress:5.4.2-debian-10-r36
        command:
        - /bin/bash
        - -c
        - apt update; apt install -y nscd; nscd -F
        name: nscd
        resources:
          requests:
            cpu: 300m
            memory: 512Mi
        volumeMounts:
        - mountPath: /var/run/nscd
          name: nscd
      volumes:
      - emptyDir: {}
        name: wordpress-data
      - emptyDir: {}
        name: nscd

nscd 容器和业务主容器会一同启动,待 nscd 容器中 nscd 完成初始化后,会自动创建 nscd socket 至公告的 emptyDir 目录中,在下一次业务域名解析请求时,nscd 就可以被成功用起来了。

参考文档

[1] DNS 缓存介绍: NSCD https://leeweir.github.io/posts/dns-cache-nscd/

[2] Don’t use nscd https://jameshfisher.com/2018/02/05/dont-use-nscd/

[3] PHP:数据库持久连接 https://www.php.net/manual/zh/features.persistent-connections.php

[4] 在ACK集群中使用NodeLocal DNSCache https://help.aliyun.com/document_detail/205713.html

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
8天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
6天前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
40 12
|
11天前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
28 2
|
23天前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
2月前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
78 1
|
3月前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
3月前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
3月前
|
Kubernetes Cloud Native 云计算
云原生之旅:Kubernetes 集群的搭建与实践
【8月更文挑战第67天】在云原生技术日益成为IT行业焦点的今天,掌握Kubernetes已成为每个软件工程师必备的技能。本文将通过浅显易懂的语言和实际代码示例,引导你从零开始搭建一个Kubernetes集群,并探索其核心概念。无论你是初学者还是希望巩固知识的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
149 17
|
3月前
|
Kubernetes Ubuntu Linux
Centos7 搭建 kubernetes集群
本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
233 4
|
3月前
|
Kubernetes 应用服务中间件 nginx
搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
1061 1

热门文章

最新文章