Kubernetes集群故障排查—审计

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Kubernetes集群故障排查—审计

 Kubernetes 审计(Auditing) 功能提供了与安全相关的、按时间顺序排列的记录集, 记录每个用户、使用 Kubernetes API 的应用以及控制面自身引发的活动。

审计功能使得集群管理员能够回答以下问题:

    • 发生了什么?
    • 什么时候发生的?
    • 谁触发的?
    • 活动发生在哪个(些)对象上?
    • 在哪观察到的?
    • 它从哪触发的?
    • 活动的后续处理行为是什么?

    审计记录最初产生于 kube-apiserver 内部。每个请求在不同执行阶段都会生成审计事件;这些审计事件会根据特定策略被预处理并写入后端。 策略确定要记录的内容和用来存储记录的后端,当前的后端支持日志文件和 webhook。

    每个请求都可被记录其相关的阶段(stage)。已定义的阶段有:

      • RequestReceived - 此阶段对应审计处理器接收到请求后, 并且在委托给其余处理器之前生成的事件。
      • ResponseStarted - 在响应消息的头部发送后,响应消息体发送前生成的事件。 只有长时间运行的请求(例如 watch)才会生成这个阶段。
      • ResponseComplete - 当响应消息体完成并且没有更多数据需要传输的时候。
      • Panic - 当 panic 发生时生成。

      说明:

      审计事件配置 的配置与 Event API 对象不同。

      审计日志记录功能会增加 API server 的内存消耗,因为需要为每个请求存储审计所需的某些上下文。 内存消耗取决于审计日志记录的配置。

      审计策略

      审计策略定义了关于应记录哪些事件以及应包含哪些数据的规则。 审计策略对象结构定义在 audit.k8s.io API 组。 处理事件时,将按顺序与规则列表进行比较。第一个匹配规则设置事件的审计级别(Audit Level)。 已定义的审计级别有:

        • None - 符合这条规则的日志将不会记录。
        • Metadata - 记录请求的元数据(请求的用户、时间戳、资源、动词等等), 但是不记录请求或者响应的消息体。
        • Request - 记录事件的元数据和请求的消息体,但是不记录响应的消息体。 这不适用于非资源类型的请求。
        • RequestResponse - 记录事件的元数据,请求和响应的消息体。这不适用于非资源类型的请求。

        你可以使用 --audit-policy-file 标志将包含策略的文件传递给 kube-apiserver。 如果不设置该标志,则不记录事件。 注意 rules 字段必须在审计策略文件中提供。没有(0)规则的策略将被视为非法配置。

        以下是一个审计策略文件的示例:

        audit/audit-policy.yaml

        转存失败重新上传取消image.gif编辑

        apiVersion: audit.k8s.io/v1 # 这是必填项。
        kind: Policy
        # 不要在 RequestReceived 阶段为任何请求生成审计事件。
        omitStages:
          - "RequestReceived"
        rules:
          # 在日志中用 RequestResponse 级别记录 Pod 变化。
          - level: RequestResponse
            resources:
            - group: ""
              # 资源 "pods" 不匹配对任何 Pod 子资源的请求,
              # 这与 RBAC 策略一致。
              resources: ["pods"]
          # 在日志中按 Metadata 级别记录 "pods/log"、"pods/status" 请求
          - level: Metadata
            resources:
            - group: ""
              resources: ["pods/log", "pods/status"]
          # 不要在日志中记录对名为 "controller-leader" 的 configmap 的请求。
          - level: None
            resources:
            - group: ""
              resources: ["configmaps"]
              resourceNames: ["controller-leader"]
          # 不要在日志中记录由 "system:kube-proxy" 发出的对端点或服务的监测请求。
          - level: None
            users: ["system:kube-proxy"]
            verbs: ["watch"]
            resources:
            - group: "" # core API 组
              resources: ["endpoints", "services"]
          # 不要在日志中记录对某些非资源 URL 路径的已认证请求。
          - level: None
            userGroups: ["system:authenticated"]
            nonResourceURLs:
            - "/api*" # 通配符匹配。
            - "/version"
          # 在日志中记录 kube-system 中 configmap 变更的请求消息体。
          - level: Request
            resources:
            - group: "" # core API 组
              resources: ["configmaps"]
            # 这个规则仅适用于 "kube-system" 名字空间中的资源。
            # 空字符串 "" 可用于选择非名字空间作用域的资源。
            namespaces: ["kube-system"]
          # 在日志中用 Metadata 级别记录所有其他名字空间中的 configmap 和 secret 变更。
          - level: Metadata
            resources:
            - group: "" # core API 组
              resources: ["secrets", "configmaps"]
          # 在日志中以 Request 级别记录所有其他 core 和 extensions 组中的资源操作。
          - level: Request
            resources:
            - group: "" # core API 组
            - group: "extensions" # 不应包括在内的组版本。
          # 一个抓取所有的规则,将在日志中以 Metadata 级别记录所有其他请求。
          - level: Metadata
            # 符合此规则的 watch 等长时间运行的请求将不会
            # 在 RequestReceived 阶段生成审计事件。
            omitStages:
              - "RequestReceived"

        image.gif

        你可以使用最低限度的审计策略文件在 Metadata 级别记录所有请求:

        # 在 Metadata 级别为所有请求生成日志
        apiVersion: audit.k8s.io/v1beta1
        kind: Policy
        rules:
        - level: Metadata

        image.gif

        如果你在打磨自己的审计配置文件,你可以使用为 Google Container-Optimized OS 设计的审计配置作为出发点。你可以参考 configure-helper.sh 脚本,该脚本能够生成审计策略文件。你可以直接在脚本中看到审计策略的绝大部份内容。

        你也可以参考 Policy 配置参考 以获取有关已定义字段的详细信息。

        审计后端

        审计后端实现将审计事件导出到外部存储。kube-apiserver 默认提供两个后端:

          • Log 后端,将事件写入到文件系统
          • Webhook 后端,将事件发送到外部 HTTP API

          在这所有情况下,审计事件均遵循 Kubernetes API 在 audit.k8s.io API 组 中定义的结构。

          说明:

          对于 patch 请求,请求的消息体需要是设定 patch 操作的 JSON 所构成的一个串, 而不是一个完整的 Kubernetes API 对象的 JSON 串。 例如,以下的示例是一个合法的 patch 请求消息体,该请求对应 /apis/batch/v1/namespaces/some-namespace/jobs/some-job-name:

          [
            {
              "op": "replace",
              "path": "/spec/parallelism",
              "value": 0
            },
            {
              "op": "remove",
              "path": "/spec/template/spec/containers/0/terminationMessagePolicy"
            }
          ]

          image.gif

          Log 后端

          Log 后端将审计事件写入 JSONlines 格式的文件。 你可以使用以下 kube-apiserver 标志配置 Log 审计后端:

            • --audit-log-path 指定用来写入审计事件的日志文件路径。不指定此标志会禁用日志后端。- 意味着标准化
            • --audit-log-maxage 定义保留旧审计日志文件的最大天数
            • --audit-log-maxbackup 定义要保留的审计日志文件的最大数量
            • --audit-log-maxsize 定义审计日志文件轮转之前的最大大小(兆字节)

            如果你的集群控制面以 Pod 的形式运行 kube-apiserver,记得要通过 hostPath 卷来访问策略文件和日志文件所在的目录,这样审计记录才会持久保存下来。例如:

            - --audit-policy-file=/etc/kubernetes/audit-policy.yaml
              - --audit-log-path=/var/log/kubernetes/audit/audit.log

            image.gif

            接下来挂载数据卷:

            ...
            volumeMounts:
              - mountPath: /etc/kubernetes/audit-policy.yaml
                name: audit
                readOnly: true
              - mountPath: /var/log/kubernetes/audit/
                name: audit-log
                readOnly: false

            image.gif

            最后配置 hostPath:

            ...
            volumes:
            - name: audit
              hostPath:
                path: /etc/kubernetes/audit-policy.yaml
                type: File
            - name: audit-log
              hostPath:
                path: /var/log/kubernetes/audit/
                type: DirectoryOrCreate

            image.gif

            Webhook 后端

            Webhook 后端将审计事件发送到远程 Web API,该远程 API 应该暴露与 kube-apiserver 形式相同的 API,包括其身份认证机制。你可以使用如下 kube-apiserver 标志来配置 Webhook 审计后端:

              • --audit-webhook-config-file 设置 Webhook 配置文件的路径。Webhook 配置文件实际上是一个 kubeconfig 文件。
              • --audit-webhook-initial-backoff 指定在第一次失败后重发请求等待的时间。随后的请求将以指数退避重试。

              Webhook 配置文件使用 kubeconfig 格式指定服务的远程地址和用于连接它的凭据。

              事件批处理

              日志和 Webhook 后端都支持批处理。以 Webhook 为例,以下是可用参数列表。要获取日志 后端的同样参数,请在参数名称中将 webhook 替换为 log。 默认情况下,在 webhook 中批处理是被启用的,在 log 中批处理是被禁用的。 同样,默认情况下,在 webhook 中启用带宽限制,在 log 中禁用带宽限制。

                • --audit-webhook-mode 定义缓存策略,可选值如下:batch - 以批处理缓存事件和异步的过程。这是默认值。blocking - 在 API 服务器处理每个单独事件时,阻塞其响应。blocking-strict - 与 blocking 相同,不过当审计日志在 RequestReceived 阶段失败时,整个 API 服务请求会失效。

                以下参数仅用于 batch 模式:

                  • --audit-webhook-batch-buffer-size 定义 batch 之前要缓存的事件数。 如果传入事件的速率溢出缓存区,则会丢弃事件。
                  • --audit-webhook-batch-max-size 定义一个 batch 中的最大事件数。
                  • --audit-webhook-batch-max-wait 无条件 batch 队列中的事件前等待的最大事件。
                  • --audit-webhook-batch-throttle-qps 每秒生成的最大批次数。
                  • --audit-webhook-batch-throttle-burst 在达到允许的 QPS 前,同一时刻允许存在的最大 batch 生成数。

                  参数调整

                  需要设置参数以适应 API 服务器上的负载。

                  例如,如果 kube-apiserver 每秒收到 100 个请求,并且每个请求仅在 ResponseStarted 和 ResponseComplete 阶段进行审计,则应该考虑每秒生成约 200 个审计事件。 假设批处理中最多有 100 个事件,则应将限制级别设置为每秒至少 2 个查询。 假设后端最多需要 5 秒钟来写入事件,你应该设置缓冲区大小以容纳最多 5 秒的事件, 即 10 个 batch,即 1000 个事件。

                  但是,在大多数情况下,默认参数应该足够了,你不必手动设置它们。 你可以查看 kube-apiserver 公开的以下 Prometheus 指标,并在日志中监控审计子系统的状态。

                    • apiserver_audit_event_total 包含所有暴露的审计事件数量的指标。
                    • apiserver_audit_error_total 在暴露时由于发生错误而被丢弃的事件的数量。

                    日志条目截断

                    日志后端和 Webhook 后端都支持限制所输出的事件大小。 例如,下面是可以为日志后端配置的标志列表:

                    • audit-log-truncate-enabled:是否弃用事件和批次的截断处理。
                    • audit-log-truncate-max-batch-size:向下层后端发送的各批次的最大字节数。
                    • audit-log-truncate-max-event-size:向下层后端发送的审计事件的最大字节数。

                    默认情况下,截断操作在 webhook 和 log 后端都是被禁用的,集群管理员需要设置 audit-log-truncate-enabled 或 audit-webhook-truncate-enabled 标志来启用此操作。






                    文章下方有交流学习区!一起学习进步!也可以前往官网,加入官方微信交流群 你的支持和鼓励是我创作的动力❗❗❗

                    Doker的成长,欢迎大家一起陪伴!!!

                    我发好文,兄弟们有空请把我的官方旗舰店流量撑起来!!!

                    官网:Doker 多克; 官方旗舰店Doker 多克 官方旗舰店-淘宝网 全品优惠


                    相关实践学习
                    通过Ingress进行灰度发布
                    本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
                    容器应用与集群管理
                    欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
                    目录
                    相关文章
                    |
                    10天前
                    |
                    Prometheus Kubernetes 监控
                    OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
                    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
                    |
                    8天前
                    |
                    Kubernetes Ubuntu 网络安全
                    ubuntu使用kubeadm搭建k8s集群
                    通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
                    44 12
                    |
                    13天前
                    |
                    Kubernetes 网络协议 应用服务中间件
                    Kubernetes Ingress:灵活的集群外部网络访问的利器
                    《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
                    29 2
                    |
                    25天前
                    |
                    存储 Kubernetes 关系型数据库
                    阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
                    本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
                    |
                    2月前
                    |
                    Kubernetes 监控 Cloud Native
                    Kubernetes集群的高可用性与伸缩性实践
                    Kubernetes集群的高可用性与伸缩性实践
                    79 1
                    |
                    3月前
                    |
                    JSON Kubernetes 容灾
                    ACK One应用分发上线:高效管理多集群应用
                    ACK One应用分发上线,主要介绍了新能力的使用场景
                    |
                    3月前
                    |
                    Kubernetes 持续交付 开发工具
                    ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
                    ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
                    |
                    3月前
                    |
                    Kubernetes Cloud Native 云计算
                    云原生之旅:Kubernetes 集群的搭建与实践
                    【8月更文挑战第67天】在云原生技术日益成为IT行业焦点的今天,掌握Kubernetes已成为每个软件工程师必备的技能。本文将通过浅显易懂的语言和实际代码示例,引导你从零开始搭建一个Kubernetes集群,并探索其核心概念。无论你是初学者还是希望巩固知识的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
                    150 17
                    |
                    3月前
                    |
                    Kubernetes Ubuntu Linux
                    Centos7 搭建 kubernetes集群
                    本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
                    235 4
                    |
                    3月前
                    |
                    Kubernetes 应用服务中间件 nginx
                    搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
                    在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
                    1070 1

                    热门文章

                    最新文章