Kubernetes API 扩展与安全:别让谁都能对集群“下手”

简介: Kubernetes API 扩展与安全:别让谁都能对集群“下手”

Kubernetes API 扩展与安全:别让谁都能对集群“下手”

副标题:Admission Controller / Webhook,是真·门禁,不是装饰品

很多人玩 Kubernetes,关注点都在:

  • Pod 怎么调度
  • Service 怎么暴露
  • HPA 怎么弹

但真到了线上事故那一刻,问题往往不是“怎么跑”,而是:

“是谁让它跑起来的?”
“为什么这种配置也能进集群?”

这时候,你才会意识到:
Kubernetes API 本身,就是一条高危通道。


一、一个扎心事实:K8s 最大的安全洞,往往是“默认允许”

我们先说一句大实话。

Kubernetes 的设计哲学是:

“API 是中立的,不负责替你做决定。”

也就是说,只要你有权限:

  • 你可以起特权 Pod
  • 你可以挂宿主机目录
  • 你可以用 latest 镜像
  • 你甚至可以把整个节点掀了

API Server 不会拦你。

所以真正的问题是:

“谁来替集群说一句:这个不行。”

答案就是今天的主角:

👉 Admission Controller & Webhook


二、Kubernetes API 的“安检流程”长啥样?

很多人对 Admission 的理解非常模糊,我给你画一条人话版链路

kubectl apply
   ↓
Authentication(你是谁)
   ↓
Authorization(你能不能)
   ↓
Admission(你这样行不行)
   ↓
ETCD(真的写进集群)

注意一句:

Admission 是“最后一道闸门”
前面只管“身份”和“权限”,
这里只有“行为是否合理”。


三、Admission Controller 分两类:内置的 & Webhook

1️⃣ 内置 Admission Controller:官方送的“基础安检”

常见的比如:

  • NamespaceLifecycle
  • ResourceQuota
  • LimitRanger
  • PodSecurity(新一代)

这些特点就一句话:

稳、通用、但不懂你的业务。

比如 LimitRanger

apiVersion: v1
kind: LimitRange
metadata:
  name: mem-limit
spec:
  limits:
  - default:
      memory: 512Mi
    type: Container

它能保证你不会起一个无限内存的 Pod
但它不知道

  • 哪个 Namespace 是生产
  • 哪个应用不能用特权模式
  • 哪个镜像仓库是“野的”

2️⃣ Webhook:真正的“自定义规则引擎”

Webhook 才是 K8s API 扩展的灵魂

一句话总结它的定位:

“API Server 在关键时刻,把判断权交给你写的服务。”

分两种:

  • ValidatingWebhook:只管“行不行”
  • MutatingWebhook:还能“顺手改一把”

四、先说 ValidatingWebhook:专治“作死配置”

1️⃣ 一个非常真实的需求

生产环境禁止使用 latest 镜像

靠规范?
靠群公告?
靠人盯?

都不靠谱。

Webhook 一次解决。

2️⃣ 校验逻辑(伪代码)

def validate_pod(pod):
    for c in pod.spec.containers:
        if c.image.endswith(":latest"):
            return reject("生产环境禁止使用 latest 镜像")
    return allow()

3️⃣ Webhook 配置示例

apiVersion: admissionregistration.k8s.io/v1
kind: ValidatingWebhookConfiguration
webhooks:
- name: image-policy.example.com
  rules:
  - apiGroups: [""]
    apiVersions: ["v1"]
    operations: ["CREATE"]
    resources: ["pods"]
  clientConfig:
    service:
      name: image-policy
      namespace: kube-system
      path: /validate

从此以后,谁 kubectl apply 谁心里有数。

不是我不让你发,是集群不答应。


五、MutatingWebhook:不拦你,但“偷偷帮你改好”

很多人对 MutatingWebhook 有偏见,觉得“魔法太多”。

但说句实在的:

用得好,它是效率神器;
用不好,它是线上惊悚片。

1️⃣ 一个我很常用的场景

自动给 Pod 注入统一的安全上下文

比如:

  • runAsNonRoot: true
  • readOnlyRootFilesystem: true

2️⃣ 注入逻辑示例

def mutate_pod(pod):
    pod.spec.securityContext = {
   
        "runAsNonRoot": True
    }
    return patch(pod)

好处很明显:

  • 开发不用每次写
  • 运维统一兜底
  • 安全基线不靠自觉

但注意一句话:

Mutating 一定要“可预期、可回放、可解释”


六、Webhook 的三个“翻车重灾区”

❌ 1. Webhook 挂了,集群直接“瘫”

如果你这样配:

failurePolicy: Fail

然后 Webhook 服务挂了……

所有创建请求都会卡死。

我的建议:

  • 非核心校验:Ignore
  • 核心安全策略:Fail + 高可用

❌ 2. Webhook 逻辑太复杂

我见过有人在 Webhook 里:

  • 查 CMDB
  • 查数据库
  • 查外部 HTTP 接口

结果 API Server TPS 直接被拖死。

记住一句:

Admission 阶段,只能做“快判断”。


❌ 3. 没有审计 & 日志

Webhook 拒绝了一个请求,如果你只返回:

{
   "allowed": false}

那排障时就是灾难。

一定要:

  • 打结构化日志
  • 带 request UID
  • 能反查原因

七、API 扩展 ≠ 想怎么拦就怎么拦

我最后说一点个人体会。

Admission Controller 的正确姿势是:

“限制下限,而不是限制上限。”

也就是说:

  • 防止明显错误
  • 防止高风险行为
  • 防止破坏性操作

但不要:

  • 把业务规则全塞进去
  • 把开发当敌人
  • 把灵活性掐死

否则最后一定是:

“大家绕开 Kubernetes 用。”


八、一句大白话总结

  • RBAC 决定你能不能进门
  • Admission 决定你能不能乱来
  • Webhook 决定集群有没有“脑子”

Kubernetes 的安全,从来不是防黑客开始的,
而是:

防自己人一不小心把集群送走。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
3月前
|
SQL 机器学习/深度学习 运维
MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤
MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤
189 13
|
3月前
|
机器学习/深度学习 存储 人工智能
量子机器学习:AI 的下一个维度,真不是玄学
量子机器学习:AI 的下一个维度,真不是玄学
220 9
|
5月前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
515 62
|
4月前
|
弹性计算 搜索推荐 应用服务中间件
今非昔比:看完阿里云服务器租赁价格,沉默了~
阿里云服务器优惠汇总:轻量应用服务器200M带宽38元起/年,ECS云服务器2核2G仅99元/年,4核16G 89元/月,8核32G 160元/月,香港轻量服务器25元/月起,爆款低至1折,新老用户同享,续费同价,限时抢购!
1245 14
|
6月前
|
运维 监控 数据可视化
从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起
以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)
|
6月前
|
存储 数据可视化 小程序
搭建内容中台:打造高效可复用的企业内容管理基石
内容中台的本质,是将企业的 “内容资源” 转化为 “可复用、可运营的数字资产”,让内容从 “每个渠道的附属品”,变成 “驱动全渠道业务增长的核心能力”—— 它不仅是技术层面的平台,更是企业内容战略的 “落地载体”。
444 1
|
5月前
|
数据采集 机器学习/深度学习 人工智能
AI 十大论文精讲(二):GPT-3 论文全景解析——大模型 + 提示词如何解锁 “举一反三” 能力?
摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、闭卷问答等9类任务中的表现,其中在LAMBADA长文本任务上准确率达86.4%,较此前最优提升18.4%。这一研
939 152
|
6月前
|
搜索推荐 API 开发工具
百宝箱开放平台 ✖️ Python SDK
百宝箱提供Python SDK,支持开发者集成其开放能力。需先发布应用,安装Python 3.6+环境后,通过pip安装tboxsdk,即可调用对话型、生成型智能体及文件上传等功能。
892 87
百宝箱开放平台 ✖️  Python SDK
|
3月前
|
人工智能 自动驾驶 安全
V2X 车联网:不是“聪明的车”,而是“会聊天的车”
V2X 车联网:不是“聪明的车”,而是“会聊天的车”
300 6
|
6月前
|
Kubernetes API 开发工具
Kubeflow-Pipelines-架构学习指南
本指南带你深入 Kubeflow Pipelines 架构,从零掌握 ML 工作流编排。涵盖核心组件、代码结构、开发调试及贡献流程,结合实战练习与学习路径,助你由使用者进阶为贡献者。
1082 139

热门文章

最新文章

下一篇
开通oss服务