AI 推理服务上 K8s 前,我先查了 GPU、Probe 和回滚

简介: 本文介绍vLLM推理服务上K8s前的关键预检:验证镜像拉取、GPU节点调度、探针配置(尤其startupProbe防误杀)、日志可观测性及回滚路径,聚焦AI服务冷启动特性,分层排查保障部署稳健性。(239字)

这次准备把一个 vLLM 推理服务放到 K8s 上跑。还没到正式上线,只是先做一轮预检:镜像依赖能不能进来,GPU 节点能不能调度,Probe 会不会误杀服务,回滚路径能不能走通。

推理服务和普通接口不太一样。普通服务启动慢一点问题不大,大模型服务启动时要加载权重、初始化 GPU、准备缓存,探针和调度写得不合适,很容易表现成反复重启或长时间 Pending。

先验证依赖

我先在节点环境里验证几个镜像:

docker pull docker.1ms.run/vllm/vllm-openai:latest
docker pull docker.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04
docker pull docker.1ms.run/prom/prometheus:latest

这一步只是确认依赖能进环境。后面真正要看的,是 GPU、Probe 和日志。

Deployment 先保留最小边界

apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-api
  namespace: ai-infer
spec:
  replicas: 1
  selector:
    matchLabels:
      app: llm-api
  template:
    metadata:
      labels:
        app: llm-api
    spec:
      nodeSelector:
        accelerator: nvidia
      containers:
        - name: vllm
          image: docker.1ms.run/vllm/vllm-openai:latest
          ports:
            - containerPort: 8000
          resources:
            limits:
              nvidia.com/gpu: "1"

这份配置重点看三件事:跑到 GPU 节点,明确申请 GPU,镜像地址能被后续发布和回滚记录看到。

看 Pod 事件

kubectl -n ai-infer get pod -l app=llm-api
kubectl -n ai-infer describe pod -l app=llm-api

我主要看这些分支:

  • Insufficient nvidia.com/gpu:资源不足。
  • node(s) didn't match node selector:节点标签不匹配。
  • ImagePullBackOff:镜像或网络问题。
  • FailedMount:模型目录挂载问题。

先把事件分清楚,再看应用日志。

Probe 单独调

模型服务冷启动慢,所以我先给 startupProbe 留足时间:

startupProbe:
  httpGet:
    path: /health
    port: 8000
  failureThreshold: 60
  periodSeconds: 5

readinessProbe 再决定什么时候接流量,livenessProbe 最后再判断是不是需要重启。不要让 liveness 在模型加载阶段反复杀容器。

日志和回滚

kubectl -n ai-infer logs deploy/llm-api --tail=120
kubectl -n ai-infer rollout status deploy/llm-api
kubectl -n ai-infer rollout history deploy/llm-api

如果要回滚,我会同时检查镜像版本、模型目录和启动参数。推理服务不是普通 Web 服务,模型权重没有跟着回退,会留下很难解释的问题。

复盘

AI 推理服务上 K8s 前,我现在会先查 GPU、Probe 和回滚,而不是一上来就调模型参数。

镜像依赖是第一层,GPU 调度是第二层,Probe 和日志是第三层,回滚是最后的兜底。几层拆开看,后面真正压测时才知道瓶颈是在模型、资源,还是发布配置。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
Kubernetes PyTorch 算法框架/工具
2026年4月实测:我把公司K8s集群的Docker镜像拉取速度提升了20倍
上周公司AI训练节点扩容,PyTorch镜像直连拉取32分钟/个,8台集群部署几近瘫痪。实测5种加速方案后,发现小众但稳定的「docker.1ms.run」服务——3.8GB镜像仅需1分48秒,提速18倍!一键配置Docker/Containerd,CI/CD构建从20分钟回归3分半。2026年境内镜像拉取困局,务实解法在此。(239字)
|
1月前
|
缓存 前端开发 NoSQL
办公Agent架构设计:如何让一个Agent同时服务销售、运营、人事部门?
本文讲述一个企业级多部门Agent从混乱到优雅的架构演进:直面意图冲突、权限隔离与知识打架三大难题,通过V1失败尝试、V2部门路由+上下文隔离、V3分层知识库(公共/部门/个人)三阶段迭代,最终实现单Agent安全、精准、高效服务销售、运营、人事等多部门。含真实避坑经验与落地案例。(240字)
190 4
|
3月前
|
存储 人工智能 搜索推荐
保姆级教程:OpenClaw阿里云/本地部署多 Agent,“一个人=24小时在线 AI 团队”,附20个实用案例
OpenClaw并非普通的AI聊天工具,而是一套可嵌入日常工作流的开源AI助手框架,核心价值在于“长期进化”与“多场景闭环执行”。它能通过配置文件定制身份与行为,依托本地记忆系统越用越懂用户,更能连接多渠道终端,将分散的工作流程整合为可持续运行的自动化系统。从定制CRM、会议闭环管理到代码安全审查、食物过敏追踪,OpenClaw能覆盖20+高频场景,真正成为个人与轻量团队的“全天候AI团队”。
2572 2
|
1月前
|
人工智能 自然语言处理 安全
OpenClaw 小龙虾 AI 智能体 Windows 部署完整教程(2026 最新)
OpenClaw(小龙虾)是2026年爆火的开源AI智能体,GitHub星标超28万。支持本地运行、零代码配置、自动任务处理,专为新手设计——一键部署包+全程可视化操作,10分钟即可在Win10/11上搭建专属数字员工,解放重复办公!
|
2月前
|
人工智能 自然语言处理 安全
阿里云百炼Token Plan是什么?套餐、API调用、工具配置与优惠活动完整实战手册
阿里云百炼Token Plan以统一Credits计费、多模型自由切换、团队化管理、预算可控、安全隐私为核心优势,为团队与企业提供一站式AI大模型订阅服务。三档套餐覆盖轻度到重度全场景需求,兼容主流编程与智能体工具,开通简单、接入方便、成本透明,配合丰富的新用户优惠、批量折扣、长期订阅福利,是当前团队规模化使用AI服务的高性价比方案。
867 5
|
2月前
|
缓存 监控 前端开发
《爱企查商品详情页前端性能优化实战》
爱企查企业详情页前端性能优化实战:针对数据量大、接口多、渲染复杂等痛点,通过接口聚合与优先级调度、虚拟滚动/懒加载、智能缓存(IndexedDB)、资源瘦身及HTTP/2推送等分层策略,实现FCP↓62%、LCP↓69%、资源减56%,兼顾实时性与体验。
|
5天前
|
SQL 分布式计算 大数据
权限全靠管理员拍脑袋?聊聊数据平台里的ABAC和RBAC到底该怎么落地
权限全靠管理员拍脑袋?聊聊数据平台里的ABAC和RBAC到底该怎么落地
81 2
|
1月前
|
人工智能 安全 搜索推荐
金融机构邮件安全与反钓鱼防御体系研究 —— 以 NS&I 数据安全事件为例
本文基于英国NS&I三年邮件拦截与账户异常事件,剖析AI驱动下网络钓鱼的技术演进与防御短板,构建覆盖邮件认证、AI内容检测、身份风控、终端防护、威胁情报与应急响应的纵深防御框架,提供可落地代码与协同治理路径。(239字)
109 8
|
1月前
|
弹性计算 Kubernetes 测试技术
我把服务器密码给了 OpenClaw,10 分钟后一个 K8s 集群跑起来了
我把两台临时ECS交给OpenClaw,让它从零搭建K8s集群、排查公网访问问题并完成验收。10 分钟后,我真切感到AI Agent正在从回答问题走向完成任务。
123 4