AI 推理服务上 K8s 前,我先查了 GPU、Probe 和回滚

简介: 本文介绍vLLM推理服务上K8s前的关键预检:验证镜像拉取、GPU节点调度、探针配置(尤其startupProbe防误杀)、日志可观测性及回滚路径,聚焦AI服务冷启动特性,分层排查保障部署稳健性。(239字)

这次准备把一个 vLLM 推理服务放到 K8s 上跑。还没到正式上线,只是先做一轮预检:镜像依赖能不能进来,GPU 节点能不能调度,Probe 会不会误杀服务,回滚路径能不能走通。

推理服务和普通接口不太一样。普通服务启动慢一点问题不大,大模型服务启动时要加载权重、初始化 GPU、准备缓存,探针和调度写得不合适,很容易表现成反复重启或长时间 Pending。

先验证依赖

我先在节点环境里验证几个镜像:

docker pull docker.1ms.run/vllm/vllm-openai:latest
docker pull docker.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04
docker pull docker.1ms.run/prom/prometheus:latest

这一步只是确认依赖能进环境。后面真正要看的,是 GPU、Probe 和日志。

Deployment 先保留最小边界

apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-api
  namespace: ai-infer
spec:
  replicas: 1
  selector:
    matchLabels:
      app: llm-api
  template:
    metadata:
      labels:
        app: llm-api
    spec:
      nodeSelector:
        accelerator: nvidia
      containers:
        - name: vllm
          image: docker.1ms.run/vllm/vllm-openai:latest
          ports:
            - containerPort: 8000
          resources:
            limits:
              nvidia.com/gpu: "1"

这份配置重点看三件事:跑到 GPU 节点,明确申请 GPU,镜像地址能被后续发布和回滚记录看到。

看 Pod 事件

kubectl -n ai-infer get pod -l app=llm-api
kubectl -n ai-infer describe pod -l app=llm-api

我主要看这些分支:

  • Insufficient nvidia.com/gpu:资源不足。
  • node(s) didn't match node selector:节点标签不匹配。
  • ImagePullBackOff:镜像或网络问题。
  • FailedMount:模型目录挂载问题。

先把事件分清楚,再看应用日志。

Probe 单独调

模型服务冷启动慢,所以我先给 startupProbe 留足时间:

startupProbe:
  httpGet:
    path: /health
    port: 8000
  failureThreshold: 60
  periodSeconds: 5

readinessProbe 再决定什么时候接流量,livenessProbe 最后再判断是不是需要重启。不要让 liveness 在模型加载阶段反复杀容器。

日志和回滚

kubectl -n ai-infer logs deploy/llm-api --tail=120
kubectl -n ai-infer rollout status deploy/llm-api
kubectl -n ai-infer rollout history deploy/llm-api

如果要回滚,我会同时检查镜像版本、模型目录和启动参数。推理服务不是普通 Web 服务,模型权重没有跟着回退,会留下很难解释的问题。

复盘

AI 推理服务上 K8s 前,我现在会先查 GPU、Probe 和回滚,而不是一上来就调模型参数。

镜像依赖是第一层,GPU 调度是第二层,Probe 和日志是第三层,回滚是最后的兜底。几层拆开看,后面真正压测时才知道瓶颈是在模型、资源,还是发布配置。

相关文章
|
12天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23469 10
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
15天前
|
人工智能 缓存 BI
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro,跑完 Skills —— OA 审批、大屏、报表、部署 5 大实战场景后的真实体验 ![](https://oscimg.oschina.net/oscnet/up608d34aeb6bafc47f
5081 18
Claude Code + DeepSeek V4-Pro 真实评测:除了贵,没别的毛病
|
17天前
|
人工智能 JSON BI
DeepSeek V4 来了!超越 Claude Sonnet 4.5,赶紧对接 Claude Code 体验一把
JeecgBoot AI专题研究 把 Claude Code 接入 DeepSeek V4Pro 的真实体验与避坑记录 本文记录我将 Claude Code 对接 DeepSeek 最新模型(V4Pro)后的真实体验,测试了 Skills 自动化查询和积木报表 AI 建表两个场景——有惊喜,也踩
6113 14
|
5天前
|
人工智能 缓存 Shell
Claude Code 全攻略:命令大全 + 实战工作流(完整版)
Claude Code 是一款运行在终端环境下的 AI 编码助手,能够直接在项目目录中理解代码结构、编辑文件、执行命令、执行开发计划,并支持持久化记忆、上下文压缩、后台任务、多模型切换等专业能力。对于日常开发、项目维护、快速重构、代码审查等场景,它可以大幅减少手动操作、提升编码效率。本文从常用命令、界面模式、核心指令、记忆机制、图片处理、进阶工作流等维度完整说明,帮助开发者快速上手并稳定使用。
1130 2
|
5天前
|
前端开发 API 内存技术
对比claude code等编程cli工具与deepseek v4的适配情况
DeepSeek V4发布后,多家编程工具因未适配其强制要求的`reasoning_content`字段而报错。本文对比Claude Code、GitHub Copilot、Langcli、OpenCode及DeepSeek-TUI等主流工具的兼容性:Claude Code需按官方方式配置;Langcli表现最佳,开箱即用且无报错;Copilot与OpenCode暂未修复问题;DeepSeek-TUI尚处早期阶段。
908 2
对比claude code等编程cli工具与deepseek v4的适配情况
|
1月前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
25679 65
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)