这次准备把一个 vLLM 推理服务放到 K8s 上跑。还没到正式上线,只是先做一轮预检:镜像依赖能不能进来,GPU 节点能不能调度,Probe 会不会误杀服务,回滚路径能不能走通。
推理服务和普通接口不太一样。普通服务启动慢一点问题不大,大模型服务启动时要加载权重、初始化 GPU、准备缓存,探针和调度写得不合适,很容易表现成反复重启或长时间 Pending。
先验证依赖
我先在节点环境里验证几个镜像:
docker pull docker.1ms.run/vllm/vllm-openai:latest
docker pull docker.1ms.run/nvidia/cuda:12.4.1-runtime-ubuntu22.04
docker pull docker.1ms.run/prom/prometheus:latest
这一步只是确认依赖能进环境。后面真正要看的,是 GPU、Probe 和日志。
Deployment 先保留最小边界
apiVersion: apps/v1
kind: Deployment
metadata:
name: llm-api
namespace: ai-infer
spec:
replicas: 1
selector:
matchLabels:
app: llm-api
template:
metadata:
labels:
app: llm-api
spec:
nodeSelector:
accelerator: nvidia
containers:
- name: vllm
image: docker.1ms.run/vllm/vllm-openai:latest
ports:
- containerPort: 8000
resources:
limits:
nvidia.com/gpu: "1"
这份配置重点看三件事:跑到 GPU 节点,明确申请 GPU,镜像地址能被后续发布和回滚记录看到。
看 Pod 事件
kubectl -n ai-infer get pod -l app=llm-api
kubectl -n ai-infer describe pod -l app=llm-api
我主要看这些分支:
Insufficient nvidia.com/gpu:资源不足。node(s) didn't match node selector:节点标签不匹配。ImagePullBackOff:镜像或网络问题。FailedMount:模型目录挂载问题。
先把事件分清楚,再看应用日志。
Probe 单独调
模型服务冷启动慢,所以我先给 startupProbe 留足时间:
startupProbe:
httpGet:
path: /health
port: 8000
failureThreshold: 60
periodSeconds: 5
readinessProbe 再决定什么时候接流量,livenessProbe 最后再判断是不是需要重启。不要让 liveness 在模型加载阶段反复杀容器。
日志和回滚
kubectl -n ai-infer logs deploy/llm-api --tail=120
kubectl -n ai-infer rollout status deploy/llm-api
kubectl -n ai-infer rollout history deploy/llm-api
如果要回滚,我会同时检查镜像版本、模型目录和启动参数。推理服务不是普通 Web 服务,模型权重没有跟着回退,会留下很难解释的问题。
复盘
AI 推理服务上 K8s 前,我现在会先查 GPU、Probe 和回滚,而不是一上来就调模型参数。
镜像依赖是第一层,GPU 调度是第二层,Probe 和日志是第三层,回滚是最后的兜底。几层拆开看,后面真正压测时才知道瓶颈是在模型、资源,还是发布配置。