AI Agent 工具服务上 K8s 前,我先查了 Secret、日志和回滚

简介: 本次预检聚焦AI Agent工具服务上K8s的可行性:验证MCP Server启动、工具镜像拉取、Secret安全注入、只读容器配置及独立日志可观测性。通过隔离命名空间`agent-tools`、专用ServiceAccount与最小化Deployment,分层厘清依赖、权限与运行边界,为后续代码巡检、页面测试、数据查询等场景夯实可控基础。(239字)

这次准备把一个 AI Agent 的工具服务放到 K8s 上跑。还没到完整上线阶段,只是先做预检:MCP Server 能不能启动,工具依赖能不能就绪,Secret 怎么放,日志能不能看清楚。
我不想一上来就写一堆 Deployment。Agent 工具服务一旦接 Git、浏览器、数据库,权限和边界会比普通接口服务更敏感。
这个环境后面主要服务几个场景:代码仓库巡检、发布前测试页面巡检、只读数据查询和运维 runbook。Agent 的好处是把这些动作串成一段流程,让人少在 Git、测试环境、日志和数据面板之间来回切。
所以这次预检不是为了单独证明某个依赖能下载,而是为了确认这些工具服务以后能被稳定、受控地调起来。

先在节点上验证工具依赖

如果基础依赖没有就绪,后面看 Pod 事件只会看到 ImagePullBackOff 或长时间 Pulling

docker pull ghcr.1ms.run/github/github-mcp-server
docker pull mcr.1ms.run/playwright/mcp
docker pull docker.1ms.run/postgres:16-alpine
docker pull docker.1ms.run/redis:7-alpine

这一步是为了把工具依赖问题先排除。真正的权限和网络问题,留到 Pod 启动后再看。

工具服务单独放一个 namespace

我先建了一个 agent-tools

apiVersion: v1
kind: Namespace
metadata:
  name: agent-tools
---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: mcp-runner
  namespace: agent-tools

这样至少不会和主业务服务混在一个 namespace 里。后面要收网络出口、资源限制和 Secret,也比较清楚。

MCP Server 先跑最小版本

apiVersion: apps/v1
kind: Deployment
metadata:
  name: mcp-github
  namespace: agent-tools
spec:
  replicas: 1
  selector:
    matchLabels:
      app: mcp-github
  template:
    metadata:
      labels:
        app: mcp-github
    spec:
      serviceAccountName: mcp-runner
      containers:
        - name: mcp-github
          image: ghcr.1ms.run/github/github-mcp-server
          envFrom:
            - secretRef:
                name: github-readonly-token
          securityContext:
            readOnlyRootFilesystem: true
            allowPrivilegeEscalation: false

这个版本只做几件事:独立 namespace,独立 ServiceAccount,token 放 Secret,容器尽量只读。

事件和日志要先能看清

kubectl -n agent-tools get pod
kubectl -n agent-tools describe pod -l app=mcp-github
kubectl -n agent-tools logs deploy/mcp-github --tail=120

如果是依赖问题,事件里会很直接。
如果是 token 或网络问题,通常要看 MCP Server 自己的日志。
我不希望所有错误都只落到 Agent 应用日志里。工具服务既然独立跑,就要能独立定位。

这次预检保留下来的几条

  • 工具依赖先拆开验证,不把所有问题留给 Pod 事件。
  • MCP Server 放独立 namespace。
  • token 用 Secret,不写进镜像和配置文件。
  • 工具容器先按只读文件系统处理。
  • 日志要能看到工具服务自己的错误。
  • Agent 应用和 MCP Server 后续要能独立回滚。

    复盘

    K8s 上跑 AI Agent 工具服务,不能只看 Deployment 是否创建成功。Agent 的价值在于把代码、测试、数据和运维检查串起来;接入 MCP 后,真正要看的是依赖来源、Secret、网络出口、日志和回滚边界。
    这次只是预检,但至少把第一层问题分清了:工具依赖是一层,工具权限是一层,K8s 运行边界又是一层。分开看,后面接更多工具时不会乱。
相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
数据可视化 前端开发 搜索推荐
数字孪生可视化开发技术(ThingJS)学习笔记
数字孪生可视化开发技术(ThingJS)学习笔记
1174 0
|
存储 运维 安全
阿里云发布SaaS数据本地化服务,助力企业跨国扩展与合规
阿里云SaaS数据本地化服务(Alibaba Cloud InCountry Service,简称ACIS) 由阿里云和 InCountry合作推出,为使用海外SaaS或者应用的企业客户提供了一种将受管制数据在境内存储和处理,以实现合规的SaaS服务。
2047 0
阿里云发布SaaS数据本地化服务,助力企业跨国扩展与合规
|
2月前
|
Prometheus 并行计算 异构计算
containerd 节点 GPU 镜像预热记录
本次在GPU节点复现推理环境时,首遇镜像拉取失败(ImagePullBackOff),Pod卡在ContainerCreating状态。通过`crictl pull`逐源验证并预热vLLM、CUDA、Prometheus及pause镜像,明确分离镜像问题与模型问题,提升排障效率。(239字)
|
2月前
|
运维 Kubernetes 应用服务中间件
CI/CD流水线镜像拉取耗时从47分钟降到2分钟,我做了这几件事
换镜像加速源,CI/CD构建从47分钟骤降至2分钟!非代码/硬件优化,仅切换为毫秒镜像(1ms.run)——全源加速(Docker Hub、GHCR、k8s.gcr等),30台服务器10分钟批量配置,失败率归零,凌晨发布成功率100%。
292 16
|
3月前
|
算法 搜索推荐 大数据
别再怪模型不聪明了:冷启动,本质是你“没喂饱”数据
别再怪模型不聪明了:冷启动,本质是你“没喂饱”数据
516 2
|
Kubernetes PyTorch 算法框架/工具
2026年4月实测:我把公司K8s集群的Docker镜像拉取速度提升了20倍
上周公司AI训练节点扩容,PyTorch镜像直连拉取32分钟/个,8台集群部署几近瘫痪。实测5种加速方案后,发现小众但稳定的「docker.1ms.run」服务——3.8GB镜像仅需1分48秒,提速18倍!一键配置Docker/Containerd,CI/CD构建从20分钟回归3分半。2026年境内镜像拉取困局,务实解法在此。(239字)
|
数据可视化 数据挖掘 BI
python数据分析和可视化【2】鸢尾花数据分析
python数据分析和可视化【2】鸢尾花数据分析
646 0
|
1月前
|
人工智能 自然语言处理 前端开发
不会开发AI Skill,你明天可能还在改自动化脚本
本文探讨AI时代测试自动化范式变革:从维护脆弱脚本转向构建“AI Skill”——以意图驱动、动态定位、自适应校验的智能测试单元。揭示脚本失效根因在于抽象层次过低,并指出2024年是测试工程师能力分水岭:定义Skill者驾驭AI,仅修脚本者将被替代。
|
2月前
|
Kubernetes 网络协议 文件存储
Docker镜像拉了一下午还没完?我受够了,花了一周找替代方案
上周拉镜像卡在47%两小时?试遍阿里云、高校源、GitHub清单全失效。直到发现「毫秒镜像」——宝塔、爱快、绿联NAS已原生集成,金融级客户背书。一行命令安装,3秒拉完nginx,全仓库加速(Docker Hub/gcr/ghcr/k8s等),含DNS自诊。免费版够用,稳定不跑路。
1062 18
|
JavaScript NoSQL Java
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
874 96
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡

热门文章

最新文章