CI/CD流水线镜像拉取耗时从47分钟降到2分钟,我做了这几件事

简介: 换镜像加速源,CI/CD构建从47分钟骤降至2分钟!非代码/硬件优化,仅切换为毫秒镜像(1ms.run)——全源加速(Docker Hub、GHCR、k8s.gcr等),30台服务器10分钟批量配置,失败率归零,凌晨发布成功率100%。

先说结论:换了个镜像加速服务,流水线构建时间从 47 分钟直接降到了 2 分钟。

不是优化代码,不是升级服务器,不是改缓存策略——就是换了个 Docker 镜像源。

问题出在哪

我们公司有 30 多台服务器,3 套环境(开发/测试/生产),每天 CI/CD 流水线跑大约 50 次构建。每次构建都需要拉取基础镜像,Node、Python、Nginx、Redis 这些。

之前配的镜像加速源,大概从三个月前开始就不稳定了。GitLab Runner 拉镜像频繁超时,导致:

  • 流水线构建失败率从 2% 升到 15%
  • 平均构建时间从 8 分钟涨到 47 分钟
  • 凌晨发布的构建经常整个卡死

运维群里每天都有人抱怨:"又超时了"。我作为运维负责人,这个问题必须解决。

我排查了一圈

首先怀疑是网络问题,让网管查了带宽、DNS、防火墙,都没问题。

然后怀疑是 Docker 配置问题,重写了 daemon.json,加了多个 mirror 做冗余——效果不明显,大部分 mirror 本身就不可用。

接着尝试了几个市面上能找到的加速方案,要么不稳定,要么只支持 Docker Hub 不支持其他源。

我们流水线里用到的镜像源可不少:

# .gitlab-ci.yml 片段
image: docker.1ms.run/node:18-alpine

services:
  - docker.1ms.run/redis:7-alpine
  - docker.1ms.run/postgres:15-alpine

有的方案只加速 Docker Hub,ghcr.ioregistry.k8s.io 的镜像完全不加速,这对我们来说等于没用。

找到了靠谱的方案

同事推荐了毫秒镜像(1ms.run)。我先在测试环境验证了两天,数据很漂亮:

改造前:

docker pull node:18-alpine      → 12分钟超时
docker pull redis:7-alpine      → 8分钟
docker pull ghcr.io/some-image  → 直接失败

改造后(配置加速):

docker pull docker.1ms.run/node:18-alpine      → 3秒
docker pull docker.1ms.run/redis:7-alpine       → 2秒
docker pull ghcr.1ms.run/some-image             → 4秒

这不是个例,连续两天、50+ 次拉取,全部稳定在 5 秒以内。

让我放心选它的还有三个原因:

  1. 宝塔面板原生内置——不是简单的合作,是底层集成,千万级用户在用
  2. 金融级背书——持有央行支付牌照的金融机构在生产环境使用
  3. 商业可持续——免费版 + 付费增值模式,不是用爱发电

30台服务器批量配置

确认可行后,我用 1ms-helper 给所有服务器批量配置:

# 安装工具
curl -sSL https://static.1ms.run/1ms-helper/install.sh | bash

# 一键配置 Docker 加速
1ms-helper config:docker

它会自动识别系统、备份旧配置、重启服务。30 台服务器,写了个简单的 Ansible 脚本,10 分钟全部搞定。

然后更新了 CI/CD 配置,所有镜像引用都换成加速域名:

# docker-compose.prod.yml
services:
  api:
    image: docker.1ms.run/node:18-alpine
  worker:
    image: docker.1ms.run/python:3.11-slim
  cache:
    image: docker.1ms.run/redis:7-alpine

K8s 集群也没落下:

1ms-helper config:k8s

集群里的 Pod 拉取镜像也走加速通道:

image: k8s.1ms.run/etcd:3.5.0
image: k8s.1ms.run/kube-apiserver:v1.28.0

效果数据

改造完成后的第一周数据:

指标 改造前 改造后
平均构建时间 47 分钟 2 分钟
构建失败率 15% 0%
镜像拉取超时次数 日均 8 次 0 次
凌晨发布成功率 60% 100%

运维群里终于安静了。

相关文章
|
13天前
|
Kubernetes 网络协议 文件存储
Docker镜像拉了一下午还没完?我受够了,花了一周找替代方案
上周拉镜像卡在47%两小时?试遍阿里云、高校源、GitHub清单全失效。直到发现「毫秒镜像」——宝塔、爱快、绿联NAS已原生集成,金融级客户背书。一行命令安装,3秒拉完nginx,全仓库加速(Docker Hub/gcr/ghcr/k8s等),含DNS自诊。免费版够用,稳定不跑路。
427 18
|
1月前
|
存储 人工智能 关系型数据库
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
OpenClaw插件是深度介入Agent生命周期的扩展机制,提供24个钩子,支持自动注入知识、持久化记忆等被动式干预。相比Skill/Tool,插件可主动在关键节点(如对话开始/结束)执行逻辑,适用于RAG增强、云化记忆等高级场景。
898 56
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
|
1月前
|
Arthas 人工智能 Java
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
Arthas Agent 是基于阿里开源Java诊断工具Arthas的AI智能助手,支持自然语言提问,自动匹配排障技能、生成安全可控命令、循证推进并输出结构化报告,大幅降低线上问题定位门槛。
1032 64
我们做了比你更懂 Java 的 AI-Agent -- Arthas Agent
|
1月前
|
人工智能 安全 前端开发
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
HiClaw 是 OpenClaw 的升级版,通过引入 Manager Agent 架构和分布式设计,解决了 OpenClaw 在安全性、多任务协作、移动端体验、记忆管理等方面的核心痛点。
1916 60
阿里开源 Team 版 OpenClaw,5分钟完成本地安装
|
9天前
|
Windows Python
SBTI 人格测试人一多网站就崩?试试这个本机就能轻松下载的 SBTI 测试
SBTI人格测试火爆致官网崩坏?这款Windows桌面版解压即用,离线答题不卡顿、不抢带宽,支持单机多测、随时分享。源自开源项目,尊重原作者,GitHub可下载或联系作者秒发包。(239字)
1287 11
|
11天前
|
人工智能 供应链 安全
2026 年网络威胁态势与智能防御体系研究 —— 基于 Check Point 威胁情报报告
本文基于Check Point 2026年4月威胁情报,系统剖析AI驱动攻击、供应链入侵、高危零日漏洞及定向威胁新趋势;提出以威胁情报驱动、AI检测、漏洞闭环、零信任与供应链安全为核心的一体化防御体系,并提供可落地的检测代码、配置与响应流程。(239字)
231 13
|
11天前
|
数据采集 人工智能 监控
AI应用的开发流程
AI应用开发需遵循“需求定义→模型选型→提示工程→RAG增强→工作流编排→评估优化→部署交付”闭环流程,覆盖从轻量智能体到垂直行业解决方案的全生命周期,强调数据驱动、工程落地与持续迭代。(239字)