引言
2025 年 6 月 12 日,Google Cloud 经历了一次重大故障,导致 Gmail、YouTube、Google 搜索、Google Cloud API 以及众多依赖其服务的互联网应用出现大规模中断。这次故障从太平洋时间 10:51 开始,直到 18:18 才完全解决,持续了约 7 小时 27 分钟。
根因分析
据 Google Cloud 发布的报告,此次故障产生的根本原因是一个新功能在没有经过充分测试和灰度发布的情况下被直接部署到生产环境,并且处理推送关键配置没有灰度过程。具体来说有以下几个环节:
故障引入:新功能部署
Google Cloud 为 Service Control 系统添加了一个新功能,用于配额策略检查。这个功能在没有经过充分测试和灰度发布的情况下被直接部署到生产环境。
设计缺陷:错误处理不足
新添加的功能缺乏适当的错误处理机制,特别是对于意外的空字段(blank fields)没有进行处理。根据 Reddit 上的信息,代码中存在致命缺陷:无法处理策略数据中的意外空字段。
故障触发:空指针异常
推送新配置,当系统遇到空字段时,代码抛出了空指针异常(null pointer exception),导致 Service Control 实例完全无响应,并进入崩溃循环(crash loop)状态。
连锁反应:全球服务中断
由于推送新配置没有灰度过程,导致配置在全球范围几秒内迅速生效,且 Service Control 是 Google Cloud 的核心组件,负责 API 管理和配额控制,其故障导致了连锁反应,影响了众多依赖 Google Cloud 的服务和应用,造成了全球范围的互联网中断。