从Google线上故障，谈灰度发布的重要性-阿里云开发者社区

从Google线上故障，谈灰度发布的重要性

2025-12-30 5

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： cascasca

引言

2025 年 6 月 12 日，Google Cloud 经历了一次重大故障，导致 Gmail、YouTube、Google 搜索、Google Cloud API 以及众多依赖其服务的互联网应用出现大规模中断。这次故障从太平洋时间 10:51 开始，直到 18:18 才完全解决，持续了约 7 小时 27 分钟。

根因分析

据 Google Cloud 发布的报告，此次故障产生的根本原因是一个新功能在没有经过充分测试和灰度发布的情况下被直接部署到生产环境，并且处理推送关键配置没有灰度过程。具体来说有以下几个环节：

故障引入：新功能部署

Google Cloud 为 Service Control 系统添加了一个新功能，用于配额策略检查。这个功能在没有经过充分测试和灰度发布的情况下被直接部署到生产环境。

设计缺陷：错误处理不足

新添加的功能缺乏适当的错误处理机制，特别是对于意外的空字段（blank fields）没有进行处理。根据 Reddit 上的信息，代码中存在致命缺陷：无法处理策略数据中的意外空字段。

故障触发：空指针异常

推送新配置，当系统遇到空字段时，代码抛出了空指针异常（null pointer exception），导致 Service Control 实例完全无响应，并进入崩溃循环（crash loop）状态。

连锁反应：全球服务中断

由于推送新配置没有灰度过程，导致配置在全球范围几秒内迅速生效，且 Service Control 是 Google Cloud 的核心组件，负责 API 管理和配额控制，其故障导致了连锁反应，影响了众多依赖 Google Cloud 的服务和应用，造成了全球范围的互联网中断。

从Google线上故障，谈灰度发布的重要性

故障引入：新功能部署

设计缺陷：错误处理不足

故障触发：空指针异常

连锁反应：全球服务中断

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从Google线上故障，谈灰度发布的重要性

故障引入：新功能部署

设计缺陷：错误处理不足

故障触发：空指针异常

连锁反应：全球服务中断

热门文章

最新文章

相关电子书