一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末

简介: 一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末

一个拼写错误致微软Azure DevOps 宕机 10 小时

微软 Azure DevOps 是一套应用程序生命周期服务。5 月 24 日,Azure DevOps 在巴西南部(SBR)区域内一处 scale-unit(微软 Azure 部署架构中最小的容量单元)设施发生宕机,宕机持续了 10 个小时。

近日,微软首席软件工程经理 Eric Mattingly 对宕机事件表达歉意并透露了宕机原因:一个简单的拼写错误,致使 17 个生产数据库遭到删除。

Mattingly 解释道,Azure DevOps 工程师偶尔会保存生产数据库的快照,据此调查上报的问题或测试性能改进方向。为了清理这些快照数据库,会有专门的后台作业每天运行,并在快照超过一定期限后将其删除。

在最近的一波冲刺(敏捷上下文中的小组项目,编号为Sprint 222)中,Azure DevOps工程师执行了代码升级,想要用受支持的Azure.ResourceManager.* NuGet包替换掉已被弃用的Microsoft.Azure.Managment.*包。

这对应着一条巨大的 pull request 变更请求,会将旧包中的 API 调用替换为新包中的 API 调用。引发此次事件的拼写错误就出现在 pull request 内,导致后台快照删除作业删掉了整个服务器。

Mattingly 表示,“这条 pull request 中的快照删除作业里隐藏着一条拼写错误,它会删除 Azure SQL 数据库调用,并替换成删除托管数据库的 Azure SQL Server 调用。”

Azure DevOps 工程师使用安全部署实践(SDP)将 Sprint 222 部署到了 Ring 0(微软内部 Azure DevOps 组织),这里不存在快照数据库,所以删除作业不会执行。在 Ring 0 测试几天之后,Azure DevOps 工程师又将其部署至 Ring 1,也就是在此期间巴西南部的 scale-unit 设施受到了影响。快照数据库的存在时间触发了这项 bug,该作业在删除 Azure SQL Server 的同时,还删掉了 scale-unit 设施中所有 17 个生产数据库。从这时起,Azure DevOps 的 scale-unit 无法处理任何客户流量。

据 Mattingly 介绍,此次宕机事件并未引发数据丢失。为了防止问题再次发生,Mattingly 称微软已经采取了各种修复和重新配置措施,并向所有受此中断影响的客户道歉。

为什么耗时 10 小时才完成恢复?

据了解,Azure DevOps 是有检测此类问题的测试的。但根据 Mattingly 的介绍,“之所以以往没有发现,是因为这部分代码的运行条件非常罕见,我们的测试并没有切实覆盖这些极端情况。”有推测认为,这种极端条件要求删除脚本捕捉到特别陈旧的数据库快照。

虽然目前数据已经全部恢复,但整个宕机前后耗时 10 多个小时,为什么这么久才完成修复?Mattingly 对此做出了解释说明:“我们在数据库被删除后的 20 分钟内检测到宕机,值班工程师立即参与修复。在快速理解问题来源之后,我们开始恢复 SQL Server 及所有数据库,并禁用了快照删除作业以防止该 bug 影响到其他客户。但由于问题数量较多,因此恢复时间也相对较长。”

首先,客户无法自行恢复 Azure SQL Server,因此必须由 Azure SQL 团队参与恢复工作。确定需要 Azure SQL 值班工程师介入,接洽实际情况和问题,再加上服务器的实际恢复大约耗费了 1 个小时。

其次,所有数据库均配置有备份冗余,但部分数据库的创建时间早于区域冗余备份的上线时间。在恢复数据库时,Azure DevOps 为所有数据库选择了 Geo-zone-redundant,导致一部分还原数据按照此前配置的 Zone-redundant 备份被复制到了配对区域。这种匹配冲突又让恢复过程延长了好几个小时。对于这个问题,Azure DevOps 将确保所有数据库备份均按 Azure 区域支持被配置为 Geo-zone-redundant,使其覆盖 Azure DevOps 中的所有 scale-unit。

最后,在数据库开始恢复上线之后,由于 Azure DevOps 的 Web 服务器出现了一系列复杂问题,尽管数据库内容已经完成还原,客户也仍然无法访问整个 scale-unit 设施。

这个问题源自服务器的预热任务,该任务会通过测试调用遍历可用的数据库列表。但恢复过程中数据库招聘了一项错误,导致预热测试“执行指数级退避重试,令预热耗时由正常情况下的不到一秒延长到了平均 90 分钟。”

更复杂的是,整个恢复过程是交错进行的,一旦其中一、两台服务器重新开始接收客户流量,就会因过载而再次宕机。最终,工程师在只能阻断所有流向巴西南部 scale-unit 的流量,确保一切准备就绪再重新加入负载均衡器并处理流量。

如何避免此类问题再次发生?

目前,Azure DevOps 已经修复了快照删除作业中的 bug,并为快照删除作业创建了新的测试,面向真实 Azure 资源充分反映快照数据库的删除场景。

Mattingly 表示,Azure DevOps 正着手为关键资源添加 Azure 资源管理器锁,借此防止意外删除。同时,确保所有 Azure SQL 数据库备份均被配置为 Geo-zone-redundant 形式,并受到 Azure 区域的支持;确保未来的所有快照数据库,只会被创建在不同于生产数据库的 Azure SQL Server 实例之上。

此外,还会修复 Web 服务器预热任务的逻辑,确保即使数据库处于脱机状态时也能成功启动。并创建新的 cmdlet 来恢复已被删除的数据库,确保恢复结果使用与被删除前相同的设置(包括备份冗余)。

参考链接:

https://status.dev.azure.com/_event/392143683/post-mortem

https://www.theregister.com/2023/06/03/microsoft_azure_outage_brazil/

相关文章
|
存储 运维 监控
百万指标,秒级查询,零宕机——时序数据库 TDengine 在 AIOps 中的硬核实战
本篇文章详细讲述了七云团队在运维平台中如何利用 TDengine 解决海量时序数据存储与查询的实际业务需求。内容涵盖了从数据库选型、方案落地到业务挑战及解决办法的完整过程,特别是分享了升级 TDengine 3.x 时的实战经验,给到有需要的小伙伴参考阅读。
720 1
|
运维 Devops Java
DevOps 工具链:从代码到生产
【8月更文第30天】在现代软件开发中,DevOps(Development 和 Operations 的结合)已成为确保快速而可靠的软件交付的关键方法。DevOps 通过自动化流程将软件开发与 IT 运维相结合,从而实现持续集成 (CI) 和持续部署 (CD)。本文将介绍一个典型的 DevOps 工具链,并提供实际的代码示例来帮助您理解如何将这些工具集成在一起。
797 5
|
Kubernetes 监控 Devops
【独家揭秘】.NET项目中的DevOps实践:从代码提交到生产部署,你不知道的那些事!
【8月更文挑战第28天】.NET 项目中的 DevOps 实践贯穿代码提交到生产部署全流程,涵盖健壮的源代码管理、GitFlow 工作流、持续集成与部署、容器化及监控日志记录。通过 Git、CI/CD 工具、Kubernetes 及日志框架的最佳实践应用,显著提升软件开发效率与质量。本文通过具体示例,助力开发者构建高效可靠的 DevOps 流程,确保项目成功交付。
408 0
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之如何找回旧版rdc的代码仓库
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
存储 SQL JSON
【Azure Logic App】微软云逻辑应用连接到数据库,执行存储过程并转换执行结果为JSON数据
【Azure Logic App】微软云逻辑应用连接到数据库,执行存储过程并转换执行结果为JSON数据
220 0
【Azure Logic App】微软云逻辑应用连接到数据库,执行存储过程并转换执行结果为JSON数据
|
敏捷开发 缓存 Java
阿里云云效产品使用合集之如何确保代码不泄密
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
存储 C# 关系型数据库
“云端融合:WPF应用无缝对接Azure与AWS——从Blob存储到RDS数据库,全面解析跨平台云服务集成的最佳实践”
【8月更文挑战第31天】本文探讨了如何将Windows Presentation Foundation(WPF)应用与Microsoft Azure和Amazon Web Services(AWS)两大主流云平台无缝集成。通过具体示例代码展示了如何利用Azure Blob Storage存储非结构化数据、Azure Cosmos DB进行分布式数据库操作;同时介绍了如何借助Amazon S3实现大规模数据存储及通过Amazon RDS简化数据库管理。这不仅提升了WPF应用的可扩展性和可用性,还降低了基础设施成本。
468 0
|
SQL 存储 监控
|
监控 安全 Devops
DevOps实践:从代码到部署的无缝过渡
【8月更文挑战第30天】本文通过深入浅出的方式,向读者展示了DevOps文化和实践如何帮助团队实现从代码编写到软件部署的高效、自动化流程。我们将探讨持续集成(CI)、持续交付(CD)以及监控和日志记录的最佳实践,旨在为希望优化软件开发周期的专业人士提供实用指南。文章不展示具体代码示例,而是聚焦于概念理解和实践应用,确保内容即便在没有代码的情况下也具有实质性价值。