一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末

本文涉及的产品
云数据库 RDS SQL Server,独享型 2核4GB
简介: 一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末

一个拼写错误致微软Azure DevOps 宕机 10 小时

微软 Azure DevOps 是一套应用程序生命周期服务。5 月 24 日,Azure DevOps 在巴西南部(SBR)区域内一处 scale-unit(微软 Azure 部署架构中最小的容量单元)设施发生宕机,宕机持续了 10 个小时。

近日,微软首席软件工程经理 Eric Mattingly 对宕机事件表达歉意并透露了宕机原因:一个简单的拼写错误,致使 17 个生产数据库遭到删除。

Mattingly 解释道,Azure DevOps 工程师偶尔会保存生产数据库的快照,据此调查上报的问题或测试性能改进方向。为了清理这些快照数据库,会有专门的后台作业每天运行,并在快照超过一定期限后将其删除。

在最近的一波冲刺(敏捷上下文中的小组项目,编号为Sprint 222)中,Azure DevOps工程师执行了代码升级,想要用受支持的Azure.ResourceManager.* NuGet包替换掉已被弃用的Microsoft.Azure.Managment.*包。

这对应着一条巨大的 pull request 变更请求,会将旧包中的 API 调用替换为新包中的 API 调用。引发此次事件的拼写错误就出现在 pull request 内,导致后台快照删除作业删掉了整个服务器。

Mattingly 表示,“这条 pull request 中的快照删除作业里隐藏着一条拼写错误,它会删除 Azure SQL 数据库调用,并替换成删除托管数据库的 Azure SQL Server 调用。”

Azure DevOps 工程师使用安全部署实践(SDP)将 Sprint 222 部署到了 Ring 0(微软内部 Azure DevOps 组织),这里不存在快照数据库,所以删除作业不会执行。在 Ring 0 测试几天之后,Azure DevOps 工程师又将其部署至 Ring 1,也就是在此期间巴西南部的 scale-unit 设施受到了影响。快照数据库的存在时间触发了这项 bug,该作业在删除 Azure SQL Server 的同时,还删掉了 scale-unit 设施中所有 17 个生产数据库。从这时起,Azure DevOps 的 scale-unit 无法处理任何客户流量。

据 Mattingly 介绍,此次宕机事件并未引发数据丢失。为了防止问题再次发生,Mattingly 称微软已经采取了各种修复和重新配置措施,并向所有受此中断影响的客户道歉。

为什么耗时 10 小时才完成恢复?

据了解,Azure DevOps 是有检测此类问题的测试的。但根据 Mattingly 的介绍,“之所以以往没有发现,是因为这部分代码的运行条件非常罕见,我们的测试并没有切实覆盖这些极端情况。”有推测认为,这种极端条件要求删除脚本捕捉到特别陈旧的数据库快照。

虽然目前数据已经全部恢复,但整个宕机前后耗时 10 多个小时,为什么这么久才完成修复?Mattingly 对此做出了解释说明:“我们在数据库被删除后的 20 分钟内检测到宕机,值班工程师立即参与修复。在快速理解问题来源之后,我们开始恢复 SQL Server 及所有数据库,并禁用了快照删除作业以防止该 bug 影响到其他客户。但由于问题数量较多,因此恢复时间也相对较长。”

首先,客户无法自行恢复 Azure SQL Server,因此必须由 Azure SQL 团队参与恢复工作。确定需要 Azure SQL 值班工程师介入,接洽实际情况和问题,再加上服务器的实际恢复大约耗费了 1 个小时。

其次,所有数据库均配置有备份冗余,但部分数据库的创建时间早于区域冗余备份的上线时间。在恢复数据库时,Azure DevOps 为所有数据库选择了 Geo-zone-redundant,导致一部分还原数据按照此前配置的 Zone-redundant 备份被复制到了配对区域。这种匹配冲突又让恢复过程延长了好几个小时。对于这个问题,Azure DevOps 将确保所有数据库备份均按 Azure 区域支持被配置为 Geo-zone-redundant,使其覆盖 Azure DevOps 中的所有 scale-unit。

最后,在数据库开始恢复上线之后,由于 Azure DevOps 的 Web 服务器出现了一系列复杂问题,尽管数据库内容已经完成还原,客户也仍然无法访问整个 scale-unit 设施。

这个问题源自服务器的预热任务,该任务会通过测试调用遍历可用的数据库列表。但恢复过程中数据库招聘了一项错误,导致预热测试“执行指数级退避重试,令预热耗时由正常情况下的不到一秒延长到了平均 90 分钟。”

更复杂的是,整个恢复过程是交错进行的,一旦其中一、两台服务器重新开始接收客户流量,就会因过载而再次宕机。最终,工程师在只能阻断所有流向巴西南部 scale-unit 的流量,确保一切准备就绪再重新加入负载均衡器并处理流量。

如何避免此类问题再次发生?

目前,Azure DevOps 已经修复了快照删除作业中的 bug,并为快照删除作业创建了新的测试,面向真实 Azure 资源充分反映快照数据库的删除场景。

Mattingly 表示,Azure DevOps 正着手为关键资源添加 Azure 资源管理器锁,借此防止意外删除。同时,确保所有 Azure SQL 数据库备份均被配置为 Geo-zone-redundant 形式,并受到 Azure 区域的支持;确保未来的所有快照数据库,只会被创建在不同于生产数据库的 Azure SQL Server 实例之上。

此外,还会修复 Web 服务器预热任务的逻辑,确保即使数据库处于脱机状态时也能成功启动。并创建新的 cmdlet 来恢复已被删除的数据库,确保恢复结果使用与被删除前相同的设置(包括备份冗余)。

参考链接:

https://status.dev.azure.com/_event/392143683/post-mortem

https://www.theregister.com/2023/06/03/microsoft_azure_outage_brazil/

相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情: https://www.aliyun.com/product/rds/sqlserver
相关文章
|
Oracle 关系型数据库 数据库
Oracle生产数据库insert插入较慢分析过程和解决办法
Oracle生产数据库insert插入较慢分析过程和解决办法
320 0
|
9月前
|
存储 关系型数据库 MySQL
rancher服务部署之DevOps流水线(一)—基础数据库服务部署及rancher相关配置私服信息
rancher服务部署之DevOps流水线(一)—基础数据库服务部署及rancher相关配置私服信息
|
SQL 存储 消息中间件
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
|
Rust 数据可视化 安全
95后百度员工对领导不满,删改公司数据库被判刑;微软在美取消竞业协议;TikTok中国管理团队与海外员工冲突引发离职潮 |Q资讯
95 后百度员工因项目被接手对领导不满,刻意删改公司数据库被判刑;微软宣布在美国停止执行员工竞业协议;字节跳动员工“秘密”入职快手,被判返赔近 38 万;特斯拉将裁员 1 万人、暂停全球招聘,马斯克回应:裁员不涉及实际生产人员,还将增加小时工;TikTok 中国管理团队与英国员工发生矛盾冲突,众多员工离职,涉事高管被停职调查;蚂蚁集团:目前没有启动 IPO 的计划;无视微软反对,美商务部限制中美网络安全合作;GitHub Atom 将停用,6 个月后完成归档......
237 0
|
存储 数据采集 SQL
案例分享:Qt西门子机床人机界面以及数据看板定制(西门子通讯,mysql数据库,生产信息,参数信息,信息化看板,权限控制,播放器,二维图表,参数调试界面)
案例分享:Qt西门子机床人机界面以及数据看板定制(西门子通讯,mysql数据库,生产信息,参数信息,信息化看板,权限控制,播放器,二维图表,参数调试界面)
案例分享:Qt西门子机床人机界面以及数据看板定制(西门子通讯,mysql数据库,生产信息,参数信息,信息化看板,权限控制,播放器,二维图表,参数调试界面)
|
SQL 存储 消息中间件
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
这个事情发生在两年前,是某丰的工程师,根据网上披露的信息,大体情况是这样:首先工程师接到了需求变更的任务工单,需要进行数据库SQL执行操作,并事先准备好了SQL的脚本。接下来通过登陆跳板机就进入到了生产数据库的管理端,然后运行Navicat-MySQL的客户端管理工具。这时候问题出现了,他发现自己选择错了数据库,但是SQL脚本已经粘贴上准备执行了,所以他的目的是按delete键删除选定的执行SQL语句,可是万万没想到鼠标光标跳到了数据库实例上面,这时候的delete键就是删除数据库实例了,结果这位工程师还不看弹出框的提醒,直接按了回车键。最后的结果那就是运营监控管控平台挂了!故障持续了10小时
工程师误删了公司生产数据库,如何看待数据安全架构的脆弱性?
|
3天前
|
关系型数据库 MySQL 分布式数据库
《MySQL 简易速速上手小册》第6章:MySQL 复制和分布式数据库(2024 最新版)
《MySQL 简易速速上手小册》第6章:MySQL 复制和分布式数据库(2024 最新版)
25 2
|
19天前
|
SQL 数据可视化 关系型数据库
轻松入门MySQL:深入探究MySQL的ER模型,数据库设计的利器与挑战(22)
轻松入门MySQL:深入探究MySQL的ER模型,数据库设计的利器与挑战(22)
101 0
|
19天前
|
存储 关系型数据库 MySQL
轻松入门MySQL:数据库设计之范式规范,优化企业管理系统效率(21)
轻松入门MySQL:数据库设计之范式规范,优化企业管理系统效率(21)
|
19天前
|
关系型数据库 MySQL 数据库
轻松入门MySQL:精准查询,巧用WHERE与HAVING,数据库查询如虎添翼(7)
轻松入门MySQL:精准查询,巧用WHERE与HAVING,数据库查询如虎添翼(7)