6月27日阿里云故障说明

简介: 6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。

6月27日下午,我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题,引发了大量吐槽。故障于北京时间2018年6月27日16:21左右开始,16:50分开始陆续恢复。

经过紧急技术复盘,故障原因如下:

当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。

受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。



阿里云计算有限公司

2018年6月27日

相关文章
|
7月前
|
存储 Kubernetes API
K8S上生产环境后,90%都会遇到这个故障
K8S上生产环境后,90%都会遇到这个故障
373 0
|
27天前
|
存储 Shell 数据库
某客户多节点磁盘故障集群恢复
gbase 数据 某客户多节点磁盘故障集群恢复
|
5月前
|
运维 监控 算法
中间件故障转移故障检测
【7月更文挑战第25天】
57 1
|
5月前
|
消息中间件 监控 负载均衡
中间件故障转移与容错
【7月更文挑战第23天】
96 1
|
7月前
|
存储 运维 监控
双活中心故障检测与切换机制
双活中心故障检测与切换机制
262 2
|
监控 安全 数据安全/隐私保护
服务器数据恢复—如何预防服务器故障?发生故障后如何恢复服务器数据?
服务器常见故障: 硬件故障:磁盘、板卡、电源故障等。 软件故障:操作系统崩溃、程序运行错误等。 入侵破坏:加密、删除服务数据等。 不可控力:浸水、火烧、倒塌等。 误操作:格式化、删除、覆盖等。
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
|
监控 容灾 安全
系统总出故障怎么办?
系统总出故障怎么办?
113 0
浅谈电气设备故障维修保养
电气设备故障的现象有时表现在电气方面,有时表现在机械方面。我们进行检修电气设备故障时,只要熟练掌握电动机电气故障检修常用方法,对电动机的性能充分了解,往往能顺利排除故障。
|
消息中间件 Kubernetes Cloud Native
如果故障选择了你……
总以为混沌工程离你很远?但发生故障的那一刻不是由你来选择的,而是那一刻来选择你,你能做的就是为之做好准备。混沌工程在阿里内部已经应用多年,而ChaosBlade这个开源项目是阿里多年来通过注入故障来对抗故障的经验结晶。为使大家更深入的了解其实现原理以及如何扩展自己所需要的组件故障注入,我们准备了一个系列对其做详细技术剖析:架构篇、模型篇、协议篇、字节码篇、插件篇以及实战篇。
如果故障选择了你……

热门文章

最新文章