关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。
百种异常现场随机注入破坏系统
继去年跑了分、断了电,在9月19日下午的杭州云栖大会技术主论坛现场,专有云现场演示稳定性升级版,在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。
现场马劲让助手向观众席中扔出两只猴子玩偶,抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入,两位观众分别选择了19号和66号,分别代表的是“ECS云产品网络传输包乱序比例陡增”,模拟ECS网络不稳定,网络急速恶化,传输包乱序陡增的场景,以及“SLB云产品网络传输时延陡增”,模拟SLB所在网络不稳定,传输出现严重恶化,时延陡增的场景。在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整,从而不断打磨系统构建出“专有云免疫系统”。
似乎是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障,这类情况极易引发系统雪崩,一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用,现场应用却快速恢复正常,观众席响起热烈的掌声。
打磨产品稳定性,阿里云没有好办法只有“笨办法”
阿里云专有云承载着众多企业的关键业务,深知肩责任之重,也深知稳定性对客户业务意味着什么,因此打磨稳定性是专有云不渝的追求。然而,过去大部分系统都搭建在DIY系统上,不具备全系统演练的条件,而今天在阿里云这个“云计算机”上,可以在准生产环境下进行全方位立体化的演练。
混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景,一年365天都在全方位立体化的不断注入打磨系统,以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时,阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。
现实往往不按照故事的剧本走,阿里云没有“好办法”只有笨办法,那就是引入‘混沌工程’理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性,助力客户业务稳定性提升。
了解更多产品降价信息请戳链接
https://yunqi.aliyun.com/2018/hangzhou/product
了解更多阿里云产品请戳链接
https://www.aliyun.com/product/list?utm_code=p_2018090501
专属小游戏,《我和老板,那些不可描述的需求》等你来~
https://yq.aliyun.com/articles/641567