黑科技揭秘:百种异常随机注入,专有云为何稳如泰山

简介: 关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

百种异常现场随机注入破坏系统

image001

继去年跑了分、断了电,在9月19日下午的杭州云栖大会技术主论坛现场,专有云现场演示稳定性升级版,在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。

image003

现场马劲让助手向观众席中扔出两只猴子玩偶,抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入,两位观众分别选择了19号和66号,分别代表的是“ECS云产品网络传输包乱序比例陡增”,模拟ECS网络不稳定,网络急速恶化,传输包乱序陡增的场景,以及“SLB云产品网络传输时延陡增”,模拟SLB所在网络不稳定,传输出现严重恶化,时延陡增的场景。在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整,从而不断打磨系统构建出“专有云免疫系统”。

似乎是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障,这类情况极易引发系统雪崩,一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用,现场应用却快速恢复正常,观众席响起热烈的掌声。

image005

打磨产品稳定性,阿里云没有好办法只有“笨办法”

阿里云专有云承载着众多企业的关键业务,深知肩责任之重,也深知稳定性对客户业务意味着什么,因此打磨稳定性是专有云不渝的追求。然而,过去大部分系统都搭建在DIY系统上,不具备全系统演练的条件,而今天在阿里云这个“云计算机”上,可以在准生产环境下进行全方位立体化的演练。

混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景,一年365天都在全方位立体化的不断注入打磨系统,以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时,阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。

现实往往不按照故事的剧本走,阿里云没有“好办法”只有笨办法,那就是引入‘混沌工程’理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性,助力客户业务稳定性提升。

了解更多产品降价信息请戳链接
https://yunqi.aliyun.com/2018/hangzhou/product
了解更多阿里云产品请戳链接
https://www.aliyun.com/product/list?utm_code=p_2018090501
专属小游戏,《我和老板,那些不可描述的需求》等你来~
https://yq.aliyun.com/articles/641567

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
存储 人工智能 数据管理
"AI大改造,让NAS焕发新生!智能分类、秒速检索、隐私守护、故障先知……你的数据存储神器全面升级,告别传统,拥抱未来智能NAS新纪元!"
【8月更文挑战第14天】大数据时代催生了对高效数据管理的需求,传统NAS面临挑战。AI技术的应用为NAS带来智能数据分类、内容分析检索、安全防护及预测性维护等功能。通过示例代码展示了AI如何简化数据管理、提升用户体验、保障数据安全及提高系统稳定性。集成AI的NAS正引领数据存储新时代。
50 3
|
5月前
|
测试技术 API 智能硬件
语言模型在提升智能助手引用解析能力中的创新应用
【4月更文挑战第4天】苹果研究团队推出了ReALM,一种利用大型语言模型解决引用解析的新方法,提升智能助手理解用户意图和上下文的能力。ReALM将引用解析转化为语言建模问题,尤其擅长处理屏幕上的实体,比现有系统提升超5%,性能接近GPT-4但参数更少。其模块化设计易于集成,可在不同场景下扩展。然而,复杂查询处理和依赖上游数据检测器可能影响其准确性和稳定性。
108 6
语言模型在提升智能助手引用解析能力中的创新应用
|
5月前
|
机器学习/深度学习 算法 API
视觉智能平台常见问题之算法私有化部署交付给公司内部运行如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
111 1
|
5月前
|
机器学习/深度学习 计算机视觉 开发者
视觉智能平台常见问题之本地私有化部署如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
5月前
|
运维 安全 程序员
如何使用远程控制软件并将用途最大化?4款国内外优质应用测评解析
如何使用远程控制软件并将用途最大化?4款国内外优质应用测评解析
78 0
如何使用远程控制软件并将用途最大化?4款国内外优质应用测评解析
|
机器学习/深度学习 人工智能 搜索推荐
|
存储 边缘计算 编解码
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
《2022中国云游戏行业认知与观察》——第二章、云游戏应用场景与技术实践——2.2 微端:游戏小包分发 提高转化效率——2.2.1 应用案例 十秒完成下载,《三国志·战略版》用了什么黑科技?
244 0
|
5月前
|
存储 运维 监控
安全防御四部曲---检测实践方案 (多产品结合)
本次方案主要是针对阿里云国际站客户,企业在实际使用阿里云的过程中如何做好运维检测的一些多产品结合的方案介绍。 本篇文章的重点会放在检测(Detection)部分,会具体介绍涉及使用产品配置,FAQ等等,同时对整体的理论框架进行简单的介绍,帮助大家更好理解本部分在运维工作中的分属情况,更好的建立整体性的概念。
311 2
安全防御四部曲---检测实践方案 (多产品结合)
|
负载均衡 监控 安全
网关系统就该这么设计,万能通用,稳的一批!
网关系统就该这么设计,万能通用,稳的一批!
|
负载均衡 监控 安全
网关系统就该这么设计(万能通用),稳的一批!
网关系统就该这么设计(万能通用),稳的一批!
下一篇
无影云桌面