黑科技揭秘:百种异常随机注入,专有云为何稳如泰山

本文涉及的产品
云服务器 ECS,每月免费额度280元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?”2018杭州云栖大会主论坛演示现场,阿里云专有云事业部兼企业应用事业部总经理马劲一连发出让技术人员感同身受的三连问。

百种异常现场随机注入破坏系统

image001

继去年跑了分、断了电,在9月19日下午的杭州云栖大会技术主论坛现场,专有云现场演示稳定性升级版,在现场搭建的专有云“企业号”数据中心系统上随机注入异常搞破坏。该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。

image003

现场马劲让助手向观众席中扔出两只猴子玩偶,抢到的观众可以在现场呈现的1-100个异常中随机选取一个异常注入,两位观众分别选择了19号和66号,分别代表的是“ECS云产品网络传输包乱序比例陡增”,模拟ECS网络不稳定,网络急速恶化,传输包乱序陡增的场景,以及“SLB云产品网络传输时延陡增”,模拟SLB所在网络不稳定,传输出现严重恶化,时延陡增的场景。在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。这是因为专有云系统日常就是在通过注入这类异常收集反馈进行调整,从而不断打磨系统构建出“专有云免疫系统”。

似乎是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了极端环境下的超级异常——核心ECS集群局部网络异常且另一台ECS计算资源饱和。“这模拟了业务高峰期服务器已经超高负载时的网络故障,这类情况极易引发系统雪崩,一旦雪崩恢复时间很长。”马劲解释道。演示现场阿里云负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用,现场应用却快速恢复正常,观众席响起热烈的掌声。

image005

打磨产品稳定性,阿里云没有好办法只有“笨办法”

阿里云专有云承载着众多企业的关键业务,深知肩责任之重,也深知稳定性对客户业务意味着什么,因此打磨稳定性是专有云不渝的追求。然而,过去大部分系统都搭建在DIY系统上,不具备全系统演练的条件,而今天在阿里云这个“云计算机”上,可以在准生产环境下进行全方位立体化的演练。

混沌工程是专有云针对理论科学搭建系统同时利用实践科学不断打磨系统的最佳组合。阿里云异常库中拥有高达12600种的异常场景,一年365天都在全方位立体化的不断注入打磨系统,以提前帮助客户排除系统中80%的故障。当别人还困扰于硬件层级的异常发生该如何处理时,阿里云专有云已经在用更深层级的组合异常打磨系统。这一切的投入和执着锤炼稳定性都只为持续给客户提供更稳定更可靠的产品。

现实往往不按照故事的剧本走,阿里云没有“好办法”只有笨办法,那就是引入‘混沌工程’理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性,助力客户业务稳定性提升。

了解更多产品降价信息请戳链接
https://yunqi.aliyun.com/2018/hangzhou/product
了解更多阿里云产品请戳链接
https://www.aliyun.com/product/list?utm_code=p_2018090501
专属小游戏,《我和老板,那些不可描述的需求》等你来~
https://yq.aliyun.com/articles/641567

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
28天前
|
机器学习/深度学习 算法 API
视觉智能平台常见问题之算法私有化部署交付给公司内部运行如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
22 1
|
6月前
|
传感器 机器学习/深度学习 中间件
CLAID:关闭人工智能和数据收集的循环——一个用于智能边缘云和数字生物标记应用的跨平台透明计算中间件框架
CLAID:关闭人工智能和数据收集的循环——一个用于智能边缘云和数字生物标记应用的跨平台透明计算中间件框架
95 0
|
12月前
|
负载均衡 监控 安全
网关系统就该这么设计,万能通用,稳的一批!
网关系统就该这么设计,万能通用,稳的一批!
|
12月前
|
负载均衡 监控 安全
网关系统就该这么设计(万能通用),稳的一批!
网关系统就该这么设计(万能通用),稳的一批!
|
存储 弹性计算 安全
《阿里云代码安全白皮书》5个维度应对3类代码安全问题
在互联网快速发展的时代,代码是企业最核心的资产,代码安全也是企业资产安全最重要部分;为了保护企业代码安全,各公司使出的手段也是五花八门。阿里云云效联合阿里云的代码安全能力从基础安全、备份与恢复、安全与加密、审计与洞察、代码安全检测5个维度,达成「进不来」、「搞不坏」、「译不破」、「带不走」、「赖不掉」的效果。
1826 1
《阿里云代码安全白皮书》5个维度应对3类代码安全问题
|
边缘计算 运维 监控
边缘节点服务ENS重磅升级 阿里云首次定义“边缘云计算”概念层层深入
在这一横一纵之间,阿里云在2018年率先提供了基于运营商边缘节点和网络的弹性分布式算力资源平台,也就是边缘节点服务ENS,连接最后10公里的ENS可以帮助用户将计算、转发等业务下沉至边缘,把终端到边缘节点的时延缩小到5毫秒,终端到云的访问频次将减少80%,计算、存储、网络等成本可以节省30%以上。
5752 0
|
新零售 安全 持续交付
现有的静态代码扫描体系弱爆了?看看阿里的吧!
本文由淘宝技术部高级无线开发工程师详细剖析了手机淘宝的现状及挑战。针对手淘问题发现被动、感知模糊和缺乏经验积累等众多问题,阿里精心研发推出了定制化的移动静态代码扫描体系!那么该自行研发的扫描体系与已有的在线代码扫描工具相比有何优势呢?阿里将其应用于EMAS持续交付解决方案中,用数据说明实力!
7111 0
|
存储 安全 云计算
更接近底层的云服务——自定义服务器
本文讲的是更接近底层的云服务——自定义服务器,毫无疑问,基础设施架构对于应用人员来说是复杂的。因此云计算的一个重要目的就是把企业从对基础设施架构的庞杂管理中解放出来,让用户不需要知道自己的服务运行在什么样的复杂环境里,只需要去应用就行了。
1164 0