【藏经阁一起读（26）】读《云上业务稳定性保障实践白皮书》，你有哪些心得？

藏经阁2.0全新上线！下载本地、线上阅读让你轻松获取技术知识。为了让更多人学习到藏经阁中的优秀技术作品，培养好的阅读习惯，“藏经阁一起读”活动来啦，你阅读，我奖励！

阅读地址：https://developer.aliyun.com/ebook/7712

书籍简介：随着客户云上业务规模越来越大，迭代速度越来越快，系统复杂度越来越高，如何保障云上业务稳定性这个话题也变的愈发重要。本文将从理论概念出发、围绕故障管理体系和变更管控体系展开，并根据各行业客户稳定性实践经验，对云上业务稳定性体系建设进行多角度的讲解。

活动规则：阅读书籍，将你对于本书的想法、收获等在评论区留言，评论不少于200字，将选取评论质量最高的前2名和点赞数第一名送出章鱼镂空午睡枕一个。

活动时间：2022年8月23日~8月29日14:00

参与用户务必扫码加入钉群，第一时间了解活动进展、获取得奖信息。

lQLPJxZ5waT1HXTNAVDNAVCwoRgUcehMiKACyI1RkwB1AA_336_336.png

快来阅读吧！链接：https://developer.aliyun.com/ebook/7712

展开

收起

开发者小助理 2022-08-23 14:07:56 53091 4

22 条回答

写回答

取消提交回答

向阳疯张

真不错！！

2022-11-07 11:11:44

赞同 3 展开评论打赏
ny4nts

阿里云很棒

2022-08-31 10:02:43

赞同 1 展开评论打赏
游客2wi677dcnpu3g

随着业务功能越来越大,系统复杂度越来越高,怎么保证线上环境正常稳定运行,这个话题也不断的伴随着我们。这两天把阿里云的《云上业务稳定性保障实践白皮书》这本书读了一遍，结合自身业务场景，规划设计自己的保障有任务系统架构以及对故障管理系统流程规划。每当有重大节日比如双十一，618这种大型活动，保障电商支付场景以及下单业务场景流程方面，怎么去保障正常使用，切不出现问题。应用场景优化:利用监控系统，检测压测优化; 业务优化:可以通过缓存+数据库方式来解决; 数据库稳定性保障的SOP:数据库稳定性; 云上业务场景保障怎么规划: 通过零信任SDP（新一代网络安全模型）技术手段，减少业务系统互联网暴露面，大大降低被攻击的可能性。使用洋葱模型从预防、监测、响应和修复四个方面构建云上安全多层防护，代码安全审计、部署包安全检测、镜像安全检测、容器运行时防护等前沿安全技术嵌入IT系统全生命周期，有效的实现应用服务“安全左移”和“纵深防御”。基于多级跨域的数据安全可视化态势管控架构，将发现的安全威胁进行研判处置、发现的安全隐患进行通报派单、发现的高危操作进行一键关停。设置定时任务对机房设备进行漏洞扫描，通过设备状态监控、设备集中升级、安全策略下发、全局威胁监控等手段管理设备安全。稳定业务保障是一个长期漫长的过程，只有不断的实践积累相应的经验，输出自己标准化的体系。随着技术不断的发展，可以通过一些AI智能化算法提升业务保障，稳定系统持续运行; 随着业务功能越来越大,系统复杂度越来越高,怎么保证线上环境正常稳定运行,这个话题也不断的伴随着我们。这两天把阿里云的《云上业务稳定性保障实践白皮书》这本书读了一遍，结合自身业务场景，规划设计自己的保障有任务系统架构以及对故障管理系统流程规划。每当有重大节日比如双十一，618这种大型活动，保障电商支付场景以及下单业务场景流程方面，怎么去保障正常使用，切不出现问题。应用场景优化:利用监控系统，检测压测优化; 业务优化:可以通过缓存+数据库方式来解决; 数据库稳定性保障的SOP:数据库稳定性; 云上业务场景保障怎么规划: 通过零信任SDP（新一代网络安全模型）技术手段，减少业务系统互联网暴露面，大大降低被攻击的可能性。使用洋葱模型从预防、监测、响应和修复四个方面构建云上安全多层防护，代码安全审计、部署包安全检测、镜像安全检测、容器运行时防护等前沿安全技术嵌入IT系统全生命周期，有效的实现应用服务“安全左移”和“纵深防御”。基于多级跨域的数据安全可视化态势管控架构，将发现的安全威胁进行研判处置、发现的安全隐患进行通报派单、发现的高危操作进行一键关停。设置定时任务对机房设备进行漏洞扫描，通过设备状态监控、设备集中升级、安全策略下发、全局威胁监控等手段管理设备安全。稳定业务保障是一个长期漫长的过程，只有不断的实践积累相应的经验，输出自己标准化的体系。随着技术不断的发展，可以通过一些AI智能化算法提升业务保障，稳定系统持续运行

2022-08-30 10:35:08

赞同展开评论打赏
穿过生命散发芬芳
故障管理的全流程包括故障前(故障定义、故障发现)、故障中(故障判断、故障通告、故障定位、处理决策、故障快恢)、故障后(复盘改进、故障演练)很重要，在实践中构建云上稳定性保障也是依据此流程。
- 首先要确定客户方和云厂商的相关人员及这些人员在各个阶段的主要工作内容。
- 其次针对上面各个阶段的内容进行产品的选型，需要根据每个行业的业务特点来进行最合适的产品选择，这个云厂商有丰富的经验，可以提供相关的参考方案。
- 再就是安全防护的方案，一般会选择的产品包括DDos原生防护和高防IP，一般要先进行Poc测试，来确定增加安全防护后的网络延迟变化是否能满足业务需要，同时通过业务侧评估最终的业务带宽以及对应的防护带宽。
- 接下来就是一套前后端配合的全方位ECS稳定性重保服务策略。可以进一步提升ECS稳定性，保障客户业务的高效稳定运行。
- 下一步就是定制监控大屏，重点关注的内容有：网络带宽、CDN、ECS、安全流量、负载均衡、数据库等等。
- 最后是进行故障演练和应急保障的方案，一般应急保障的预案包括程序故障、网络故障、硬件故障、数据库故障、其他故障等等。
稳定性是一个长期、持续化的建设过程。一方面需要通过实践经验的不断积累，输出体系化的标准和流程，另一方面也需要不断提升数字化、工具化能力，让稳定性提升有数据可依托，任重而道远。
2022-08-28 23:16:43

赞同 3 展开评论打赏
钢铁小笼包

了解到不少服务安全点

2022-08-28 20:58:05

赞同 1 展开评论打赏
Star时光
随着当今互联网越来越复杂，各种业务规模不断发展，使用的系统也越来越复杂性，这个时候也会伴随着更多问题的出现，比如服务器不稳定，云系统出现问题而造成不可避免的问题，针对这些问题，结合公司业务体系，规划总结系统保障方案，就像阿里云提供的《云上业务稳定性保障实践白皮书》这本书一样。可以参考定制自己企业内容业务规划。

防范网络安装方案

网络安全是个不可避免的问题，每天都在发生，但是我们，在企业中怎么避免这些问题出现?怎么去防范? - 源头控制(ip):限定访问的IP，设置黑名单和白名单 - 端口控制:常用的知名端口，如80，修改知名端口或关闭不必要知名端口，采用不常用的端口号，端口不连号。 - 频率控制: 连续访问间隔控制,特定场景次数分析 - 请求地址控制: 恶意攻击地址请求拦截， - 流程控制和缓存控制：设置合理范围以及流程漏洞控制 - bug错误控制: 异常流程检测，业务请求监控

保障云服务器安全防护
- 在云计算时代，企业使用云服务器也是比较常见的,但是云服务的安全问题成了企业比较关注的难点，我们在企业中怎么防范服务器保障运行呢？
- 不断定时更新操作系统和各种补丁。
- 账号密码定期更新，防止泄露
- 关闭不常用的端口，防止资源泄露或则增加入侵
- 定期检测日志和数据备份
- 监控资源请求日志
我们常见的提升系统稳定性有很多项，比如，加服务器，扩容，资源隔离，代码逻辑优化，异步事件处理等等。就像这本书最后的总结一样，云业务是一个长期的，持续化的过程，需要不断通过实践经验的不断积累，输出体系化的标准和流程，最终建设符合企业稳定性的标准化的方案。
2022-08-27 22:57:39

赞同 10 展开评论打赏
zhangjw

感谢大佬分享

2022-08-26 18:00:51

赞同展开评论打赏
邓布利多_

得到

2022-08-26 15:36:59

赞同 1 展开评论打赏
风雪载途

大家相互学习

业务可用性概念在各个业务上的落地实践即为业务可用率。业务可用率是业务稳定性度量的重要指标。ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的配置项失效也是一种故障。根据各功能模块的业务量级去适配不同的影响面及故障等级定义模。故障管理全流程： 1.故障前通过故障发现通过监控、巡检手段、灰度发布、故障演练等有效手段发现故障。 2.故障中通过故障快恢一般包括重启、回滚、扩容、切流、限流、降级等方式。 3.故障后通过针对故障复盘后续改进等有效方式解决问题。

2022-08-28 08:03:10

赞同 1 展开评论打赏
dove

不错哦

2022-08-26 11:16:15

赞同展开评论打赏
verdalee

简介

这篇本写的很好，由于学习稳定性很有帮助！

2022-08-25 16:00:56

赞同展开评论打赏
张志凌

读《云上业务稳定性保障实践白皮书》感悟：伴随着后疫情时代的来临，云上业务越来越多、越来越复杂，协同办公、线上会议都需要强大的网络稳定性，来保证业务的正常运转，避免造成较大的业务危机，而每次发生的故障也不一定是相同的，因此衍生了故障等级定义：对于核心功能: a. 大体量的情况下（例如：高峰期分钟级超过1000TPS，日均100W以上），建议分钟级成功量下跌30%及以上定义为P1 建议分钟级成功量下跌30%及以上定义为P1 b.中体量的情况下（例如：高峰期分钟级100-1000TPS，日均 10-100W），建议10分钟内总体成功量下跌45%及以上定义为P1 c.小体量的情况下（例如高峰期分钟级10-100TPS，日均1-10W）， 15/30分钟内总体成功量下跌45%及以上定义为P1 d. 更小体量的业务（日均小于1W TPS），可使用60分钟内总体成功量下跌45%及以上定义为P2 在最高故障等级P1确定的情况下，我们依次降低影响面，形成P2-P4的标准（大体量业务的主路径失败可以考虑P3起，不设置P4级别故障），如 30%-20%， 45%-30%等影响面对应剩余等级。对于次核心功能（如营销类，注册类等业务），可以在核心功能的基础上统一降低一个级别; 对于非核心功能（如查询类，后台使用等业务），可以在核心功能的基础上统一降低两个级别；该故障等级定义非常适合对故障进行定级，方便管理和维护。

2022-08-25 14:27:06

赞同 1 展开评论打赏
六月暴雪飞梨花

华为云云享专家、阿里云专家博主、腾讯云优秀创作者、ACDU成员、数据治理工程师、PMP、系统集成项目管理工程师

【想法和收获】

大体看了下，让我针对整个内容有一个很好的了解，对整体概况有一个快速写照。当我们业务量越来越大，迭代次数越来越多的时候，稳定的发展成为了业态中比较重要的一个话题。而出现了故障，又能有迹可循，快速解决问题，并且有效预防下一次问题出现提供了知识保障，提供前车之鉴。

故障之前早发现、早预防；遇到故障可以快速判断、定位、处理、恢复；故障之后可复盘改进、演练定责。

整体内容描述准确，从业务引言中来，围绕四个方面来展开编写，从多个维度来讲解，提供全方位的故障处理体系： 1、云上业务（稳定性和概念知识） 2、介绍了云上业务管理体系知识（等级、管理体系、管理流程） 3、云上业务变更体系知识（变更流程、变更实践） 4、行业实践（游戏行业、直播行业、平台行业）

【意见】排版记得修改下，如果是在word上面编写的，「4.2.2 灰度」这个菜单的级别记得修改下。

2022-08-25 14:12:59

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
- 随着业务功能越来越大,系统复杂度越来越高,怎么保证线上环境正常稳定运行,这个话题也不断的伴随着我们。这两天把阿里云的《云上业务稳定性保障实践白皮书》这本书读了一遍，结合自身业务场景，规划设计自己的保障有任务系统架构以及对故障管理系统流程规划。
- 每当有重大节日比如双十一，618这种大型活动，保障电商支付场景以及下单业务场景流程方面，怎么去保障正常使用，切不出现问题。
  应用场景优化:利用监控系统，检测压测优化;
  业务优化:可以通过缓存+数据库方式来解决;
  数据库稳定性保障的SOP:数据库稳定性;
云上业务场景保障怎么规划:
- 通过零信任SDP（新一代网络安全模型）技术手段，减少业务系统互联网暴露面，大大降低被攻击的可能性。
- 使用洋葱模型从预防、监测、响应和修复四个方面构建云上安全多层防护，代码安全审计、部署包安全检测、镜像安全检测、容器运行时防护等前沿安全技术嵌入IT系统全生命周期，有效的实现应用服务“安全左移”和“纵深防御”。
- 基于多级跨域的数据安全可视化态势管控架构，将发现的安全威胁进行研判处置、发现的安全隐患进行通报派单、发现的高危操作进行一键关停。
- 设置定时任务对机房设备进行漏洞扫描，通过设备状态监控、设备集中升级、安全策略下发、全局威胁监控等手段管理设备安全。
- 稳定业务保障是一个长期漫长的过程，只有不断的实践积累相应的经验，输出自己标准化的体系。随着技术不断的发展，可以通过一些AI智能化算法提升业务保障，稳定系统持续运行
2022-08-25 12:14:05

赞同 20 展开评论打赏
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

中国企业采用云计算服务的比重偏低，这一方面与中国经济社会发展的时代环境和历史因素有关，另一方面又与中国企业目前较为缺乏上云方法论有关。从宏观角度来说，中国的经济增长方式一直较为侧重规模和速度，而在集约化生产、高效率生产和现代化技术应用层面存在着一定的不足。与此同时，中国企业在此前粗放型的发展过程中一直倚重人口红利，对现代化的管理方式尤其是最新的科学技术成果的应用和接纳程度不够，这就导致中国企业的云计算服务使用比例落后于西方国家。从企业角度来说，使用云计算服务的比重较低的原因是基础设施薄弱，对信息化重视程度不高、缺乏人才和缺乏认识，更是缺乏上云的方法论。毕竟，现在企业的经营环境越来越复杂，“互联网+”这个概念就炒了好几年，然后又是数字经济概念。在这些概念之下，公有云、私有云、混合云等技术名词和方法论又很容易让企业眼花缭乱。

但有差距，就意味有机遇，可以预计在接下来几年内，在政策刺激、外部环境转好、云技术成熟和企业自身的需求等诸多因素下，企业上云的速度将会加大。

2022-08-25 09:14:44

赞同 1 展开评论打赏
游客5r2gpilse2dbw

读《云上业务稳定性保障实践白皮书》感悟：众所周知，一款游戏的运行的稳定是这款游戏的基本，如果你三天两头发生炸服、高延迟、服务器宕机...等一系列问题，那你的游戏寿命会大大折损！所以保持游戏的稳定性及其重要！游戏业务因为转化周期短、成本控制、合服滚服架构复杂度等因素，很少会有自身架构上的高可用设计，业务稳定性基本依赖云厂商，并且对网络延迟，服务器宕机等问题很重视！尤其是游戏上线初期，用户对游戏服务器的稳定性有很高的的要求！所以说，游戏项目需要做好服务器以及客户端的业务逻辑层面，并且要做好业务部署，云产品选型，安全方案的制定以及压力测试，云产品提供方也要做好服务器的稳定，优化云上架构以及排除风险！另外，游戏的安全防护也很重要，DDos会攻击造成游戏用户体验卡顿、延迟以及掉线，会导致玩家流失，造成巨大经济损失，所以安全防护是游戏稳定保障不可或缺的一环，做好原生防护和高防IP，切实维护游戏安全。

2022-08-24 15:38:20

赞同 1 展开评论打赏
郑翼易

知行合一
读《云上业务稳定性保障实践白皮书》收获

背景

随着客户云服务规模的不断扩大、迭代速度的不断提高以及系统复杂度的不断增加，人们愈发重视云上业务稳定性的维护。在企业发展中，云服务的稳定运行是必然要求。如何保障云上业务的稳定性是维护云服务的重点之一。

内容

《云上业务稳定性保障实践白皮书》全文：
1. 首先从理论概念出发，阐述了稳定性以及故障的概念，并附有案例定义及目标，清晰易懂；
2. 紧跟着介绍了故障管理体系，也就是故障等级、故障分体系以及故障管理全流程。这里着重讲述了故障管理的全流程，包括故障发现、故障应急、故障快恢、故障复盘、改进追踪。可以发现整套故障管理流程是相对科学可靠的，故障发生后的处理方式是值得学习的，这也有利于云服务稳定性的维护。
3. 接着，从变更管理系统入手，强调了变更标准流程规范，以及变更管理的动作，其包含了准入、灰度、观测、回滚以及数据记录的上报。
4. 最后从三个行业的角度讲述了稳定性保障实践，分别是游戏业务稳定性保障、直播业务稳定性保障、平台网站业务稳定性保障。分别从多个角度阐述了这些业务稳定性保障的实践过程以及注意事项，并且提供了相关操作方法，都是有效可用的建议。
总的来说，本文的实用性高，对云上业务稳定性体系的建设进行了多角度的讲解，有利于我们在某些业务场景下做出合理的决策。

总结

引用文章的话：

稳定性是一个长期、持续化的建设过程。一方面需要通过实践经验的不断积累，输出体系化的标准和流程，建立科学有效的稳定性评估提升量化标准; 另一方面也需要不断提升数字化、工具化能力，让稳定性提升有数据可依托，让故障应急响应流程从由人工驱动升级到由平台系统驱动，应急响应人员可以更专心地处理故障，缩短故障恢复时间。
2022-08-24 15:21:42

赞同 1 展开评论打赏
魏铁锤

一个热爱写代码的Java软件设计工程师

读《云上业务稳定性保障实践白皮书》感悟：众所周知，一款游戏的运行的稳定是这款游戏的基本，如果你三天两头发生炸服、高延迟、服务器宕机...等一系列问题，那你的游戏寿命会大大折损！所以保持游戏的稳定性及其重要！游戏业务因为转化周期短、成本控制、合服滚服架构复杂度等因素，很少会有自身架构上的高可用设计，业务稳定性基本依赖云厂商，并且对网络延迟，服务器宕机等问题很重视！尤其是游戏上线初期，用户对游戏服务器的稳定性有很高的的要求！所以说，游戏项目需要做好服务器以及客户端的业务逻辑层面，并且要做好业务部署，云产品选型，安全方案的制定以及压力测试，云产品提供方也要做好服务器的稳定，优化云上架构以及排除风险！另外，游戏的安全防护也很重要，DDos会攻击造成游戏用户体验卡顿、延迟以及掉线，会导致玩家流失，造成巨大经济损失，所以安全防护是游戏稳定保障不可或缺的一环，做好原生防护和高防IP，切实维护游戏安全。

2022-08-24 12:15:17

赞同展开评论打赏
qi酱

来了上次写读后感还是高中哈哈哈，这本书我是真的读了以此图为证。!![O7D0676QO2{}W87L0%}8P4.png 1. 我做站长的我本来以为这本书是怎么预防CC和DDOS攻击的，欸~还真不是

2.这边书还是挺详细介绍了故障管理体系，不得不说确实一个字：真细！！！！！其中和其他安全防范书不一样的是; 故障分是阿里巴巴独特的故障衡量机制，通过算法赋予故障一个分值，解决了传统故障考核中的只看个数不看故障严重程度（持续时长，影响范围等）的弊端，同时有效提升了故障的MTTR 故障解决的方式让人眼前一新，具体是怎么让眼前一新我建议还是去看看这里谁也拦不住我，我必须放个图，谁也拦不住！！！！！！！非常完美的处理环节嘿嘿嘿嘿嘿，就和踢足球一样，又前卫有中锋，有后卫。无懈可击。准入、灰度、观测、回滚、数据记录上报等变更管控动作非常解决维护的痛点。 3.超多方位从电商，游戏，直播等对云上业务稳定性体系建设进行多角度的讲解。超体现了安全与网络发展趋势与时俱进的发展，为各个方位提供全面的解决策略，所以说我觉得必须有个大大的好评，如今实用性，可能比知识性更利益可视化，有利于人们面对庞大的内容做出正确的决策。nice！！！！ 4. 题外话，我同学，前些阵子被DDOS和CC攻击，他又用了cdn按流量计费的，呵呵呵呵呵，感受楚痛吧！！！！所以说，还是要做好网络安全问题的。

5.一不小心就写了500字希望大大钦点我的文章！

2022-08-23 19:31:39

赞同 3 展开评论打赏
我是快乐的嘟嘟

coder

云服务稳定运行是企业发展的重要保障。云服务稳定性保障一直是个热门的话题。也是云服务维护侧重点儿。 <<云上业务稳定性保障实践白皮书>>这本书在理论概念上阐述了什么是稳定性？以及故障的概念。并且介绍了稳定性相关的指标，列举了对应的案例。进而从故障管理体系入手介绍了故障等级的定义和分体系，着重讲述了故障管理全流程。通过建立全流程闭环的故障管理体系，从故障发现、故障应急、故障快恢等方面配合技术手段的提升，来降低故障发生的几率；从故障复盘，改进追踪等方面建立一个可遵循规范，从而有效的维护云服务的稳定性。然后讲述了变更管控体系：介绍了变更标准流程规范，着重介绍了，准入、灰度、观测、回滚、数据记录上报等变更管控动作。然后着重介绍了游戏业务稳定性保障的实践，直播业务稳定性保障的实践，平台网站业务稳定性保障实践。从多个方面多个角度讲解阐述稳定性保障实践过程和注意事项。稳定性是一个长期、持续化的建设过程。一方面需要通过实践经验的不断积累，输出体系化的标准和流程，建立科学有效的稳定性评估提升量化标准，另一方面也需要不断提升数字化、工具化能力，让稳定性提升有数据可依托，让故障应急响应流程从由人工驱动升级到由平台系统驱动，应急响应人员可以更专心地处理故障，缩短故障恢复时间。

2022-08-23 16:28:16

赞同 60 展开评论打赏