从一位在线教育客户的紧急咨询说起

本文涉及的产品
性能测试 PTS,5000VUM额度
注册配置 MSE Nacos/ZooKeeper,118元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 在家运维不用慌系列文章,附赠系列直播,欢迎参与,文末有惊喜!

“我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。但我们也清楚,等正式开学,还会有更多的流量进来,而且很可能高流量会成为一种常态,这使得我们开始重新审视当前的基础设施是否能支撑未来的业务发展。”

这段时间,遇到这类情况的客户不只这一家,我们接到了大量的来自在线教育客户的紧急咨询,需求均是是否有一些不影响现有架构的无侵入工具,能应对流量的激增情况,同时也会开始重新梳理架构和业务之间的关系。

本文整理了阿里在高可用架构建设过程中的一些实践,分为架构设计、容量规划、业务监控、线上管控、日常巡检和常态化演练。

架构设计

首先要实现架构的可视化。

通过架构感知可以全面了解云上系统架构,以可视化的方式直观呈现云上资源、容器和应用间分层依赖关系。

服务器、存储、网络是现代云平台的基础设施,随着上云战略的推进,越来越多的企业将业务、服务、系统构建在云平台上。但开源软件和云服务的多样性,开发语言的异构性,以及企业 IT 团队的组织和能力差异,都提高了标准化的复杂性。

因此,架构感知功能应运而生,通过采集和分析操作系统及第三方标准接口,捕捉进程级的调用关系,并使用特征库算法识别进程所使用的技术组件,最后在服务器、容器和进程这三个维度上以可视化的方式展示应用架构,给用户一张全面清晰的云上架构地图。

其次,对强弱依赖进行梳理和应对。

任何强依赖都要尽可能的转化成弱依赖,因为强依赖本身意味着一荣俱荣,一损俱损。有了弱依赖的引入,一旦当平台最大吞吐能力到达瓶颈时,除了入口或者 web 类应用的业务峰值流量限流可以起到第一层的保护作用外,还可以将预先标记为弱依赖的服务平滑下线,从而达到节省更多资源保障核心计算能力的目的。

同时,还可以去除非核心对核心服务的影响,最终通过合理高效的服务降级最大程度获得业务和成本的平衡。此外,如果还能实现只需要关心如何定义资源,即哪些方法/代码块需要保护,而不需要关注如何保护这个资源。然后通过添加规则来保护资源,规则添加即时生效。这类架构的设计会更加智能。

延伸阅读:《阿里巴巴在微服务系统下架构可视化方面的探索》

容量规划

外网仿真压测:
首先需要通过一些在线压测工具高效快速构建同模型和量级的业务流量,从而全面验证和探测云上或云下整体架构(从网络接入到应用服务内再到存储层和基础设施)的瓶颈和问题。

全链路压测:
更进一步的,如果在生产环境想直接精准衡量业务容量的情况,可以通过更场景化的压测解决方案,例如阿里云 PTS 的相关解决方案使生产环境具备压测流量识别和路由到指定影子存储区域的能力,结合相关影子存储区域的准备,然后做到同样规模基础数据上的业务流量压测同样的生产环境,最终达到精准衡量线上生产环境的能力,当然,对于压测流水数据由于已经隔离开,所以可以方便安全的清理和维护。

延伸阅读:《独家揭秘 | 阿里怎么做双11全链路压测?》

业务监控

监控的作用不言而喻,但如何通过开源的监控工具或者商业化的监控解决方案,来排查并解决各类复杂的线上问题是关键。我们很可能需要经过查看配置项、登录机器、扫描日志甚至去查离线日志等步骤,经过十几分钟才能定位到问题,有的时候甚至需要排查个大半天时间。

一些监控大多局限在应用整体 RT、QPS 的监控和部分业务日志的监控,报警发生时,大部分情况只知道这个应用有了问题,但很难快速定位是哪里出了问题,出了什么问题。

以阿里云的应用实时监控服务 ARMS 为例,可以能帮助用户快速构建各种环境下完整的监控体系,实现从页面到数据库、从应用性能到基础架构资源、从 IT 到业务的端到端监控。减少故障排查时间,降低跨部门沟通成本,最终降低因为故障和体验差给企业带来的损失。

延伸阅读:《10 人,2 个月 | 虾米音乐的监控体系升级之路》

线上管控

对于运行态或已有应用可以通过 AHAS 探针形态在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定,同时还有单机过载保护(根据RT动态调节入口流量)的兜底能力。以上都在运行态和运维侧即可完成引入和控制。

对于线上配置项和业务属性值通过 AHAS 开关模块的轻量级方案进行安全和统一管控,这部分能力即将开放,敬请期待。

延伸阅读:《“国货之光” 完美日记的微服务实践和优化思路》

日常巡检

风险的提前暴露:通过 Advisor 智能顾问对云上主要云资源进行全面的巡检和风险识别,规则都来自于 TAM 面向客户的技术体系积累及阿里生态内 SRE 最佳实践的融合。基于前述的架构地图和用户的输入,可进行更深层次的应用/业务架构层面的巡检和建议。

常态化演练

AHAS 的故障演练模块遵循混沌工程实验原理并融合了阿里巴巴内部实践的经验,基于此用户可以建立流程完整而且可视化程度很高的故障演练体系,可方便的对基础资源、应用服务、容器服务和云平台 4 层进行超多维度的编排和定制,同时产品还提供了丰富的成熟故障经验库。从而帮助用户实现包括架构、业务、人员的全面高可用提升。故障演练在依赖治理、业务连续性提升和故障修复验证等场景中都有巨大作用。

延伸阅读:《实践 | 混沌工程工具 ChaosBlade 构建高可用的分布式系统》

“宅”在家,做主播

远程办公,不孤单

除了视频会议,当然还要连麦玩直播

在家运维不用慌系列直播,火热进行中·····

阿里云程序员/中间件小姐姐/中间件小师妹

居家开课

快来加入我们吧

IMG_0243

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
5月前
|
安全 测试技术 网络安全
每位IT领导者必须回答的9个云战略问题
每位IT领导者必须回答的9个云战略问题
|
6月前
|
SQL Java 关系型数据库
疫情之后,幸获内推,4面京东拿下offer(Java后台研发岗)
在2019年时,就早早生了跳槽的念头,心想着拿完年终奖就要开始“跑路”,但万万没想到过完春节之后竟被疫情耽搁了这么久,导致很多互联网公司的招聘都往后一拖再拖。幸运的是,刚复工之后,就收到了朋友的消息,有京东内推的机会,问我要不要试一试,虽然说之前的目标是BAT,但根据自己目前情况来说,可能拿个京东也算是不错了,于是着手准备起来。
|
机器学习/深度学习 算法 物联网
《风控要略:互联网业务反欺诈之路》一万字读后详细总结
本书的内容正如书名所述,是为要略而非攻略,即作者站在一个更为宏观的角度,以自身的从业经验对当今风控领域做了一番较为全貌的总结概述。书中的章节内容有精有简,既为要略,那么就无法苛求其内容都足够全面与详细。它更像是一部风控领域的科普类简述作品,在广度上能较好地让读者了解到风控各方面的现状及走向,但若要谈及深度,则多少有种“师父领进门,修行在个人”的感觉。这本书其实有挺多人推荐,一方面是书籍出版时间距离现在很近,一方面则是填补风控业务领域入门书籍的空白,只是通篇读完,好的地方是有,值得吐槽的地方也不少。总而言之,对于像我这样风控小白而言,还是值得翻阅一番。
191 0
|
搜索推荐
游戏直播系统软件源码搭建平台,经营突破困境的思路和看法
借助“东莞梦幻网络科技”所提供的游戏直播平台源码搭建属于自己的游戏直播平台,在经营游戏直播平台过程中,正面临一些困境可以突破。下面我们就讨论在经营游戏直播平台中会遇到的困境,并推荐一些突破困境的思路和看法。
|
SQL
特斯拉产品研发创新中心 3月 22 日笔试答案
昨天是 ****「特斯拉 2023 春季公开笔试 - 产品研发创新中心专场」****,你参加了吗?这场笔试整体来看没有难到特别离谱的题,但需要一些思维。
187 0
|
Kubernetes Cloud Native 前端开发
“金三银四”求职季到来,快速获取云开发核心竞争力,你准备好了么?
随着一股春风袭来,新的一年“金三银四”求职季也悄然拉开了帷幕,想要在2022年的开发者求职大军中“脱颖而出”,了解企业的发展方向必不可少。在数字化的大潮下,要不要上云已经不再是一个问题,而是所有企业的必由之路,怎么上才是企业数字化的关键。
“金三银四”求职季到来,快速获取云开发核心竞争力,你准备好了么?
|
存储 分布式计算 算法
二本材料专业,干过销售,当过兵,28岁零基础转型大数据开发进百度,很强势!
二本材料专业,干过销售,当过兵,28岁零基础转型大数据开发进百度,很强势!
二本材料专业,干过销售,当过兵,28岁零基础转型大数据开发进百度,很强势!
|
存储 运维 监控
从一位在线教育客户的紧急咨询说起
“我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。
1419 4
从一位在线教育客户的紧急咨询说起
|
移动开发 架构师 中间件
疫情之下,蚂蚁产品经理在家办公经验分享
春节过后,蚂蚁金服开启了远程办公的日常,本文蚂蚁产品经理的远程办公感受。
592 0
疫情之下,蚂蚁产品经理在家办公经验分享
|
新零售 存储 架构师
【沉淀】云架构师前(钱)景这么好,我们该如何转型?这有两位阿里云云架构总监多年心得
云架构师任职都有什么要求?他们的日常是什么样的?相关人员如何向云架构转型?就此,云栖社区就此采访了阿里云两位资深专家:阿里云云架构总监Danny Liu和阿里云国际业务部云架构总监王宇德。
3954 0
下一篇
无影云桌面