从一位在线教育客户的紧急咨询说起

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
简介: 在家运维不用慌系列文章,附赠系列直播,欢迎参与,文末有惊喜!

“我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。但我们也清楚,等正式开学,还会有更多的流量进来,而且很可能高流量会成为一种常态,这使得我们开始重新审视当前的基础设施是否能支撑未来的业务发展。”

这段时间,遇到这类情况的客户不只这一家,我们接到了大量的来自在线教育客户的紧急咨询,需求均是是否有一些不影响现有架构的无侵入工具,能应对流量的激增情况,同时也会开始重新梳理架构和业务之间的关系。

本文整理了阿里在高可用架构建设过程中的一些实践,分为架构设计、容量规划、业务监控、线上管控、日常巡检和常态化演练。

架构设计

首先要实现架构的可视化。

通过架构感知可以全面了解云上系统架构,以可视化的方式直观呈现云上资源、容器和应用间分层依赖关系。

服务器、存储、网络是现代云平台的基础设施,随着上云战略的推进,越来越多的企业将业务、服务、系统构建在云平台上。但开源软件和云服务的多样性,开发语言的异构性,以及企业 IT 团队的组织和能力差异,都提高了标准化的复杂性。

因此,架构感知功能应运而生,通过采集和分析操作系统及第三方标准接口,捕捉进程级的调用关系,并使用特征库算法识别进程所使用的技术组件,最后在服务器、容器和进程这三个维度上以可视化的方式展示应用架构,给用户一张全面清晰的云上架构地图。

其次,对强弱依赖进行梳理和应对。

任何强依赖都要尽可能的转化成弱依赖,因为强依赖本身意味着一荣俱荣,一损俱损。有了弱依赖的引入,一旦当平台最大吞吐能力到达瓶颈时,除了入口或者 web 类应用的业务峰值流量限流可以起到第一层的保护作用外,还可以将预先标记为弱依赖的服务平滑下线,从而达到节省更多资源保障核心计算能力的目的。

同时,还可以去除非核心对核心服务的影响,最终通过合理高效的服务降级最大程度获得业务和成本的平衡。此外,如果还能实现只需要关心如何定义资源,即哪些方法/代码块需要保护,而不需要关注如何保护这个资源。然后通过添加规则来保护资源,规则添加即时生效。这类架构的设计会更加智能。

延伸阅读:《阿里巴巴在微服务系统下架构可视化方面的探索》

容量规划

外网仿真压测:
首先需要通过一些在线压测工具高效快速构建同模型和量级的业务流量,从而全面验证和探测云上或云下整体架构(从网络接入到应用服务内再到存储层和基础设施)的瓶颈和问题。

全链路压测:
更进一步的,如果在生产环境想直接精准衡量业务容量的情况,可以通过更场景化的压测解决方案,例如阿里云 PTS 的相关解决方案使生产环境具备压测流量识别和路由到指定影子存储区域的能力,结合相关影子存储区域的准备,然后做到同样规模基础数据上的业务流量压测同样的生产环境,最终达到精准衡量线上生产环境的能力,当然,对于压测流水数据由于已经隔离开,所以可以方便安全的清理和维护。

延伸阅读:《独家揭秘 | 阿里怎么做双11全链路压测?》

业务监控

监控的作用不言而喻,但如何通过开源的监控工具或者商业化的监控解决方案,来排查并解决各类复杂的线上问题是关键。我们很可能需要经过查看配置项、登录机器、扫描日志甚至去查离线日志等步骤,经过十几分钟才能定位到问题,有的时候甚至需要排查个大半天时间。

一些监控大多局限在应用整体 RT、QPS 的监控和部分业务日志的监控,报警发生时,大部分情况只知道这个应用有了问题,但很难快速定位是哪里出了问题,出了什么问题。

以阿里云的应用实时监控服务 ARMS 为例,可以能帮助用户快速构建各种环境下完整的监控体系,实现从页面到数据库、从应用性能到基础架构资源、从 IT 到业务的端到端监控。减少故障排查时间,降低跨部门沟通成本,最终降低因为故障和体验差给企业带来的损失。

延伸阅读:《10 人,2 个月 | 虾米音乐的监控体系升级之路》

线上管控

对于运行态或已有应用可以通过 AHAS 探针形态在不修改代码的情况下进行业务洪峰的流量强力控制、消息场景的削峰填谷,而对于结构复杂的可以将系统内或外不稳定的因素迅速降级让业务保持稳定,同时还有单机过载保护(根据RT动态调节入口流量)的兜底能力。以上都在运行态和运维侧即可完成引入和控制。

对于线上配置项和业务属性值通过 AHAS 开关模块的轻量级方案进行安全和统一管控,这部分能力即将开放,敬请期待。

延伸阅读:《“国货之光” 完美日记的微服务实践和优化思路》

日常巡检

风险的提前暴露:通过 Advisor 智能顾问对云上主要云资源进行全面的巡检和风险识别,规则都来自于 TAM 面向客户的技术体系积累及阿里生态内 SRE 最佳实践的融合。基于前述的架构地图和用户的输入,可进行更深层次的应用/业务架构层面的巡检和建议。

常态化演练

AHAS 的故障演练模块遵循混沌工程实验原理并融合了阿里巴巴内部实践的经验,基于此用户可以建立流程完整而且可视化程度很高的故障演练体系,可方便的对基础资源、应用服务、容器服务和云平台 4 层进行超多维度的编排和定制,同时产品还提供了丰富的成熟故障经验库。从而帮助用户实现包括架构、业务、人员的全面高可用提升。故障演练在依赖治理、业务连续性提升和故障修复验证等场景中都有巨大作用。

延伸阅读:《实践 | 混沌工程工具 ChaosBlade 构建高可用的分布式系统》

“宅”在家,做主播

远程办公,不孤单

除了视频会议,当然还要连麦玩直播

在家运维不用慌系列直播,火热进行中·····

阿里云程序员/中间件小姐姐/中间件小师妹

居家开课

快来加入我们吧

IMG_0243

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
19天前
|
人工智能 搜索推荐 数据挖掘
企业内训|阅读行业产品运营实战训练营-某运营商数字娱乐公司
近日,TsingtaoAI公司为某运营商旗下数字娱乐公司组织的“阅读行业产品运营实战训练营”在杭州落下帷幕。此次训练营由TsingtaoAI资深互联网产品专家程靖主持。该公司的业务骨干——来自内容、市场、业务、产品与技术等跨部门核心岗位、拥有8-10年实战经验的中坚力量——全情投入,从数据驱动决策、跨部门协作、全链条产品规划到短剧改编宣发策略,多维度构建起一套真正匹配数字内容生态趋势的运营方法论。
40 10
|
人工智能 算法 安全
第二届 1024 中国工程师文化日议程全览,你不能错过的 N 个理由
第二届 1024 中国工程师文化日议程全览,你不能错过的 N 个理由
220 0
《不忘初心,方得始终-盒马数据中台之道》电子版地址
不忘初心,方得始终-盒马数据中台之道.ppt
128 0
《不忘初心,方得始终-盒马数据中台之道》电子版地址
|
Kubernetes Cloud Native 前端开发
“金三银四”求职季到来,快速获取云开发核心竞争力,你准备好了么?
随着一股春风袭来,新的一年“金三银四”求职季也悄然拉开了帷幕,想要在2022年的开发者求职大军中“脱颖而出”,了解企业的发展方向必不可少。在数字化的大潮下,要不要上云已经不再是一个问题,而是所有企业的必由之路,怎么上才是企业数字化的关键。
“金三银四”求职季到来,快速获取云开发核心竞争力,你准备好了么?
|
5G Android开发 芯片
5G手机启示录:拒绝产品圈地,深耕基础体验
手机战事总是变化莫测,消费者会用脚投票。 9月,苹果发布了iPhone 11系列,业界一片唱衰不支持5G。安卓阵营,三星、华为、OPPO、小米、vivo等厂商均在全球有5G产品的推出,被寄予厚望。但市场给出的反馈恰恰相反,iPhone 11依然爆卖,而5G手机则有些雷声大雨点小。 为什么5G手机难敌4G?苹果CEO库克在iPhone11发布会后表示,整个市场无论是基础架构还是芯片都还没有足够成熟,不足以支撑推出一个高质量的产品。从消费者角度出发,不少用户认为当下的5G手机缺少突出功能,在市场和产品更成熟之前会持续观望。 这一结果也引发了行业思考:对于用户,真正需要的是最前沿的技术?
222 0
5G手机启示录:拒绝产品圈地,深耕基础体验
|
Linux Python
感谢阿里云飞天计划,让我有接触服务器机会。使自己的认知得到提高,还要说一下在配置服务器的闲空中我发现阿里云还有一个用户论坛,里面都是从事这种行业,和喜欢这方面知识的人,从中我也能学习到很多东西。我相信凭我自己的努力我一定能,成为我想成为的那种人。
感谢阿里云飞天计划,让我有接触服务器机会。使自己的认知得到提高,还要说一下在配置服务器的闲空中我发现阿里云还有一个用户论坛,里面都是从事这种行业,和喜欢这方面知识的人,从中我也能学习到很多东西。我相信凭我自己的努力我一定能,成为我想成为的那种人。
|
存储 运维 监控
从一位在线教育客户的紧急咨询说起
“我们在 1 月底的时候遇到第一波的流量突增,主要集中在上午和晚上,可能是全国的学校已经明确了延期开学的事情,并通知各学校师生以在线教育的方式渡过困难期,当时,我们在阿里云上进行了紧急扩容来应对这波流量的突增。
1428 5
从一位在线教育客户的紧急咨询说起
|
边缘计算 人工智能 弹性计算
在线教育这场全民战役,我们时刻在线
面对疫情,科技救援同样重要!因为停工、停课的现状,在线教育(包含成人教育)平台的流量突增,阿里云视频直播、CDN、边缘节点服务ENS等多款产品联手助阵,已经为数十家平台和SaaS伙伴提供视频安全加速服务与专项技术支持,全力保障各平台高并发情况下的稳定、流畅的互动体验。
1139 0
在线教育这场全民战役,我们时刻在线
|
双11 开发者
守护每一份期待:快递柜行业双十一护航
守护每一份期待:快递柜行业双十一护航
守护每一份期待:快递柜行业双十一护航
|
5G 新金融 分布式数据库
直播报名| 回到科技的初心,一同探寻数字时代的新未来
OceanBase分布式数据库方案研讨会将于9月10日日开启直播,重磅嘉宾齐聚云端,精彩议题超乎所见
直播报名| 回到科技的初心,一同探寻数字时代的新未来