阿里云运维服务(第二课)

简介: 个人学习

云上高可用架构设计

概述

系统无中断地执行其功能的能力,代表系统的可用性程度,是进行系统设计时的准则之一。

基础设施高可用、应用高可用、微服务治理、故障恢复

高可用:容量、容错、容灾

高可用架构运维体系

image.png

方法论-SLO SLA可用性指标

image.png

容量规划

业务容量规划是一个系统体系化工程,需要基于对业务的理解、目前架构的评估、生产环境压测方案、压测方案、全链路预热和防护演练的基础上的。

容量规划是稳定性和成本管理最优解

粗糙的容量规划会造成大量的资源浪费

在生产环境压测+针对性的压测模型下应用的性能基线和备容更有针对性,综合成本更低

最后是做好该容量模型的加固和防崩

全链路压测:流量不确定性、系统不确定性、生产压测

目的:精准备容(全链路压测、全链路预热)、最大吞吐(流控熔断隔离)、最优韧性(故障/预案提前演练)

容灾&多活架构

故障:人为操作失误、硬件故障、网络攻击、断电/断网、自然灾害

架构拆解:异地互备、同城双活、两地三中心、异地多活

多活概述:多活,英文Multi-Site High Availability(简称MSHA),顾名思义就是分布在多个站点同时对外提供服务。与传统的灾备的最主要区别就是“多活”里的所有站点同时在对外提供服务,不仅解决了容灾本身问题,提升了业务连续性,并且实现了容量的扩展,每个自闭环对外提供服务的站点,我们称之为单元。

核心技术:流量管控保障、数据复制保障、故障管控保障

流量管控保障:单元封闭设计、流量分配纠错、数据禁写规则

数据复制保障:数据复制一致性、长传链路数据秒级同步延迟、数据双向防循环同步

故障管控保障:应用双活管控工具、故障演练管控工具

容错架构

六大管控手段

image.png
高可用架构治理

image.png


故障演练

混沌工程:混沌工程是在分布式系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心。

image.png

目录
相关文章
|
4月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
8月前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
6月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
7月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
375 6
|
10月前
|
弹性计算 Ubuntu Linux
阿里云系统运维管理OOS一键安装宝塔面板,这个功能太牛了!
宝塔面板是实用的服务器管理工具,支持多种操作系统(如Ubuntu、CentOS等)。通过阿里云OOS可一键安装。安装前提包括ECS实例运行中且有公网,安全组需开放8888端口。安装步骤简单,进入ECS控制台选择预装应用并确认下单,完成后在控制台查看详情和登录信息。最后验证安装结果,确保能成功访问宝塔面板URL。
517 82
|
9月前
|
缓存 运维 监控
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
阿里云在百万服务器运维领域的丰富经验打造。
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
|
8月前
|
存储 人工智能 运维
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
530 2
|
8月前
|
存储 运维 监控
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
290 3
|
10月前
|
弹性计算 人工智能 运维
云产品评测|告别传统运维挑战!阿里云OS控制台引领智能管理新时代
阿里云OS控制台是专为运维人员设计的高效管理工具,旨在提升用户体验和简化操作流程。它不仅集成了OS Copilot等智能助手,还提供了系统诊断、订阅管理和AI组件等功能,支持API、SDK、CLI等多种管理方式。通过该平台,用户可以轻松纳管服务器、监控健康状态、执行故障排查,并享受针对阿里云环境优化的运维体验。整体而言,阿里云OS控制台为运维工作带来了极大的便利与效率提升。
|
11月前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。

热门文章

最新文章