阿里云运维服务(第二课)

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 个人学习

云上高可用架构设计

概述

系统无中断地执行其功能的能力,代表系统的可用性程度,是进行系统设计时的准则之一。

基础设施高可用、应用高可用、微服务治理、故障恢复

高可用:容量、容错、容灾

高可用架构运维体系

image.png

方法论-SLO SLA可用性指标

image.png

容量规划

业务容量规划是一个系统体系化工程,需要基于对业务的理解、目前架构的评估、生产环境压测方案、压测方案、全链路预热和防护演练的基础上的。

容量规划是稳定性和成本管理最优解

粗糙的容量规划会造成大量的资源浪费

在生产环境压测+针对性的压测模型下应用的性能基线和备容更有针对性,综合成本更低

最后是做好该容量模型的加固和防崩

全链路压测:流量不确定性、系统不确定性、生产压测

目的:精准备容(全链路压测、全链路预热)、最大吞吐(流控熔断隔离)、最优韧性(故障/预案提前演练)

容灾&多活架构

故障:人为操作失误、硬件故障、网络攻击、断电/断网、自然灾害

架构拆解:异地互备、同城双活、两地三中心、异地多活

多活概述:多活,英文Multi-Site High Availability(简称MSHA),顾名思义就是分布在多个站点同时对外提供服务。与传统的灾备的最主要区别就是“多活”里的所有站点同时在对外提供服务,不仅解决了容灾本身问题,提升了业务连续性,并且实现了容量的扩展,每个自闭环对外提供服务的站点,我们称之为单元。

核心技术:流量管控保障、数据复制保障、故障管控保障

流量管控保障:单元封闭设计、流量分配纠错、数据禁写规则

数据复制保障:数据复制一致性、长传链路数据秒级同步延迟、数据双向防循环同步

故障管控保障:应用双活管控工具、故障演练管控工具

容错架构

六大管控手段

image.png
高可用架构治理

image.png


故障演练

混沌工程:混沌工程是在分布式系统上进行实验的学科,目的是建立对系统抵御生产环境中失控条件的能力以及信心。

image.png

目录
相关文章
|
23天前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
2月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
78 6
阿里云日常运维-购买服务器
|
4月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18499 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
4月前
|
人工智能 运维 Cloud Native
实战基于阿里云的AIGC在运维领域的探索
传统运维模式已难以应对日益复杂的海量数据和业务需求,效率低下,故障难解。而人工智能的崛起,特别是AIGC技术的出现,为运维领域带来了新的机遇。AIGC能够自动生成运维脚本、分析海量数据,预测潜在故障,甚至提供解决方案,为运维工作注入智能化力量,推动运维向更高效、更智能的方向发展。
16512 19
实战基于阿里云的AIGC在运维领域的探索
|
2月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
82 4
|
3月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
105 3
|
3月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
134 1
|
4月前
|
弹性计算 运维 Linux
运维工程师必备的摸鱼神器:阿里云智能助手OS Copilot
OS Copilot 概述与体验评测摘要 阿里云的OS Copilot是一款基于大模型的智能操作系统助手,作为高级运维工程师,体验者发现它在系统诊断和性能优化上尤其有用,简化了如重置ECS密码和安全组配置等任务,提升了工作效率。 OS Copilot的易用性和安全性得到肯定,操作手册详细且交互性强,减少了用户在不同页面间切换的需要。在辅助编程方面,它能帮助非专业开发者编写和理解代码,对运维工作中的开发技能补充有很大帮助。与GitHub Copilot等产品相比,OS Copilot的独特之处在于结合了Linux操作的支持。
222 3
运维工程师必备的摸鱼神器:阿里云智能助手OS Copilot
|
3月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
267 3
|
3月前
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。