业务连续性解决方案架构(中)

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
简介: 在多平台、多应用的场景下,如何保障业务连续性成为运维人员以及公司的考虑重点,本文主要梳理影响业务连续性的各个方面以及所需的模块。(OM、VM、CM、APM)

架构中涉及的模块(补充中)


Operations Management


描述


运营管理中的宗旨是最短时候恢复事件故障,从而将故障的损失降到最低,在此前提下尽可能满足服务的要求。因此,事件管理突出的就是恢复企业的业务,启用备份,容灾系统等手段,第一时间采取各种措施来恢复企业生产,这就要求服务台将故障定义升级,从而确保工单的快速流转,通过各IT部门密切配合来排除故障。

服务台分发问题给IT部门,各部门对此问题进行评估,然后提交解决方案,方案通过后这一问题管理流程就可以关闭。

除此之外,还有配置管理、变更管理等流程,也属于管控企业IT系统的规范性问题。配置管理通过CMDB(配置管理数据库)的实时调整更新,可以对企业IT管理进行广度和深度的规划。变更管理主要强调对企业IT架构进行变更时,如何控制变更所带来的各种风险,通过变更计划、变更测试、变更执行、变更维护的步骤来实现企业IT架构的改进和更新。


功能


事件接入

事件和告警由特定的工具检测生成,并集成到统一的处理平台。平台解决操作系统运维过程中所需要的多种关键能力,通过 Web 化的界面管理方式,用户可以轻松运维。


事件处理

针对不同事件源产生的事件,诊断和调查事故,通过自定义数据提取,并将重复和冗余的噪音剔除,再通过规则或算法生成反映业务问题的事件集。


事件分派

根据事件集的特征,将通知在第一时间动态路由到个人、组、协作团队,并通过流程化管理确保事件信息和人员间无缝衔接。


事件响应

事件处理人员根据自身的条件,在PC端、移动端、协作工具中对事件进行认领、指派、协同、转发、关闭等操作。


事件解决

在问题解决后,将处理过程记录到事件解决方案中进行改进,沉淀知识以指导后续类似场景的处理。



Visual Management


描述


可视化管理主要是指数据大屏,围绕客户侧的业务指标以及稳定性指标和监控展示。运维大屏展示当前您需要重点关注的运维指标、任务整体运行情况、调度资源变化趋势等运维概览,以及离线同步、实时同步任务的运行状态分布、数据同步进度等数据集成信息,帮助您提升任务运维效率。


功能


业务运行状态

运行状态分布区域展示当前所有业务在指定时间段内正常运行状态的分布,统计OM所提交的页面实时数据,以及历史运行时长。


资源运营水位

展示指定时间段内各项资源组使用率和预警值。


风险事件标注

查看最新监控报警信息,包括自定义规则报警信息、全局规则报警信息、智能报警信息等,分优先级进行展示。配置监控规则报警方式时可以选择发送报警信息给值班表对应的值班人,支持邮件、短信、电话报警。


故障处理进度

可以查看昨日、今日和历史平均的处理成功或未处理的任务,并可以指定需要查看的故障等级。


变更风险管控

查看变更中的审批流程以及可能触及的风险的预判值,关联CM模块进行总体过程可视化输出。




Change Management


描述


变更管理是指项目组织为适应项目运行过程中与项目相关的各种因素的变化,保证项目目标的实现而对项目计划进行相应的部分变更或全部变更,并按变更后的要求组织项目实施的过程。


功能


变更申请

记录变更的详细信息,变更提出者简明扼要的记录下有价值的信息。变更管理工具不仅要能方便的记录信息,而且要给记录者一些记录的提示信息,帮助记录者准确的记录变更。


变更审核

审核者首先要确认变更意义,确认是否要修改;其次审核者要确认变更可能产生的影响,根据影响分析决定是否要修改下变更的内容以及对项目其它方面做同步改变;最后就是指派项目成员实施该变更。在这里,关键是审核者要能对变更的相关影响有清楚的认识,这认识并不是说如何修改变更,而是如果修改了该变更,有可能带来什么影响,是否值得修改。很显然,这些信息不是变更提出者在记录时会给出的,而应该是审核者自己辅助其它系统或者工具进行判断。


变更实施

根据变更要求进行修改。首先要保证修改实施是完全而彻底的,比如提了一个需求变更,不能只改了需求文档而不改代码或者用户文档。在组织分工情况下,如何协调多个小组的同步变更保证工作产品一致性正成为一个很严峻的问题。实现变更的一个初始目的就是为了项目的跟踪回溯,那么,针对变更而做的修改也应该被记录下来并被和变更关联起来,实现why、what的双向跟踪。


变更验证

确认验证变更确实得到了确实实施(或者拒绝变更的理由是合理的)。


查询和度量分析

项目管理者需要了解项目中各个变更的当前状态,根据变更状态做出各种管理决定;度量分析变更数据,了解项目质量状况;定期进行复盘,寻找变更根源,进行有针对性,甚至是制度化的改进。



Application Performance Management


描述


APM是应用性能管理/监控,监控能力是指基于云资源部署的具体应用场景,包括应用指标性能(Metric)、系统调用链(Tracing)、日志监控(Logging)三个维度,比如应用的 JVM 指标、线程池监控、RPC 服务的成功率、时延、错误率监控、以及应用全链路追踪能力。



功能


统一的视图

APM用来显示受控制台监控的网络性能、崩溃、启动加载、内存、图片、页面渲染、JVM监控,JMX监控,服务器监控,MySQL慢日志监控,Oracle监控,Redis监控,Nginx监控,docker监控,链路跟踪监控,并以图表的形式直观动态地进行展示。


无代理的监控模板

在被监控的服务器中启动监控客户端,配置相关的数据链接并点击启用,APM监控工具会自动获取监控数据并实时展示。


精准测量

使用 User Experience Monitor 测量 Quality of Experience (QoE),通过单个视图了解所有Web和非Web事务错误的根本原因。通过方法级别洞察获取错误的完整快照,并在终端用户受到影响之前采取必要的操作。


更新中......

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
目录
相关文章
|
4月前
|
小程序 前端开发
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
校园跑腿小程序系统是一款创新解决方案,旨在满足校园配送需求并拓展校友网络。跑腿员可接单配送,用户能实时跟踪订单并评价服务。系统包含用户、客服、物流、跑腿员及订单模块,功能完善。此外,小程序增设信息咨询发布、校园社区建设和活动组织等功能,助力校友互动、经验分享及感情联络,构建紧密的校友网络。
141 1
2025商业版拓展校园圈子论坛网络的创新解决方案:校园跑腿小程序系统架构
|
5月前
|
机器学习/深度学习 并行计算 PyTorch
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题,分析其根源为预编译二进制文件不支持sm_120架构,并提出解决方案:使用PyTorch Nightly版本、更新CUDA工具包至12.8。通过清理环境并安装支持新架构的组件,成功解决兼容性问题。文章总结了深度学习环境中硬件与框架兼容性的关键策略,强调Nightly构建版本和环境一致性的重要性,为开发者提供参考。
2763 64
英伟达新一代GPU架构(50系列显卡)PyTorch兼容性解决方案
|
5月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
6月前
|
算法 前端开发 定位技术
地铁站内导航系统解决方案:技术架构与核心功能设计解析
本文旨在分享一套地铁站内导航系统技术方案,通过蓝牙Beacon技术与AI算法的结合,解决传统导航定位不准确、路径规划不合理等问题,提升乘客出行体验,同时为地铁运营商提供数据支持与增值服务。 如需获取校地铁站内智能导航系统方案文档可前往文章最下方获取,如有项目合作及技术交流欢迎私信我们哦~
387 1
|
8月前
|
SQL 弹性计算 运维
云卓越架构:稳定性支柱整体解决方案综述
阿里云卓越架构聚焦于五大支柱,其中稳定性是关键。常见的云上稳定性风险包括架构单点、容灾设计不足和容量规划不合理等。为提升稳定性,需从架构设计时考虑容灾与容错、实施变更时遵循“三板斧”原则(灰度发布、可观测性和可回滚性),并确保快速响应和恢复能力。此外,通过客观度量、主观评估和巡检等方式识别风险,并进行专项治理。识货APP作为成功案例,通过优化容器化改造、统一发布体系、告警系统和扩缩容机制,实现了99.8%的高可用率,大幅提升了业务稳定性。
|
9月前
|
Serverless 决策智能 UED
构建全天候自动化智能导购助手:从部署者的视角审视Multi-Agent架构解决方案
在构建基于多代理系统(Multi-Agent System, MAS)的智能导购助手过程中,作为部署者,我体验到了从初步接触到深入理解再到实际应用的一系列步骤。整个部署过程得到了充分的引导和支持,文档详尽全面,使得部署顺利完成,未遇到明显的报错或异常情况。尽管初次尝试时对某些复杂配置环节需反复确认,但整体流程顺畅。
198 3
|
10月前
|
消息中间件 监控 Cloud Native
云原生架构下的数据一致性挑战与解决方案####
在数字化转型加速的今天,云原生架构以其轻量级、弹性伸缩和高可用性成为企业IT架构的首选。然而,在享受其带来的灵活性的同时,数据一致性问题成为了不可忽视的挑战。本文探讨了云原生环境中数据一致性的复杂性,分析了导致数据不一致的根本原因,并提出了几种有效的解决策略,旨在为开发者和企业提供实践指南,确保在动态变化的云环境中保持数据的完整性和准确性。 ####
|
9月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
10月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
253 3
|
5月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
343 12

热门文章

最新文章