架构中涉及的模块(补充中)
Operations Management
描述
运营管理中的宗旨是最短时候恢复事件故障,从而将故障的损失降到最低,在此前提下尽可能满足服务的要求。因此,事件管理突出的就是恢复企业的业务,启用备份,容灾系统等手段,第一时间采取各种措施来恢复企业生产,这就要求服务台将故障定义升级,从而确保工单的快速流转,通过各IT部门密切配合来排除故障。
服务台分发问题给IT部门,各部门对此问题进行评估,然后提交解决方案,方案通过后这一问题管理流程就可以关闭。
除此之外,还有配置管理、变更管理等流程,也属于管控企业IT系统的规范性问题。配置管理通过CMDB(配置管理数据库)的实时调整更新,可以对企业IT管理进行广度和深度的规划。变更管理主要强调对企业IT架构进行变更时,如何控制变更所带来的各种风险,通过变更计划、变更测试、变更执行、变更维护的步骤来实现企业IT架构的改进和更新。
功能
事件接入
事件和告警由特定的工具检测生成,并集成到统一的处理平台。平台解决操作系统运维过程中所需要的多种关键能力,通过 Web 化的界面管理方式,用户可以轻松运维。
事件处理
针对不同事件源产生的事件,诊断和调查事故,通过自定义数据提取,并将重复和冗余的噪音剔除,再通过规则或算法生成反映业务问题的事件集。
事件分派
根据事件集的特征,将通知在第一时间动态路由到个人、组、协作团队,并通过流程化管理确保事件信息和人员间无缝衔接。
事件响应
事件处理人员根据自身的条件,在PC端、移动端、协作工具中对事件进行认领、指派、协同、转发、关闭等操作。
事件解决
在问题解决后,将处理过程记录到事件解决方案中进行改进,沉淀知识以指导后续类似场景的处理。
Visual Management
描述
可视化管理主要是指数据大屏,围绕客户侧的业务指标以及稳定性指标和监控展示。运维大屏展示当前您需要重点关注的运维指标、任务整体运行情况、调度资源变化趋势等运维概览,以及离线同步、实时同步任务的运行状态分布、数据同步进度等数据集成信息,帮助您提升任务运维效率。
功能
业务运行状态
运行状态分布区域展示当前所有业务在指定时间段内正常运行状态的分布,统计OM所提交的页面实时数据,以及历史运行时长。
资源运营水位
展示指定时间段内各项资源组使用率和预警值。
风险事件标注
查看最新监控报警信息,包括自定义规则报警信息、全局规则报警信息、智能报警信息等,分优先级进行展示。配置监控规则报警方式时可以选择发送报警信息给值班表对应的值班人,支持邮件、短信、电话报警。
故障处理进度
可以查看昨日、今日和历史平均的处理成功或未处理的任务,并可以指定需要查看的故障等级。
变更风险管控
查看变更中的审批流程以及可能触及的风险的预判值,关联CM模块进行总体过程可视化输出。
Change Management
描述
变更管理是指项目组织为适应项目运行过程中与项目相关的各种因素的变化,保证项目目标的实现而对项目计划进行相应的部分变更或全部变更,并按变更后的要求组织项目实施的过程。
功能
变更申请
记录变更的详细信息,变更提出者简明扼要的记录下有价值的信息。变更管理工具不仅要能方便的记录信息,而且要给记录者一些记录的提示信息,帮助记录者准确的记录变更。
变更审核
审核者首先要确认变更意义,确认是否要修改;其次审核者要确认变更可能产生的影响,根据影响分析决定是否要修改下变更的内容以及对项目其它方面做同步改变;最后就是指派项目成员实施该变更。在这里,关键是审核者要能对变更的相关影响有清楚的认识,这认识并不是说如何修改变更,而是如果修改了该变更,有可能带来什么影响,是否值得修改。很显然,这些信息不是变更提出者在记录时会给出的,而应该是审核者自己辅助其它系统或者工具进行判断。
变更实施
根据变更要求进行修改。首先要保证修改实施是完全而彻底的,比如提了一个需求变更,不能只改了需求文档而不改代码或者用户文档。在组织分工情况下,如何协调多个小组的同步变更保证工作产品一致性正成为一个很严峻的问题。实现变更的一个初始目的就是为了项目的跟踪回溯,那么,针对变更而做的修改也应该被记录下来并被和变更关联起来,实现why、what的双向跟踪。
变更验证
确认验证变更确实得到了确实实施(或者拒绝变更的理由是合理的)。
查询和度量分析
项目管理者需要了解项目中各个变更的当前状态,根据变更状态做出各种管理决定;度量分析变更数据,了解项目质量状况;定期进行复盘,寻找变更根源,进行有针对性,甚至是制度化的改进。
Application Performance Management
描述
APM是应用性能管理/监控,监控能力是指基于云资源部署的具体应用场景,包括应用指标性能(Metric)、系统调用链(Tracing)、日志监控(Logging)三个维度,比如应用的 JVM 指标、线程池监控、RPC 服务的成功率、时延、错误率监控、以及应用全链路追踪能力。
功能
统一的视图
APM用来显示受控制台监控的网络性能、崩溃、启动加载、内存、图片、页面渲染、JVM监控,JMX监控,服务器监控,MySQL慢日志监控,Oracle监控,Redis监控,Nginx监控,docker监控,链路跟踪监控,并以图表的形式直观动态地进行展示。
无代理的监控模板
在被监控的服务器中启动监控客户端,配置相关的数据链接并点击启用,APM监控工具会自动获取监控数据并实时展示。
精准测量
使用 User Experience Monitor 测量 Quality of Experience (QoE),通过单个视图了解所有Web和非Web事务错误的根本原因。通过方法级别洞察获取错误的完整快照,并在终端用户受到影响之前采取必要的操作。
更新中......