监控运维系统实施方案--监控对象信息收集阶段

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:
原创作品,允许转载,转载时请务必以超链接形式标明文章  原始出处 、作者信息和本声明。否则将追究法律责任。 http://dgd2010.blog.51cto.com/1539422/1674040

监控运维系统不是一件一蹴而就的事情,也不是一朝一夕就能轻易完成的,监控运维系统的规模与服务器规模和软件规模息息相关,需要仔细分析和筹划才能实现一个可用的监控运维系统。   
为了直观的表示当前系统(除非特殊说明都指操作系统)和应用的运行状态,能让不熟悉运维知识的leader看明白当前的运行状态,最好的方法就是运用图的方式将这些系统和应用之间的逻辑关系展示出来。根据系统和业务两种区分可以将它们分成三张图(这些图可以叫做系统架构图、软件架构图和业务逻辑图)。    
1.系统架构图:表示所有系统的堆叠关系,例如物理服务器和虚拟服务器用不同的形式在图中展示出来,通过此图一眼就能看到那些系统存在问题,存在什么问题    
2.业务逻辑图:单独表示业务逻辑,将业务逻辑之间的依赖关系和其他关系表示出来,便于在发现整体故障时,确定哪里存在问题能导致整体故障的发生,通过此图一眼就能看到那些业务存在问题,存在什么问题    
3.软件架构图:表示业务与系统的对应关系,即那些业务运行在哪些系统中,或每个系统运行着那些业务,便于当出现问题时该去排查哪些系统或者哪些模块

为了达到较好的监控效果,需要准备以下一些内容:   
1.硬件层面:当前服务器的实际使用情况,例如服务器的数量,主机名称(规范的FQDN),IP地址(有多少地址写多少地址),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等);如果可能,最好包含有网络设备的相关信息,如与服务器的连接方式、带宽等相关信息    
2.操作系统层面:不管操作系统是虚拟的还是非虚拟的,对于监控来说都是一个完整的监控实体,与硬件层面的服务器一样,它也需要确切的知道主机名称(规范的FQDN),IP地址(有多少地址写多少地址,并区分管理地址和业务地址等),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等)    
3.软件(业务)层面:每一个业务模块的名称、提供的功能,依赖关系(该业务模块需要哪些其他的业务模块,哪些业务模块需要该业务模块),进程或服务名称,监听的IP地址和端口(socket),每一个业务模块正常运行时的可监控状态(如返回值是多少正常,输出什么字符串是正常等)    
4.软件层面中每一个业务模块与操作系统层面的对应关系,业务模块需要操作系统中那些软件包(依赖关系)、安装路径、可用的诊断程序和维护工具等

一些可参考的表格

表1:服务器监控列表

服务器序号 主机名称 IP地址1 IP地址2 操作系统类别 登录方式 管理地址 管理用户名 管理密码 备注
1 rc220.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu iDRAC 221.0.93.31 username password  
2 bb200.domian.cn - 192.168.1.200 VMware ESXi5.5 UCS Manager 192.168.1.200 username password  
                   

表2:操作系统监控列表

操作系统序号 主机名称 IP地址1 IP地址2 操作系统类别 是否虚拟机 登录方式 用户名 密码 备注
1 node1.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu - SSH username password  
2 node2.domain.cn - 192.168.1.101 Linux Ubuntu - SSH username password  
3 vcenter.domian.cn - 192.168.1.201 Linux SUSE vSphere Client username password  
                   

表3:业务模块监控列表

业务模块序号 模块名称 模块功能描述 依赖关系A 依赖关系B 进程名称(完整命令行) 监听IP地址 监听端口 正常状态描述
1 关系数据库 MySQL数据库 - 信息收集服务         
信息查询服务
mysqld_safe --datadir=/data/mysql 192.168.1.100 3306 3306端口已监听,进程存在,允许连接,数据库存在,数据库表存在,数据库字段存在
2 信息采集服务 收集用户信息 关系数据库         
Web服务器1
最终用户         
信息查询服务
command --parameter=/path 192.168.1.101 8081 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
3 信息查询服务 查询用户信息 关系数据库         
信息采集服务
最终用户 command --parameter=/path 192.168.1.102 8082 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
4                

表4:业务模块与操作系统对应关系

编号 模块名称 业务模块序号 操作系统序号 软件包/编译参数 安装路径 可用诊断程序 维护工具 备注
1 关系数据库 1 1 mysql-server,mysql,musql-libs,mysql-devel /usr msyql,mysqladmin mysql,mysqladmin  
2 信息采集服务 2 2 - /usr/local/wwwroot curl,wget -  

参考图形:

参考图形可以用Visio绘制,构图需要根据上述表格制作,由系统架构师、软件架构师或者在公司多年了解系统架构和软件架构的系统运维人员制作。

 imageimageimage

以上三图依次为系统架构图,软件架构图,业务与操作系统对应关系图的大体示例。

--end--

本文出自 “通信,我的最爱” 博客,请务必保留此出处http://dgd2010.blog.51cto.com/1539422/1674040

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
261 3
|
5天前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
49 3
|
1月前
|
缓存 运维 监控
【运维必备知识】Linux系统平均负载与top、uptime命令详解
系统平均负载是衡量Linux服务器性能的关键指标之一。通过使用 `top`和 `uptime`命令,可以实时监控系统的负载情况,帮助运维人员及时发现并解决潜在问题。理解这些工具的输出和意义是确保系统稳定运行的基础。希望本文对Linux系统平均负载及相关命令的详细解析能帮助您更好地进行系统运维和性能优化。
60 3
|
1月前
|
运维 监控 中间件
数据中心运维监控系统产品价值与优势
华汇数据运维监控系统面向IT基础架构及IT支撑平台的监控和运维管理,包含监测、分析、展现和告警。监控范围涵盖了网络设备、主机系统、数据库、中间件和应用软件等。
66 4
|
1月前
|
运维 监控 网络协议
自动化运维的魔法——打造高效、可靠的系统
【10月更文挑战第32天】在数字化时代的浪潮下,运维不再是简单的硬件维护和故障排除。它已经演变成一场关乎效率、稳定性和创新的技术革命。自动化运维,作为这场革命的核心,正引领着企业走向更加智能和高效的未来。本文将带你探索自动化运维的世界,揭示其背后的原理和实践,让你领略到自动化带来的无限可能。
31 0
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
220 0
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
69 4
|
29天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
75 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####

热门文章

最新文章