监控运维系统实施方案--监控对象信息收集阶段

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDS AI 助手,专业版
简介:
原创作品,允许转载,转载时请务必以超链接形式标明文章  原始出处 、作者信息和本声明。否则将追究法律责任。 http://dgd2010.blog.51cto.com/1539422/1674040

监控运维系统不是一件一蹴而就的事情,也不是一朝一夕就能轻易完成的,监控运维系统的规模与服务器规模和软件规模息息相关,需要仔细分析和筹划才能实现一个可用的监控运维系统。   
为了直观的表示当前系统(除非特殊说明都指操作系统)和应用的运行状态,能让不熟悉运维知识的leader看明白当前的运行状态,最好的方法就是运用图的方式将这些系统和应用之间的逻辑关系展示出来。根据系统和业务两种区分可以将它们分成三张图(这些图可以叫做系统架构图、软件架构图和业务逻辑图)。    
1.系统架构图:表示所有系统的堆叠关系,例如物理服务器和虚拟服务器用不同的形式在图中展示出来,通过此图一眼就能看到那些系统存在问题,存在什么问题    
2.业务逻辑图:单独表示业务逻辑,将业务逻辑之间的依赖关系和其他关系表示出来,便于在发现整体故障时,确定哪里存在问题能导致整体故障的发生,通过此图一眼就能看到那些业务存在问题,存在什么问题    
3.软件架构图:表示业务与系统的对应关系,即那些业务运行在哪些系统中,或每个系统运行着那些业务,便于当出现问题时该去排查哪些系统或者哪些模块

为了达到较好的监控效果,需要准备以下一些内容:   
1.硬件层面:当前服务器的实际使用情况,例如服务器的数量,主机名称(规范的FQDN),IP地址(有多少地址写多少地址),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等);如果可能,最好包含有网络设备的相关信息,如与服务器的连接方式、带宽等相关信息    
2.操作系统层面:不管操作系统是虚拟的还是非虚拟的,对于监控来说都是一个完整的监控实体,与硬件层面的服务器一样,它也需要确切的知道主机名称(规范的FQDN),IP地址(有多少地址写多少地址,并区分管理地址和业务地址等),操作系统类别,管理方式和管理信息(如何远程登录、用户名和密码等)    
3.软件(业务)层面:每一个业务模块的名称、提供的功能,依赖关系(该业务模块需要哪些其他的业务模块,哪些业务模块需要该业务模块),进程或服务名称,监听的IP地址和端口(socket),每一个业务模块正常运行时的可监控状态(如返回值是多少正常,输出什么字符串是正常等)    
4.软件层面中每一个业务模块与操作系统层面的对应关系,业务模块需要操作系统中那些软件包(依赖关系)、安装路径、可用的诊断程序和维护工具等

一些可参考的表格

表1:服务器监控列表

服务器序号 主机名称 IP地址1 IP地址2 操作系统类别 登录方式 管理地址 管理用户名 管理密码 备注
1 rc220.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu iDRAC 221.0.93.31 username password  
2 bb200.domian.cn - 192.168.1.200 VMware ESXi5.5 UCS Manager 192.168.1.200 username password  
                   

表2:操作系统监控列表

操作系统序号 主机名称 IP地址1 IP地址2 操作系统类别 是否虚拟机 登录方式 用户名 密码 备注
1 node1.domain.cn 221.0.92.31 192.168.1.100 Linux Ubuntu - SSH username password  
2 node2.domain.cn - 192.168.1.101 Linux Ubuntu - SSH username password  
3 vcenter.domian.cn - 192.168.1.201 Linux SUSE vSphere Client username password  
                   

表3:业务模块监控列表

业务模块序号 模块名称 模块功能描述 依赖关系A 依赖关系B 进程名称(完整命令行) 监听IP地址 监听端口 正常状态描述
1 关系数据库 MySQL数据库 - 信息收集服务         
信息查询服务
mysqld_safe --datadir=/data/mysql 192.168.1.100 3306 3306端口已监听,进程存在,允许连接,数据库存在,数据库表存在,数据库字段存在
2 信息采集服务 收集用户信息 关系数据库         
Web服务器1
最终用户         
信息查询服务
command --parameter=/path 192.168.1.101 8081 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
3 信息查询服务 查询用户信息 关系数据库         
信息采集服务
最终用户 command --parameter=/path 192.168.1.102 8082 xxx端口已监听,xxx进程存在,返回值为xxx,xxx URL返回xxx
4                

表4:业务模块与操作系统对应关系

编号 模块名称 业务模块序号 操作系统序号 软件包/编译参数 安装路径 可用诊断程序 维护工具 备注
1 关系数据库 1 1 mysql-server,mysql,musql-libs,mysql-devel /usr msyql,mysqladmin mysql,mysqladmin  
2 信息采集服务 2 2 - /usr/local/wwwroot curl,wget -  

参考图形:

参考图形可以用Visio绘制,构图需要根据上述表格制作,由系统架构师、软件架构师或者在公司多年了解系统架构和软件架构的系统运维人员制作。

 imageimageimage

以上三图依次为系统架构图,软件架构图,业务与操作系统对应关系图的大体示例。

--end--

本文出自 “通信,我的最爱” 博客,请务必保留此出处http://dgd2010.blog.51cto.com/1539422/1674040

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
10月前
|
传感器 边缘计算 运维
AR 虚实叠加技术在工业设备运维中的实现流程方案
AR技术通过虚实信息融合,实现工业设备参数可视化、故障立体化、操作直观化,提升运维效率与精度。结合物联网与数字孪生,打造智能运维新范式。
|
9月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
9月前
|
传感器 人工智能 运维
AR智慧运维系统介绍
阿法龙XR云平台是一款面向工业领域的增强现实(AR)智能化平台,助力企业实现数字化转型。平台集成智能巡检工作流、远程协助、AI视频验收、人脸识别等功能模块,支持AR眼镜与移动终端,提供虚实融合的运维体验。具备高度定制化能力,适配多种工业场景,提升运维效率与智能化水平。
|
10月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
289 0
|
10月前
|
人工智能 运维 Prometheus
运维还要天天盯人值班?现代化运维就该让系统自己跑!
运维还要天天盯人值班?现代化运维就该让系统自己跑!
296 4
|
8月前
|
存储 运维 监控
57_大模型监控与运维:构建稳定可靠的服务体系
随着大语言模型(LLM)技术的快速发展和广泛应用,如何确保模型在生产环境中的稳定运行、高效服务和安全合规已成为企业和开发者面临的关键挑战。2025年,大模型服务已从实验室走向各行各业的核心业务流程,其运维复杂度也随之呈指数级增长。与传统软件系统不同,大模型服务具有参数规模庞大、计算密集、行为不确定性高等特点,这使得传统的运维监控体系难以满足需求。
1605 0
|
10月前
|
运维 Prometheus 监控
可观测性不是监控的马甲:运维团队到底该怎么升级?
可观测性不是监控的马甲:运维团队到底该怎么升级?
269 7
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
1310 0
|
8月前
|
人工智能 运维 监控
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
303 17
|
10月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
449 11

热门文章

最新文章