分布式统一监控系统架构图与设计思路| 学习笔记

简介: 快速学习分布式统一监控系统架构图与设计思路。

开发者学堂课程【企业运维监控平台架构设计与实现分布式统一监控系统架构图与设计思路】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/384/detail/4826


分布式统一监控系统架构图与设计思路

 

目录:

一、问题解答

二、分布式统一系统

三、统一监控系统架构图

四、设计思路


一、问题解答

1.Ganglia与zbase进行对比?

1)、它们的机制上区别不大.

2)、监控的服务器应用不多就使用 zbase ,部署来说相对简单,当服务器多,zbase 扩展比较麻烦,性能较低。

3)、如果服务器低于一千台可以选择使用 zbase ,若服务器超过一千台,推荐使用 centreon+ganglia ,他的扩展性高,但是部署步骤很麻烦。

2.两万八千台服务器使用zbase性能如何?

通过测试一千台服务器会报警,报警有延时,并且延时非常大,且负载很高,对一个监控来说,报警的实时性要求很高,若延时很高就失去了报警的意义

3.ganglia的好处

Ganglia 的好处在于前端更新能在10秒之内把更新返回到服务器,可以及时处理问题,处理问题的时间间隔非常短,若服务器很多,可以通过多种方式,不一定要采用那个软件,若一个机制非常成熟的话,他会集成多个开源软件。

4.ganglia数据汇总

Ganglia 天生可以实现数据汇总

image.png

图示指标不需要添加任何东西,但在 zbase 中需要添加第三方工具来实现。所以说每个软件都有它的优缺点。具体怎么去选择使用,还是要综合的去选择。去用它的优点然后屏蔽它的缺点就可以了。

5.关于报警

原来我们是有短信网关,或者是报警接口,但是事实上来说,短信报警对运维人员意义不大,移动端的发展可以使用网易邮箱实时,可以看到更加详细的信息,完全可以抛弃短信报警,当然,确实想用短信报警也没问题,支持多个手机运营商,注册好会发邮件,139发的邮件多会有延迟,但一封两封不会有延迟。变相实现短信报警非常方便。

6.预发布环境和真实环境的差距?

预发布环境和真实环境没有实质性差别,而预发布环境没有线上业务,部署结构上和真实环境一模一样的


二、分布式统一系统

监控数据和报表通过 web 方式展示出来,将 Nagios 和 Ganglia 的 web 进行集合,并作二次开发,通过一个统一的界面展示监控状态和报表信息

 

三、统一监控系统架构图

image.png


四、设计思路

1.Cluster1-n 均为一个分布式集群,也可以认为是一个机房数据中心。每个数据中心的 node server 都运行一个 gmond 守护进程,进行数据收集,将收集到的数据汇总到 ganglia proxy 主机,ganglia proxy 主机上运行着 gmetad 守护进程。

同时 ganglia proxy 和 node server 都加载通过 c 或者 python 编写的 ganglia 插件,扩展 ganglia 监控功能(Python 编译升级方式:用源码方法升级)

2.managerserver 是一个管理主机,主要用于收集从各个机房数据中心的监控数据,通过数据抽取模块将 nagios 和 ganglia 整合到一起,考虑到数据的安全性,manager server 建议做一个备机,主机和备机一起工作时,进行数据收集,主机故障时,自动切换到备机,保证管理主机可用

3.监控数据和报表通过 web 方式展示出来,将 Nagios 和 Ganglia 的 web 进行整合,并做二次开发,通过一个统一的界面展示监控状态和报表信息

优缺点:

服务器如果1000台以内就采用 zbase,超过1000台报警就会有延迟

Ganglia 系统可以自动实现数据汇总

相关文章
|
4月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
1116 57
|
8月前
|
存储 缓存 NoSQL
分布式系统架构8:分布式缓存
本文介绍了分布式缓存的理论知识及Redis集群的应用,探讨了AP与CP的区别,Redis作为AP系统具备高性能和高可用性但不保证强一致性。文章还讲解了透明多级缓存(TMC)的概念及其优缺点,并详细分析了memcached和Redis的分布式实现方案。此外,针对缓存穿透、击穿、雪崩和污染等常见问题提供了应对策略,强调了Cache Aside模式在解决数据一致性方面的作用。最后指出,面试中关于缓存的问题多围绕Redis展开,建议深入学习相关知识点。
564 8
|
4月前
|
消息中间件 缓存 算法
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
207 0
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
|
6月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
437 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
9月前
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
597 81
|
6月前
|
人工智能 前端开发 Java
DDD四层架构和MVC三层架构的个人理解和学习笔记
领域驱动设计(DDD)是一种以业务为核心的设计方法,与传统MVC架构不同,DDD将业务逻辑拆分为应用层和领域层,更关注业务领域而非数据库设计。其四层架构包括:Interface(接口层)、Application(应用层)、Domain(领域层)和Infrastructure(基础层)。各层职责分明,避免跨层调用,确保业务逻辑清晰。代码实现中,通过DTO、Entity、DO等对象的转换,结合ProtoBuf协议,完成请求与响应的处理流程。为提高复用性,实际项目中可增加Common层存放公共依赖。DDD强调从业务出发设计软件,适应复杂业务场景,是微服务架构的重要设计思想。
|
6月前
|
人工智能 运维 监控
领先AI企业经验谈:探究AI分布式推理网络架构实践
当前,AI行业正处于快速发展的关键时期。继DeepSeek大放异彩之后,又一款备受瞩目的AI智能体产品Manus横空出世。Manus具备独立思考、规划和执行复杂任务的能力,其多智能体架构能够自主调用工具。在GAIA基准测试中,Manus的性能超越了OpenAI同层次的大模型,展现出卓越的技术实力。
|
7月前
|
存储 监控 算法
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
在数字化办公时代,公司监控上网软件成为企业管理网络资源和保障信息安全的关键工具。本文深入剖析C++中的链表数据结构及其在该软件中的应用。链表通过节点存储网络访问记录,具备高效插入、删除操作及节省内存的优势,助力企业实时追踪员工上网行为,提升运营效率并降低安全风险。示例代码展示了如何用C++实现链表记录上网行为,并模拟发送至服务器。链表为公司监控上网软件提供了灵活高效的数据管理方式,但实际开发还需考虑安全性、隐私保护等多方面因素。
100 0
公司监控上网软件架构:基于 C++ 链表算法的数据关联机制探讨
|
8月前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
610 41
|
8月前
|
存储 缓存 安全
分布式系统架构7:本地缓存
这是小卷关于分布式系统架构学习的第10篇文章,主要介绍本地缓存的基础理论。文章分析了引入缓存的利弊,解释了缓存对CPU和I/O压力的缓解作用,并讨论了缓存的吞吐量、命中率、淘汰策略等属性。同时,对比了几种常见的本地缓存工具(如ConcurrentHashMap、Ehcache、Guava Cache和Caffeine),详细介绍了它们的访问控制、淘汰策略及扩展功能。
193 6

热门文章

最新文章