明晚九点|一线互联网公司服务器监控系统架构分享

简介:

主题:一线互联网公司服务器监控系统架构

内容:

  • 自动运维的一点体会
  • 性能与可用性可扩展
  • 功能可扩展
  • 监控支撑业务扩展

主讲师:PC 老师

大学时期就负责学校官方网站的运维工作,实习期间加入豆瓣,有幸成为豆瓣 Top20 员工,从事 Python 开发及运维工作,后在 BAT 从事自动化运维,见证BAT 运维自动化从无到有。擅长系统底层、分布式系统开发,热衷于开源运动,给 memcached、SETI@Home 等多个开源项目贡献过代码。

自动化运维的一点体会

不同公司的需求差异

  • 监控?
  • 配置管理?
  • 自动部署?
  • 调度系统?
  • Iaas / Paas?
  • or more?

不同规模、不同行业的公司存在需求差异

自动运维的几个基础

  • 一本清晰的账本 (准确的基础信息)
  • 一个靠谱的监控
  • 一个靠谱的任务执行系统

    自动运维的基础

    明晚九点|一线互联网公司服务器监控系统架构分享

靠谱的监控

  • 本质:对被监控对象的指标进行状态判定
    一台服务器上 nginx 服务的连接数
  • 需要支持网络层、服务器、服务、业务四层
  • 精准智能
  • 适应机器 的规模与增长速度
  • 高效、高可用性
  • 支持纷繁多样的服务
    明晚九点|一线互联网公司服务器监控系统架构分享

明晚九点|一线互联网公司服务器监控系统架构分享

性能与可扩展

模块内性能

  • 通信
    长连接
    Epoll
  • 多进程/线程
    高并发
    并发度可调
    明晚九点|一线互联网公司服务器监控系统架构分享

    通信层剥离

  • 统一的高性能通信框架与通信协议
  • 业务开发简单清晰

    多进程工作模型

  • 单进程IO复用接收
  • 多进程(worker)并发处理
    明晚九点|一线互联网公司服务器监控系统架构分享

模块功能精简,便于组合

横向扩展

  • 任意环节支持横向扩展
  • 无状态、负载均衡
  • 可支持级联

    整体处理性能线性增长

  • 多路多点部署

高可用

去中心化

  • 无单点
  • 负载均衡
  • 横向扩展
  • 多点部署
  • 自动切换
  • 每个环节自动切换
  • WRR
  • 多路冗余
  • 无状态
  • Supervise保证存活
    明晚九点|一线互联网公司服务器监控系统架构分享

    数据传输可靠性

  • 传输过程中多次确认
    采集到汇聚
    转发到逻辑判断
    转发到存储
  • 外部状态监控
    传输起始端健康检查
    每个环节的外部监控
  • 内部判断

模块内扩展

明晚九点|一线互联网公司服务器监控系统架构分享

模块间可扩展

  • 采集
  • 汇聚转发
  • 过滤
  • 报警
  • 离线存储
  • 挖掘分析
  • 展示

模块间可扩展性

明晚九点|一线互联网公司服务器监控系统架构分享

七巧板搭配

  • 汇聚后的多路传输
  • 级联

    功能扩展简单

  • 存活监控
  • 端口监控
  • 集群

    核心模块高度复用

  • 模块之间联动反馈
  • 互联互通
  • 存活监控

    模块之间联动反馈

  • 互联互通
  • 存活监控

    功能扩展

明晚九点|一线互联网公司服务器监控系统架构分享

  • 基础监控 => 自定义监控
  • 端口 =>语义监控
  • URL监控 => HTTP语义监控
  • URL监控 => 访问质量监控
  • 服务器指标监控 => 集群指标监控

监控支撑业务扩展

预算与成本分摊 ---offline

  • 结合基础信息管理
  • 资源使用与服务器选型

    资源管理 --- offline

  • 空闲资源挖掘
  • 资源统计分析与基础信息校正
  • 容量管理

    空闲资源利用 --- offline

  • 存储资源
  • 计算资源

    调度决策的基础 --- online

  • 报警触发简单任务执行
  • 关联报警挖掘
  • 与业务评估模型结合

自动运维平台的一个架构简图

明晚九点|一线互联网公司服务器监控系统架构分享

详情:http://mp.weixin.qq.com/s/THG8WJeLWR3U47BoDLGlWg


本文转自 xjtuhit 51CTO博客,原文链接:http://blog.51cto.com/51reboot/2059459


相关文章
|
18天前
|
弹性计算 负载均衡 Java
【上云基础系列 02-01】通过SLB+1台ECS+ESS弹性伸缩,搭建一个精简版的上云标准弹性架构(含方案及教程)
通常,构建一个弹性架构(即使是一个最基础的入门版),至少需要2台ECS。但是,很多小微企业刚开始上云的时候,为了节省成本不愿意购买更多的服务器。通过 “ALB+ESS弹性伸缩+1台ECS+RDS”方案,在保障低成本的同时,也不牺牲业务架构的弹性设计,更避免了很多人因为节省成本选择了单体架构后频繁改造架构的困局。 方案中的几个设计非常值得小微企业借鉴:(1)通过ALB/RDS的按量付费,节省了初期流量不大时的费用;(2)通过ESS弹性伸缩,不需要提前购买服务器资源,但是当业务增长或减少时却保持了资源弹性自动扩缩容。
|
3天前
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
18天前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
185 10
|
2月前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
4月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
166 7
|
4月前
|
存储 缓存 弹性计算
Codota的服务器存储架构
Codota的服务器存储架构
58 5
|
5月前
|
监控 网络协议 安全
DNS服务器故障不容小觑,从应急视角谈DNS架构
DNS服务器故障不容小觑,从应急视角谈DNS架构
103 4
|
5月前
|
机器学习/深度学习 监控 Serverless
无服务器架构(Serverless)
无服务器架构(Serverless)
147 4
|
5月前
|
存储 固态存储 安全
阿里云服务器X86计算架构解析与X86计算架构云服务器收费价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中X86计算是用户选择最多的一种架构,本文将深入探讨阿里云X86计算架构的云服务器,包括其技术特性、适用场景、性能优势以及最新价格情况。