使用SLS构建企业级监控

简介: 随着企业信息化的发展,面向云的IT基础设施越来越普遍,如何解决跑大的软件系统的监控问题,成为IT稳定性保障的关键环节。 本方案主要介绍如何使用SLS 对阿里云、专有IDC以及第三方云场景下,进行企业级的监控方案。

(一)背景

随着企业信息化的发展,面向云的IT基础设施越来越普遍,如何解决跑大的软件系统的监控问题,成为IT稳定性保障的关键环节。 本方案主要介绍如何使用SLS 对阿里云、专有IDC以及第三方云场景下,进行企业级的监控方案。

(二)架构

依托于MetricStore/Logstore存储能力,SLS提供了从底向上全栈的监控能力

image.png

(三)前序工作

  1. 在阿里云官网已经开通 SLS服务
  2. 确保现有的网络环境,可以连通到阿里云网络。

网络联通说明:

本方案要求现有的需要采集指标或日志的设备能够联通阿里云的网络环境,目前SLS支持的Region 参考 链接

对于IDC或者其他云厂商的场景,如果是进行POC的话可以优先使用SLS的公网地址进行日志收集;如果是生产使用建议搭建相应的专线接入阿里云网络,以保障数据传输的可靠性

(四)步骤

配置步骤汇总

监控层次

监控类型

接入方式

接入说明

IAAS层

k8s指标监控

配置即可接入(Promethues Remote Write)

支持Pod、Deployment、SatefulSet、k8s核心组件指标监控,具体配置方法 链接

k8s事件监控

配置即可接入(需部署k8s npd组件)

容器的重启、Crash、OOM等监控,关键组件异常监控链接

主机监控

logtail采集

支持CPU、Mem、Disk、Net、System等相关指标采集链接

PAAS层

MySQL

logtail采集

配置方案见 链接

MongoDB

logtail采集

配置方案见 链接

Redis

logtail采集

配置方案见 链接

ClickHouse

logtail采集

配置方案见 链接

Kafka

logtail采集

配置方案见 链接

Nginx

logtail采集

配置方案见 链接

ElasticSearch

logtail采集

配置方案见 链接

阿里云云产品

配置即可接入

支持常见的云产品(ecs、rds等)指标接入链接

应用层

应用Trace

业务代码集成(部分支持无侵入)

支持常见语言SDK

现有Trace集成

配置即可接入

  • OpenCensus Trace 数据接入 参考 链接
  • Zipkin Trace数据接入 参考 链接
  • SkyWalking Trace数据接入 参考 链接
  • Jaeger Trace数据接入 参考 链接

JVM指标监控

配置即可接入

配置方式参考 链接

自定义指标

开发接入/SLS数据加工/SLS ScheduleSQL

支持使用Python、Java、Go等语言,向SLS MetricStore写入自定义的监控数据。 参考 链接

业务层

业务接入层分析

配置即可接入

  • Nginx访问日志分析 链接
  • ALB访问日志分析 链接
  • SLB访问日志分析 链接
  • Kubernetes Ingress日志分析 链接

自定义指标

开发接入/SLS数据加工/SLS ScheduleSQL

业务日志中的日志,通过计算转换为指标

  • 使用SLS数据加工转换日志为指标 链接



部分监控效果展示

k8s 接入Prometheus后指标查询展示

image.png

k8s 接入Prometheus后使用Grafana查询

image.png

k8s事件中心

image.png


Redis监控

image.png

云产品 - ecs指标导入

image.png

SLB日志中心

image.png

应用JVM监控

image.png

应用Trace接入

image.png

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
9月前
|
Prometheus 监控 Cloud Native
基于docker搭建监控系统&日志收集
Prometheus 是一款由 SoundCloud 开发的开源监控报警系统及时序数据库(TSDB),支持多维数据模型和灵活查询语言,适用于大规模集群监控。它通过 HTTP 拉取数据,支持服务发现、多种图表展示(如 Grafana),并可结合 Loki 实现日志聚合。本文介绍其架构、部署及与 Docker 集成的监控方案。
797 122
基于docker搭建监控系统&日志收集
|
10月前
|
存储 运维 监控
金蝶云•星辰基于 SLS 构建稳定高效可观测系统
金蝶云•星辰通过阿里云日志服务 SLS 替换自建 ELK 系统,构建统一可观测平台,有效应对业务高速增长带来的稳定性挑战,提升运维效率与系统稳定性,助力企业数字化转型。
|
9月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
2744 106
|
9月前
|
Prometheus 监控 Java
日志收集和Spring 微服务监控的最佳实践
在微服务架构中,日志记录与监控对系统稳定性、问题排查和性能优化至关重要。本文介绍了在 Spring 微服务中实现高效日志记录与监控的最佳实践,涵盖日志级别选择、结构化日志、集中记录、服务ID跟踪、上下文信息添加、日志轮转,以及使用 Spring Boot Actuator、Micrometer、Prometheus、Grafana、ELK 堆栈等工具进行监控与可视化。通过这些方法,可提升系统的可观测性与运维效率。
778 1
日志收集和Spring 微服务监控的最佳实践
|
9月前
|
存储 缓存 监控
用 C++ 红黑树给公司电脑监控软件的日志快速排序的方法
本文介绍基于C++红黑树算法实现公司监控电脑软件的日志高效管理,利用其自平衡特性提升日志排序、检索与动态更新效率,并结合实际场景提出优化方向,增强系统性能与稳定性。
233 4
|
监控 测试技术 Go
告别传统Log追踪!GOAT如何用HTTP接口重塑代码监控
本文介绍了GOAT(Golang Application Tracing)工具的使用方法,通过一个Echo问答服务实例,详细展示了代码埋点与追踪技术的应用。内容涵盖初始化配置、自动埋点、手动调整埋点、数据监控及清理埋点等核心功能。GOAT适用于灰度发布、功能验证、性能分析、Bug排查和代码重构等场景,助力Go项目质量保障与平稳发布。工具以轻量高效的特点,为开发团队提供数据支持,优化决策流程。
862 90
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
701 51
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
626 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
存储 消息中间件 缓存
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。
653 1
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
352 3