云原生可观测-博文-第2页-阿里云开发者社区-阿里云

扬流

|

SQL 运维资源调度

|

博文

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中，我们将介绍大数据集群领域所需的可观测性，实践大数据集群可观测所需要的条件和面临的挑战，以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

17635 4 5

小攻云攻略

|

存储运维监控

|

博文

让云原生可观测化繁为简，Alibaba Cloud Lens正式发布

9月28日，阿里云正式发布了云产品可观测平台Alibaba Cloud Lens（Lens, 透镜的意思，取名为Lens意味着洞察云产品细微的变化），可以从成本、性能、安全、数据保护、稳定性、访问分析六个纬度，提供对存储类、网络类、数据库类等云产品的精细化运维管理能力。

789 0 0

孟威

|

存储运维监控

|

博文

Alibaba Cloud Lens 云产品可观测平台

Alibaba Cloud Lens 作为云产品可观测平台，可以从成本、性能、安全、数据保护、稳定性、访问分析六个纬度，提供对存储类、网络类、数据库类等云产品的精细化运维辅助分析能力。让企业在保障业务敏捷性的前提下，低门槛实现对云产品的可观测。

2287 2 3

烨陌

|

Prometheus 监控 Kubernetes

|

博文

可观测数据采集端的管控方案的简单对比

当前，主流的日志采集产品除了SLS的ilogtail，还有Elastic Agent、Fluentd、Telegraf、Sysdig、Logkit、Loggie、Flume等。详细的对比结果见下表：备注： ○ 集群监控：表示工具可以查看管理采集端的运行状态、采集速度等数据 ○ 集群管理：表示工具可以对管理采集端的采集配置、运行参数等进行添加、修改、删除

989 0 0

阿里云云原生

|

SQL 弹性计算 Kubernetes

|

博文

如何使用 Kubernetes 监测定位慢调用

本次课程主要分为三大部分，首先将介绍慢调用的危害以及常见的原因；其次介绍慢调用的分析方法以及最佳实践；最后将通过几个案例来去演示一下慢调用的分析过程。

322 0 0

Kindling

|

存储自然语言处理监控

|

博文

Kindling项目目标：利用eBPF技术带来的可观测性的上帝视角 ——关联内核可观测数据的trace

当前可观测性领域存在三大痛点：1. 探针自动化覆盖依赖人工；2. 探针难以覆盖多语言的微服务业务；3. APM trace缺少内核可观测数据。针对三大痛点，Kindling分别是如何解决的呢？

681 0 0

技术小达人

|

存储移动开发运维

|

博文

移动域全链路可观测架构和关键技术

718 0 0

阿里云云原生

|

6月前

|

人工智能运维监控

|

博文

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

唯有通过全行业的协同努力，加强整体、完善的网络安全可观测建设，才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信，在攻克这些网络安全难题之后，AI 创新将迎来更加安全、灿烂的未来。

263 5 5

charlieroro

|

Prometheus 监控 Cloud Native

|

博文

观察到`mpstat`命令显示单核CPU的`%usr`和`%sys`分别持续在70%和20%，而Grafana监控数据显示较低。问题源于Grafana表达式计算的是CPU时间增量而非利用率。`mpstat`通过`/proc/stat`获取数据并计算CPU利用率，而`node-exporter`直接导出原始数据。调整Grafana表达式以匹配`mpstat`的计算方式后，两者结果一致。解决方案是修正Grafana查询以准确反映CPU占用率。

535 1 1

技术工程师

|

运维 Prometheus 监控

|

博文

《阿里云可观测最佳实践》——阿里云可观测产品介绍

648 0 0

技术工程师

|

监控前端开发 UED

|

博文

《阿里云可观测最佳实践》——5.映客直播

252 0 0

-开发达人-

|

传感器人工智能监控

|

博文

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

1101 1 1

auqbllxiu

|

Cloud Native 对象存储

|

博文

《对象存储OSS的云上可观测能力最佳实践》电子版地址

由于对象存储的简单易用，天然的云原生特性，面对海量数据场景具备天然优势，得到了广泛的应用。近年来，存放于对象存储OSS中的数据持续快速增长。但是客户对于对象存储不熟悉、缺乏有效的使用和管理手段，无法灵活预警和多维度分析数据。

135 0 0

阿里云云原生

|

缓存运维监控

|

博文

面对DNS劫持，只能坐以待毙吗？

借助 ARMS-云拨测，我们可实时对网站进行监控，实现分钟级别的监控，及时发现 DNS 劫持以及页面篡改。

559 0 0

简志

|

存储传感器 SQL

|

博文

可观测系统存储分析最佳实践

分享在北京云峰会智能运维场的主题

1080 0 0

阿里云云原生

|

5月前

|

数据采集 SQL 数据处理

|

博文

当实时消费遇到 SPL：让数据处理更高效、简单

SLS 对实时消费进行了功能升级，推出了基于 SPL 的规则消费功能。在实时消费过程中，用户只需通过简单的 SPL 配置即可完成服务端的数据清洗和预处理操作。通过SPL消费可以将客户端复杂的业务逻辑“左移”到服务端，从而大幅降低了客户端的复杂性和计算开销。

243 57 57

星尘安全

|

云安全安全 Cloud Native

|

博文

一文了解什么是CNAPP

在云计算蓬勃发展的今天，企业面临的安全挑战愈发复杂。传统安全方案已力不逮，CNAPP（云原生应用保护平台）应运而生，革新云安全领域。CNAPP专为云环境设计，提供全生命周期安全保护，具备微隔离、访问控制、数据保护等功能，并利用自动化与AI技术简化管理、智能响应威胁，适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战，CNAPP仍将持续进化，变得更加智能、自动且易于集成，助力企业构建稳健的云安全体系。

822 0 0

三分钟热度的鱼

|

JSON 测试技术数据格式

|

博文

PTS报错问题之并发报错如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

247 1 1

阿里云云原生

|

存储 SQL Prometheus

|

博文

统一观测丨如何使用 Prometheus 监控 MySQL

数据库的瓶颈往往也是整个系统的瓶颈，其重要性不言而喻，所以对于 MySQL 的监控必不可少，及时发现 MySQL 运行中的异常，可以有效提高系统的可用性和用户体验。因此，观测 MySQL 关键指标，实时关注数据库的可用性与性能，成为运维团队的重要任务。

548 0 0

ma2ascs2xr5ce

|

人工智能运维监控

|

博文

助力企业提升运维效率蚂蚁数科发布业务智能可观测平台

蚂蚁数科发布业务智能可观测平台可助力企业提升运维效率3倍以上

418 0 0

嚯嚯嚯www

|

弹性计算 Prometheus 运维

|

博文

【数据可观测】阿里云的Grafana云监控大盘服务

阿里云发布的grafana托管服务，更是为云上的资产提供了高效的监控数据可观测能力。阿里云grafana弹性、免运维，可以方便的对接云上云下的各种数据源。

2618 1 1

阿里云云原生

|

存储自然语言处理运维

|

博文

基于 eBPF 的 Kubernetes 可观测实践

阿里云可观测团队构建了 kubernetes 统一监控，无侵入式地提供多语言、应用性能黄金指标，支持多种协议，结合 Kubernetes 管控层与网络系统层监控，提供全栈一体式的可观测体验。通过流量拓扑、链路、资源的关系，可进行关联分析，进一步提升在 Kubernetes 环境下排查问题的效率。

1209 0 0

阿里云云原生

|

存储运维监控

|

博文

深入浅出 eBPF｜你要了解的 7 个核心问题

eBPF 提供的只是一个框架和机制，核心还是需要用 eBPF 的人对软件栈的理解，找到合适的插桩点，能够和应用问题进行关联。

776 0 0

日志服务SLS

|

数据采集人工智能运维

|

博文

New Relic 可观测平台调研

894 0 0

阿里云云原生

|

存储运维监控

|

博文

企业如何从 0 到 1 构建整套全链路追踪体系

今天，我来跟大家分享 ARMS 在全链路追踪领域的最佳实践，分享主要分为四部分。首先，是对分布式链路追踪的整体简介。其次，是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后，介绍如何从 0 到 1 构建整套全链路追踪体系。最后，介绍一些最佳实践案例。

558 0 0

最佳实践小文

|

Prometheus 监控 Cloud Native

|

博文

基于日志服务构建业务可观测性系统

根据海恩法则(Heinrich‘s Law)，每一起严重事故背后，必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。如果提前处理那些不那么严重的问题，其实是可以避免后续的严重事故的，也就避免了其带来的巨大压力和损失。

534 0 0

成喆

|

运维 Prometheus 监控

|

博文

可观测告警运维系统调研——SLS告警与多款方案对比

本文介绍对比多款告警监控运维平台方案，覆盖阿里云SLS、Azure、AWS、自建系统（ELK、Prometheus、TICK）等方案。

5147 0 0

工程师甲

|

数据采集应用服务中间件 API

|

博文

【最佳实践】ingest对异源数据结构化处理，并由Elastic Stack实现可观测性分析

本文将讲述如何运用Elasticsearch的 ingest 节点实现数据结构化，并对数据进行处理。

1810 0 0

osswangxining

|

Prometheus 监控 Cloud Native

|

博文

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

阿里云容器服务Kubernetes（简称ACK）支持一键部署Istio，可以参考[文档](https://help.aliyun.com/document_detail/89805.html)在ACK上部署使用Isito。Istio on ACK提供了丰富的监控能力，为网格中的服务收集遥测数据，其中Mixer是负责提供策略控制和遥测收集的Istio组件。使用Prometheus进行监控是Istio

2420 0 0

游客uqb2obj6pe7ry

|

11月前

|

JavaScript API 开发工具

|

博文

（H5-Web3D-ThreeJS）在网页三维CAD中绘制窗户模型

本文介绍了如何使用mxcad3d在网页中创建一个简单的三维窗户模型。通过官方教程搭建环境，编写绘制窗户模型的代码，并在点击按钮后展示模型效果。最终模型包括窗框和玻璃部分，具备丰富的三维建模功能和便捷的API支持。

288 7 7

云故事栏目组

|

存储 Prometheus 运维

|

博文

【云故事探索】NO.8：揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年，专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业，确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中，神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案，最终选择阿里云Prometheus和日志服务SLS，实现了统一可观测平台，提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。未来，神州商龙计划引入机器学习和AI技术，提升自动化运维水平，并进一步整合业务系统监控数据。

239 3 3

三分钟热度的鱼

|

监控测试技术对象存储

|

博文

PTS启动问题之启动失败如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

227 1 1

三分钟热度的鱼

|

监控 Java 应用服务中间件

|

博文

PTS报错问题之日志报错如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

188 1 1

三分钟热度的鱼

|

测试技术 Serverless iOS开发

|

博文

PTS接口问题之执行请求失败如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

191 1 1

ux6t45lknjgbo

|

存储 Prometheus 监控

|

博文

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测（重点为指标监控体系）为切入点，对比 OpenTelemetry 与 Prometheus 的相同与差异，后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理，最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例，希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

965 0 0

探索云世界

|

Prometheus 监控 Cloud Native

|

博文

可观测Grafana入门训练营，帮助同学们由浅入深的对阿里云Grafana服务拥有全面了解

442 0 0

云课程笔记

|

消息中间件存储缓存

|

博文

RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍｜学习笔记

快速学习 RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍

1008 0 1

yestodorrow

|

缓存前端开发数据可视化

|

博文

前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘

347 0 0

阿里云云原生

|

弹性计算 Prometheus 运维

|

博文

统一观测｜如何使用 Prometheus 监控 Windows

阿里云 Prometheus 与阿里云容器服务和 ECS 无缝集成，默认提供了 Windows 的 CPU、内存、磁盘、网络和进程等 5 方面的核心监控指标采集，同时提供了对应的优化后的专家级监控大盘和告警指标模板，为用户提供了免运维、开箱即用的 Windows 监控能力。

1060 0 0

jiangxindc.com

|

缓存 Prometheus 监控

|

博文

可观测性神器之 Micrometer

对于大部分开发人员来说可能用过普罗米修斯 Grafana 这样的监控系统，从未听说过 Micrometer 工具，这里就详细的来介绍下可观测性神器 Micrometer，让你在开发时使用它就和使用 SLFJ 日志系统一样简单易用，有效的提升系统的健壮性和可靠性。

740 6 6

阿里云社区

|

安全 Dubbo 中间件

|

博文

99大促来袭，利用MSE可观测能力和容量规划为业务保驾护航 | 学习笔记（一）

快速学习99大促来袭，利用MSE可观测能力和容量规划为业务保驾护航

192 0 0

云内容小助手

|

Prometheus 运维监控

|

博文

ALL in one：如何搭建端到端可观测体系|学习笔记

快速学习ALL in one：如何搭建端到端可观测体系。

652 0 0

云课程笔记

|

监控 Kubernetes 安全

|

博文

可观测性：监控与日志|学习笔记

快速学习可观测性：监控与日志

346 0 0

阿里云云原生

|

消息中间件存储弹性计算

|

博文

可观测实践｜如何利用 Prometheus 精细化观测云产品

随着企业使用越来越多的云产品，如何监控不同云产品运行状态，又该如何建立统一大盘，不妨看看如何通过阿里云Prometheus解决上述问题。

512 0 0

木弓-SLS

|

存储运维监控

|

博文

CloudLens for OSS--数据洞察可观测平台发布

日志服务联合阿里云OSS推出CloudLens for OSS，支持Bucket粒度的统一管理视图，支持资源用量、访问分析、异常检测、安全分析等可视化分析能力，提供场景化运维管理，实现Bucket资产的可观测性。

360 0 0

阿里云云原生

|

弹性计算 Prometheus 运维

|

博文

可观测实践｜如何使用阿里云 Prometheus 观测 ECS 应用

虽然容器已大规模应用，但企业仍有大量应用/服务部署在ECS上或线下IDC上，那么运维团队如何借助Prometheus监控这些ECS应用呢？自建Prometheus又会遇到什么难题？不如看看这篇文章！

377 0 0

微服务和网关

|

存储 Prometheus 监控

|

博文

云原生网关的可观测性体系实践

云原生网关是阿里云微服务引擎(MSE)下的一款托管类型网关产品，其将传统的流量网关与微服务网关进行了整合，本文将讲述如何基于云原生网关去搭建网关场景的可观测性体系。

766 0 0

龙蜥社区（OpenAnolis）

|

监控 Kubernetes 安全

|

博文

关于 eBPF 安全可观测性，你需要知道的那些事儿

聊一聊eBPF 安全可观测性。

1781 0 0

阿里云云原生

|

存储消息中间件 Prometheus

|

博文

万节点规模云服务的 SRE 能力建设

随着越来越多企业以容器作为系统底座，那么阿里云的云服务又是如何进行SRE规划呢？下文将由资深SRE工程师拆解2 万节点规模云服务背后的 SRE 能力建设，立即点击观看！

1801 0 1

弹性计算-百晓生

|

数据采集弹性计算运维

|

博文

阿里云技术专家郝晨栋：云上可观测能力——问题的发现与定位实践

让客户清晰感知到当前实例的健康状态，帮助快速发现问题，降低运维成本。

654 0 0

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

让云原生可观测化繁为简，Alibaba Cloud Lens正式发布

Alibaba Cloud Lens 云产品可观测平台

可观测数据采集端的管控方案的简单对比

如何使用 Kubernetes 监测定位慢调用

Kindling项目目标：利用eBPF技术带来的可观测性的上帝视角 ——关联内核可观测数据的trace

移动域全链路可观测架构和关键技术

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧：安全可观测体系建设刻不容缓

grafana展示的CPU利用率与实际不符的问题探究

《阿里云可观测最佳实践》——阿里云可观测产品介绍

《阿里云可观测最佳实践》——5.映客直播

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

《对象存储OSS的云上可观测能力最佳实践》电子版地址

面对DNS劫持，只能坐以待毙吗？

可观测系统存储分析最佳实践

当实时消费遇到 SPL：让数据处理更高效、简单

一文了解什么是CNAPP

PTS报错问题之并发报错如何解决

统一观测丨如何使用 Prometheus 监控 MySQL

助力企业提升运维效率 蚂蚁数科发布业务智能可观测平台

【数据可观测】阿里云的Grafana云监控大盘服务

基于 eBPF 的 Kubernetes 可观测实践

深入浅出 eBPF｜你要了解的 7 个核心问题

New Relic 可观测平台调研

企业如何从 0 到 1 构建整套全链路追踪体系

基于日志服务构建业务可观测性系统

可观测告警运维系统调研——SLS告警与多款方案对比

【最佳实践】ingest对异源数据结构化处理，并由Elastic Stack实现可观测性分析

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

（H5-Web3D-ThreeJS）在网页三维CAD中绘制窗户模型

【云故事探索】NO.8：揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

PTS启动问题之启动失败如何解决

PTS报错问题之日志报错如何解决

PTS接口问题之执行请求失败如何解决

当 OpenTelemetry 遇上阿里云 Prometheus

可观测Grafana入门训练营，帮助同学们由浅入深的对阿里云Grafana服务拥有全面了解

RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍｜学习笔记

前端同学在可观测性的启蒙与初试探--快速实现根因分析/业务大盘

统一观测｜如何使用 Prometheus 监控 Windows

可观测性神器之 Micrometer

99大促来袭，利用MSE可观测能力和容量规划为业务保驾护航 | 学习笔记（一）

ALL in one：如何搭建端到端可观测体系|学习笔记

可观测性：监控与日志|学习笔记

可观测实践｜如何利用 Prometheus 精细化观测云产品

CloudLens for OSS--数据洞察可观测平台发布

可观测实践｜如何使用阿里云 Prometheus 观测 ECS 应用

云原生网关的可观测性体系实践

关于 eBPF 安全可观测性，你需要知道的那些事儿

万节点规模云服务的 SRE 能力建设

阿里云技术专家郝晨栋：云上可观测能力——问题的发现与定位实践

活跃用户

相关产品

助力企业提升运维效率蚂蚁数科发布业务智能可观测平台