开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2181
内容
4
活动
313
关注
|
Prometheus 监控 Cloud Native
|

grafana展示的CPU利用率与实际不符的问题探究

观察到`mpstat`命令显示单核CPU的`%usr`和`%sys`分别持续在70%和20%,而Grafana监控数据显示较低。问题源于Grafana表达式计算的是CPU时间增量而非利用率。`mpstat`通过`/proc/stat`获取数据并计算CPU利用率,而`node-exporter`直接导出原始数据。调整Grafana表达式以匹配`mpstat`的计算方式后,两者结果一致。解决方案是修正Grafana查询以准确反映CPU占用率。

779 1
|
tengine Java 测试技术
|

PTS压测问题之调试返回403如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

1138 2
|
JSON 测试技术 数据格式
|

PTS报错问题之并发报错如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

339 1
|
测试技术 API
|

PTS压测问题之压测空白如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

343 1
|
缓存 负载均衡 测试技术
|

pts压测问题之接口超时如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

871 1
|
数据可视化 测试技术 数据安全/隐私保护
|

通过可观测可视化Grafana版进行数据可视化展示与分析

使用可观测可视化Grafana版进行数据可视化展示与分析。

844 1
|
存储 运维 监控
|

客户案例 | 橡树黑卡携手观测云,实现会员体系业务可观测

橡树黑卡(www.oakvip.cn)是国内领先的付费会员制权益服务平台,提供付费会员解决方案设计、产品研发、数字供应链管理、活动运营、客服咨询等一站式服务。

639 0
|
开发者
|

使用服务网格可观测性为应用服务保驾护航(二)|学习笔记

快速学习使用服务网格可观测性为应用服务保驾护航(二)

223 0
|
数据采集 Kubernetes 网络协议
|

eBPF 实践 -- 网络可观测

观测云采集器,是一款开源、一体式的数据采集 Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入,观测云采集器实践了网络传输层和应用层的部分协议的可观测。

938 0
|
存储 运维 监控
|

Alibaba Cloud Lens云产品可观测平台

——孟威 阿里云智能日志服务SLS产品专家

938 0
|
存储
|

《可观测数据存储分析实践-周琦》电子版地址

可观测数据存储分析实践-周琦

298 0
|
数据采集 JSON 监控
|

千万级可观测数据采集器--iLogtail代码完整开源

2022年6月29日,阿里云iLogtail开源后迎来首次重大更新,正式发布完整功能的iLogtail社区版。本次更新开源全部C++核心代码,该版本在内核能力上首次对齐企业版,开发者可以构建出与企业版性能相当的iLogtail云原生可观测性数据采集器。本次发布新增日志文件采集、容器文件采集、无锁化事件处理、多租户隔离、基于Pipeline的新版配置方式等诸多重要特性,全面增强社区版的易用性和性能,欢迎广大开发者关注、共建。

1624 1
|
存储 SQL 数据采集
|

MetaFlow开源 帮助开发者建设高度自动化可观测性平台

可观测性建设从去年开始在国内非常的火热,大家谈的越来越多。随着云原生、微服务的发展落地,可观测性建设逐渐成为了一个必不可少的工程手段。开发者通常需要去思考建设可观测性的方方面面:如何在不同的Dev Stack和Infra Stack中埋点、如何插码、如何传递追踪上下文、如何生成指标/追踪/日志数据并进行关联,需要考虑的问题太多太杂,导致应用开发团队花了一半的时间用于可观测性的建设。

840 0
|
消息中间件 监控 Cloud Native
|

终极套娃 2.0|云原生 PaaS 平台的可观测性实践分享

如何实现自身的可观测性?实践经验分享一起来看!

437 0
|
机器学习/深度学习 运维 自然语言处理
|

从 “香农熵” 到 “告警降噪” ,如何提升告警精度?

ARMS 智能降噪功能依托于 NLP 算法和信息熵理论建立模型,从大量历史告警事件中去挖掘这些事件的模式规律。当实时事件触发后,实时为每一条事件打上信息熵值与噪音识别的标签,帮助用户快速识别事件重要性。

576 0
|
存储 缓存 运维
|

构建适合组织的云原生可观测性能力

当你到达第3级时,可观测性已经成为了云基础设施上内生的能力,像原力一样,它蕴含在已运行的每个应用系统、以及未来会新增的每个应用系统中,是一项与生俱来的基本能力,这项能力无需依赖于在业务代码中的“调用”来触发,它就在那里。DeepFlow在可观测性3.0等你。May the force be with you!

1000 0
|
监控 Cloud Native 网络协议
|

IT系统为什么需要可观测性(解读版)

目前,云厂商独立第三方企业均提供可观测性的SaaS服务。国内的第三方提供商,云杉网络也提供名为DeepFlow Cloud的SaaS产品,方便大家体验。SaaS服务的主要问题,是用户的应用大概率需要跑在公有云上,并且观测数据要由第三方管理。此外,SaaS的计费模式相当复杂,有按主机规模计算的部分,也有按数据量计算的部分,总之很难准确规划这方面的预算。因此,对于中小企业SaaS是首选,但对于中大型客户,尤其是采用混合云架构,合规性要求高,项目预算制的大型行业客户来说,很难仅仅依赖SaaS提供可观测性服务。

848 0
|
存储 编解码 缓存
|

iOS 可观测实践有哪些?好文拿走不谢

ios可观测实践

531 0
|
运维 监控 数据可视化
|

高德打车构建可观测性系统实践

互联网工程的高速发展,分布式、微服务、容器化架构的流行,互联网已全面进入云原生时代。构建系统的方式由最初的单体大应用演变为分布式架构,一台服务器可能仅存几小时甚至几分钟,这种复杂性大大增加了把系统运行状态可视化的难度。

2728 0
|
机器学习/深度学习 消息中间件 数据采集
|

可观测性-Elastic Stack 实战手册

业界对可观测性的定义由Logging(日志),Metrics (指标)和 Tracing(跟踪)组成。其中大多数软件都仅在一个领域内发力,这导致了实施可观测性时的高昂成本。需要建设多个技术栈的软件,才能实现完整的可观测性。大多数企业基本都使用了 5个+ 的技术栈,有的甚至能达到10个技术栈。

886 0
|
运维 Prometheus 监控
|

可观测告警运维系统调研——SLS告警与多款方案对比

本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

5441 0
|
7月前
|
运维 监控 数据可视化
|

从巴比馒头的“洗菜流水线”,来看“telemetry pipeline”工具的火热兴起

以巴比馒头自动化洗菜为喻,探讨运维领域“数据清洗”难题。DataHub作为国产可视化遥测管道工具,支持多源数据接入与低代码编排,实现日志、指标、链路等数据的高效处理与统一管理,助力企业构建高质量可观测体系。(238字)

443 6
|
11月前
|
存储 运维 开发工具
|

警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践

本文总结了日志管理中的六大反模式及优化建议,涵盖日志轮转、存储选择、并发写入等常见问题,帮助提升日志采集的完整性与系统可观测性,适用于运维及开发人员优化日志管理策略。

380 5
|
运维 监控 网络协议
|

SRE 排障利器,接口请求超时试试 httpstat

推荐一款用于服务调用排查的工具——httpstat,类似curl,能详细显示HTTP请求各阶段耗时,包括DNS解析、TCP连接等。

344 1
|
编解码 前端开发 JavaScript
|

Grafana Plugin: 支持 jsx 实时渲染的 grafana 面板插件

A JSX real-time rendering grafana panel plugin. / 一个支持 JSX 实时渲染的 grafana 面板插件

768 3
|
Java 测试技术 API
|

PTS取值问题之取值失败如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

244 0
|
存储 Prometheus 监控
|

《阿里云可观测最佳实践》——阿里云可观测解决方案介绍

《阿里云可观测最佳实践》——阿里云可观测解决方案介绍

851 0
|
JavaScript
|

可观测性网站之Session的生命周期

本文会列出session的属性值、统计指标,重点讲解session几个字段值,虽然session和view、app均有关联,但本文仅从代码层面对session的生命周期做解释。

279 0
|
存储 Prometheus Kubernetes
|

对比开源丨Prometheus 服务多场景存储压测全解析

作为国内领先的云服务提供商,阿里云提供了优秀的可观测全套解决方案,阿里云 Prometheus 服务正是其中重要一环,相比于开源版本 Prometheus,阿里云的 Prometheus 服务无论是易用性、扩展性、性能均有大幅度提升。

664 0
|
Web App开发 域名解析 监控
|

前端可观测性的宣讲-1022

前端可观测性的宣讲-1022

903 0
|
JSON 运维 监控
|

RUM之SPA应用性能的可观测

RUM之SPA应用性能的可观测

372 0
|
安全 Dubbo 中间件
|

99大促来袭,利用MSE可观测能力和容量规划为业务保驾护航 | 学习笔记(一)

快速学习99大促来袭,利用MSE可观测能力和容量规划为业务保驾护航

286 0
|
运维
|

《云上可观测能力-问题的发现与定位实践》电子版地址

云上可观测能力:问题的发现与定位实践 | 云上自动化运维CloudOps系列沙龙_第一弹

195 0

十年磨一剑:蚂蚁集团可观测性平台 AntMonitor 揭秘

蚂蚁集团的业务种类繁多,兼具金融级的“稳” 和互联网的 “快”,支撑又快又稳的业务发展需要完善的稳定性保障体系, 这个体系的基石就是可观测性平台-AntMonitor 。 早在2011年前,监控平台就已经完成初代建设,在2012到2017年这五年间,蚂蚁监控技术团队抽象出了业务视角监控牵引的模式,大大提升了核心业务的故障发现能力,同期研发了可视化引擎与易用的配置系统。为了支撑双11等大规模海量计算场景,在底层数据技术上做到了实时稳定的大规模日志和指标处理能力。随着这些能力的完成,可观测平台的产品也逐渐成熟。

1354 0
|
存储 运维 监控
|

Alibaba Cloud Lens 云产品可观测平台

Alibaba Cloud Lens 作为云产品可观测平台,可以从成本、性能、安全、数据保护、稳定性、访问分析六个纬度,提供对存储类、网络类、数据库类等云产品的精细化运维辅助分析能力。让企业在保障业务敏捷性的前提下,低门槛实现对云产品的可观测。

2514 2

ARMS 助力羽如贸易打造全链路可观测最佳实践

随着奢侈品行业在我国快速发展,跨境电商市场不断扩张。作为电商行业初创企业的上海羽如贸易有限公司(简称羽如贸易)积极进行数字化创新,打破固有零售思维,借助可观测能力有效提升用户体验,为业务飞速增长提供稳定支持。

486 0
|
存储 消息中间件 Prometheus
|

万节点规模云服务的 SRE 能力建设

随着越来越多企业以容器作为系统底座,那么阿里云的云服务又是如何进行SRE规划呢?下文将由资深SRE工程师拆解2 万节点规模云服务背后的 SRE 能力建设,立即点击观看!

1983 0
|
存储 自然语言处理 运维
|

基于 eBPF 的 Kubernetes 可观测实践

阿里云可观测团队构建了 kubernetes 统一监控,无侵入式地提供多语言、应用性能黄金指标,支持多种协议,结合 Kubernetes 管控层与网络系统层监控,提供全栈一体式的可观测体验。通过流量拓扑、链路、资源的关系,可进行关联分析,进一步提升在 Kubernetes 环境下排查问题的效率。

1408 0
|
存储 数据采集 Prometheus
|

基于 OPLG 从 0 到 1 构建统一可观测平台实践

随着软件复杂度的不断提升,单体应用架构逐步向分布式和微服务的架构演进,整体的调用环境也越来越复杂,仅靠日志和指标渐渐难以快速定位复杂环境下的问题。对于全栈可观测的诉求也变得愈加强烈,Traces、Metrics 和 Logs 的连接也愈发紧密。

2019 1
|
数据采集 弹性计算 运维
|

阿里云技术专家郝晨栋:云上可观测能力——问题的发现与定位实践

让客户清晰感知到当前实例的健康状态,帮助快速发现问题,降低运维成本。

799 0
|
数据采集 监控 开发者
|

千万级可观测数据采集器--iLogtail代码完整开源

2022年6月29日,阿里云iLogtail开源后迎来首次重大更新,正式发布完整功能的iLogtail社区版。本次更新开源全部C++核心代码,该版本在内核能力上首次对齐企业版,开发者可以构建出与企业版性能相当的iLogtail云原生可观测性数据采集器。本次发布新增日志文件采集、容器文件采集、无锁化事件处理、多租户隔离、基于Pipeline的新版配置方式等诸多重要特性,全面增强社区版的易用性和性能,欢迎广大开发者关注、共建。

2426 0
|
存储 编解码 Prometheus
|

可观测|时序数据降采样在Prometheus实践复盘

基于 Prometheus 的监控实践中,尤其是在规模较大时,时序数据的存储与查询是其中非常关键,而且问题点较多的一环。如何应对大数据量下的长周期查询,原生的 Prometheus 体系并未能给出一个令人满意的答案。对此,ARMS Prometheus 近期上线了降采样功能,为解决这个问题做出了新的尝试。

933 0
|
运维 监控 Cloud Native
|

云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

516 0
|
消息中间件 监控 Kubernetes
|

k8s的可观测性

k8s的可观测性

588 0
|
Cloud Native 安全 Linux
|

基于eBPF的云原生可观测性开源项目Kindling之eBPF基础设施库技术选型

eBPF技术正以令人难以置信的速度发展,作为一项新兴技术,它具备改变容器网络、安全、可观测性生态的潜力。本文主要探讨Kindling的eBPF基础设施库的选型考量。

1434 0
|
Prometheus Kubernetes 监控
|

通过Kubernetes监控探索应用架构,发现预期外的流量

Kubernetes 监控立足于应用监控之下的 Kubernetes 容器界面和底层操作系统,是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中可以同时看到关联的所有层的观测数据。我们希望通过 Kubernetes 监控的一系列最佳实践,让大家能够使用 Kubernetes 监控解决 Kubernetes 环境下棘手的可观测问题。

529 0
|
人工智能 运维 监控
|

面对疾风吧,如何搭建高协同的精准告警体系?

想要实现AiOps,智能告警少不了。Arms 告警运维中心让面向告警的组织协同更加便捷高效!

521 0
|
存储 监控 负载均衡
|

链路分析 K.O “五大经典问题”

链路分析是基于已存储的全量链路明细数据,自由组合筛选条件与聚合维度进行实时分析,可以满足不同场景的自定义诊断需求。

382 0
|
存储 缓存 运维
|

Facebook宕机背后,我们该如何及时发现DNS问题

国庆期间,Facebook 及其旗下 Instagram 和 WhatsApp 等应用全网宕机,停机时间将近 7 小时 5 分钟,Facebook 市值损失 643 亿美元。针对Facebook的宕机问题,我们该如何未雨绸缪,看看云拨测如何帮助客户避免该类问题。

402 0
我要发布