开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2177
内容
4
活动
306
关注
|
存储 Prometheus 监控
|

浅谈可观测架构模式

可观测性( Observability )主要是指了解程序内部运行情况的能力。关于可观测性的架构设计主要涉及三个部分:日志(logging)、度量(Metrics)和追踪(Tracing)。本文将从这三个方面阐述可观测性架构的设计。

2236 0
|
存储 传感器 SQL
|

可观测系统存储分析最佳实践

分享在北京云峰会智能运维场的主题

1220 0
|
存储 Prometheus 监控
|

Istio on ACK集成生态(1): 集成TSDB助力可观测性存储

使用Prometheus进行监控是Istio提供的监控能力之一,通过集成TSDB有效地解决持久化存储的问题。

2977 1
|
11月前
|
数据采集 SQL 数据处理
|

当实时消费遇到 SPL:让数据处理更高效、简单

SLS 对实时消费进行了功能升级,推出了 基于 SPL 的规则消费功能。在实时消费过程中,用户只需通过简单的 SPL 配置即可完成服务端的数据清洗和预处理操作。通过SPL消费可以将客户端复杂的业务逻辑“左移”到服务端,从而大幅降低了客户端的复杂性和计算开销。

476 56
|
12月前
|
人工智能 运维 监控
|

从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。

528 5
|
存储 Prometheus 监控
|

众览全局,企业级云监控助力构建统一云产品可观测

企业上云已成为共识,但在合理使用和管理云资源方面仍面临诸多挑战。富莱瑞调研显示79%的企业缺乏经验。阿里云2023年推出云监控2.0,通过统一接入、关联分析、数据探索等六大升级,帮助企业应对数据孤岛、关联分析困难、灵活性不足等问题。云监控2.0还引入了CloudLens和AI大模型技术,提供更深入的云产品可观测能力,提升运维效率。实际案例表明,通过建设统一可观测平台,企业的故障排查时间和运营成本显著降低。

428 6
|
存储 Prometheus 运维
|

【云故事探索】NO.8:揭秘餐饮行业龙头 SaaS 厂商神州商龙的全栈可观测实践

天津市神州商龙科技股份有限公司成立于1998年,专为餐饮行业提供数字化解决方案。公司服务10万余家知名餐饮企业,确保用餐体验的稳定性至关重要。在业务容器化和微服务化过程中,神州商龙面临技术架构多样性、高可用要求及成本控制等挑战。通过尝试自建Prometheus和SkyWalking监控方案,最终选择阿里云Prometheus和日志服务SLS,实现了统一可观测平台,提升了监控效率、缩短故障排查时间、增强系统稳定性和优化资源利用率。未来,神州商龙计划引入机器学习和AI技术,提升自动化运维水平,并进一步整合业务系统监控数据。

539 3
|
安全 算法 API
|

如何在DocuSign中设置PKCE(Proof Key for Code Exchange)

在使用DocuSign进行电子签名时,安全性至关重要。PKCE提供了一个额外的安全层,特别是在移动设备或基于浏览器的应用中,有效防止授权码泄露或被未授权的第三方使用。

515 0
|
测试技术
|

PTS场景导入问题之导入失败如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

199 1
|
弹性计算 Kubernetes 监控
|

《阿里云可观测最佳实践》——1.深绘智能(下)

《阿里云可观测最佳实践》——1.深绘智能(下)

429 0
|
存储 SQL 监控
|

《阿里云可观测最佳实践》——3.掌游科技(下)

《阿里云可观测最佳实践》——3.掌游科技(下)

260 0
|
运维 监控 Kubernetes
|

云原生可观测性的现状、搭建方法和发展趋势

云原生可观测性的现状、搭建方法和发展趋势

430 0
|
存储 缓存 运维
|

基础篇丨链路追踪(Tracing)其实很简单

基础篇丨链路追踪(Tracing)其实很简单

801 0
|
存储 运维 Prometheus
|

全栈声明式可观测:KubeVela 开箱即用且灵活定制的云原生应用洞察

全栈声明式可观测:KubeVela 开箱即用且灵活定制的云原生应用洞察

340 0
|
存储 Prometheus 运维
|

统一观测丨使用 Prometheus 监控云原生网关,我们该关注哪些指标?

MSE 云原生网关默认提供了丰富的 Metrics 指标大盘,配合阿里云 Prometheus 监控提供开箱即用的完整可观测性能力,能够帮助用户快捷、高效的搭建自身的微服务网关与对应的可观测体系。

850 1
|
存储 Prometheus Kubernetes
|

对比开源丨Prometheus 服务多场景存储压测全解析

谁不想要一个省心又好用的监控呢?用数据说话,让我们看看不同集群规模下,阿里云Prometheus 服务Vs开源版本的存储性能压测对比吧!

1065 0
|
消息中间件 存储 缓存
|

RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍|学习笔记

快速学习 RocketMQ 5.0 可观测能力升级: Tracing 链路追踪介绍

1128 0
|
Prometheus 运维 监控
|

ALL in one:如何搭建端到端可观测体系|学习笔记

快速学习ALL in one:如何搭建端到端可观测体系。

757 0
|
存储 数据采集 资源调度
|

阿里云可观测峰会-行业实践分论坛| 学习笔记(五)

快速学习阿里云可观测峰会-行业实践分论坛

243 0
|
存储 自然语言处理 Oracle
|

eBPF程序摄像头——力争解决可观测性领域未来最有价值且最有挑战的难题

eBPF程序摄像头期望帮你定位Trace追踪工具无法排查的问题;生产环境无法复现的问题;需要打日志紧急发布的问题;系统内核无法观测的问题......

341 0
|
运维
|

《云上可观测能力-问题的发现与定位实践》电子版地址

云上可观测能力:问题的发现与定位实践 | 云上自动化运维CloudOps系列沙龙_第一弹

170 0
|
Prometheus 监控 Kubernetes
|

可观测数据采集端的管控方案的简单对比

当前,主流的日志采集产品除了SLS的ilogtail,还有Elastic Agent、Fluentd、Telegraf、Sysdig、Logkit、Loggie、Flume等。详细的对比结果见下表: 备注: ○ 集群监控:表示工具可以查看管理采集端的运行状态、采集速度等数据 ○ 集群管理:表示工具可以对管理采集端的采集配置、运行参数等进行添加、修改、删除

1080 0
|
数据采集 监控 开发者
|

千万级可观测数据采集器--iLogtail代码完整开源

2022年6月29日,阿里云iLogtail开源后迎来首次重大更新,正式发布完整功能的iLogtail社区版。本次更新开源全部C++核心代码,该版本在内核能力上首次对齐企业版,开发者可以构建出与企业版性能相当的iLogtail云原生可观测性数据采集器。本次发布新增日志文件采集、容器文件采集、无锁化事件处理、多租户隔离、基于Pipeline的新版配置方式等诸多重要特性,全面增强社区版的易用性和性能,欢迎广大开发者关注、共建。

2371 0
|
存储 自然语言处理 运维
|

各路大神云集探讨eBPF技术在可观测性领域的落地现状和未来可能

本周的Kindling研讨会云集了可观测性领域的各路大神,大家就当前可观测性领域的现状和未来进行了交流和探讨。

444 0
|
存储 编解码 Kubernetes
|

基于AutoTagging技术实践 构建统一的可观测性数据平台

混合云以及容器逐渐成为承载微服务应用的主要基础设施,对于云原生应用的监控保障,也面临诊断难、规模广、弹性大、波动性强等挑战,这些挑战同时也使得云原生应用可观测性成为了运维开发关注的焦点。基于云杉网络在混合云网络场景下的多年实践,给大家分享在构建统一的云原生应用可观测性数据平台中的一些思考和经验。

639 0
|
存储 Prometheus 运维
|

.Net微服务实战之可观测性(一)

.Net微服务实战之可观测性(一)

306 0
|
运维 监控 Cloud Native
|

阿里云Elasticsearch可观测性线上工作坊开课啦,还能免费领取集群!

真实场景,实操短训,限时1元优惠包月领取阿里云Elasticsearch集群~

883 0
|
自然语言处理 Kubernetes 监控
|

如何发现 Kubernetes 中服务和工作负载的异常

本次分享为Kubernetes 监控公开课的第二节内容:如何发现 Kubernetes 中服务和工作负载的异常。 分享由三个部分组成: 一、Kubernetes 异常定位存在痛点; 二、针对这些痛点,Kubernetes 监控如何更快、更准、更全的发现异常; 三、网络性能监控、中间件监控等典型案例解析。

349 0
|
存储 运维 Prometheus
|

演进实录|不同阶段的企业如何搭建监控体系?

企业业务发展越来越迅速,对 IT 的要求也愈发严苛且复杂。这不仅仅体现在运维团队架构与工作流程上,也体现在工具选型与平台搭建上。 今天我们好好聊一下工具选型与平台搭建思路与实践关键点。来看看阿里云会给出如何的最佳实践!

393 0
|
监控 Cloud Native 网络协议
|

IT系统为什么需要可观测性(解读版)

目前,云厂商独立第三方企业均提供可观测性的SaaS服务。国内的第三方提供商,云杉网络也提供名为DeepFlow Cloud的SaaS产品,方便大家体验。SaaS服务的主要问题,是用户的应用大概率需要跑在公有云上,并且观测数据要由第三方管理。此外,SaaS的计费模式相当复杂,有按主机规模计算的部分,也有按数据量计算的部分,总之很难准确规划这方面的预算。因此,对于中小企业SaaS是首选,但对于中大型客户,尤其是采用混合云架构,合规性要求高,项目预算制的大型行业客户来说,很难仅仅依赖SaaS提供可观测性服务。

790 0
|
传感器 数据采集 监控
|

如何评估IT领域中的可观测性技术?

在IT领域中,简单而言,可观测性就是为复杂IT系统寻求白盒监控能力。随着业务系统不断上云,容器、微服务、持续发布等云原生技术被广泛采用,从而为IT系统的可控性带来了全新挑战。为保障云原生应用的稳定性(控制的目的就是稳定),可观测技术被越来越多的企业所采用。 可观测技术的本质,是通过系统的外部数据,分析系统的内部状态,从而做出控制指令。

499 0
|
数据采集 运维 监控
|

SIG技术直播来了!技术专家教你,如何使用 iLogtail 采集可观测数据?

今天下午16:00,与大咖一起学习如何使用 iLogtail 采集可观测数据?

285 0
|
存储 运维 Prometheus
|

万字破解云原生可观测性

现在是一个云原生时代,任何一个玩技术的都或多或少跟云计算、容器、Kubernetes、云原生应用有着不同的渊源密切。

426 0
|
消息中间件 存储 缓存
|

一文带你迅速看懂Kafka可观测优秀实践

一文看懂Kafka

1044 0
|
存储 SQL 数据采集
|

可观测性平台下的低代码技术实践——PyCon2021分享

本文介绍阿里云SLS丁来强(花名成喆)在PyCon2021上海站分享时的议题内容,结尾有录播的视频和PPT下载链接。

767 0
|
人工智能 运维 Cloud Native
|

云原生可观测最佳实践路径解读

本文主要介绍了运行时和上线发布时的云原生可观测相关内容,其实还有很多其他的,比如说日常出现异常情况的监测,也是业内比较典型的例子,还有例如业务指标的异常检测,后续会继续更新。

973 0
|
缓存 运维 监控
|

蚂蚁金服智能监控云原生可观测大盘设计概览

本文将介绍蚂蚁金服监控产品在监控大盘方面的创新设计与尝试。

1766 0
|
Prometheus Kubernetes 监控
|

阿里云服务网格端到端可观测性

阿里云服务网格端到端可观测性

909 0
|
11月前
|
监控 Go 数据处理
|

阿里云可观测 2025 年 3 月产品动态

阿里云可观测 2025 年 3 月产品动态

436 22
|
Prometheus 监控 Cloud Native
|

grafana展示的CPU利用率与实际不符的问题探究

观察到`mpstat`命令显示单核CPU的`%usr`和`%sys`分别持续在70%和20%,而Grafana监控数据显示较低。问题源于Grafana表达式计算的是CPU时间增量而非利用率。`mpstat`通过`/proc/stat`获取数据并计算CPU利用率,而`node-exporter`直接导出原始数据。调整Grafana表达式以匹配`mpstat`的计算方式后,两者结果一致。解决方案是修正Grafana查询以准确反映CPU占用率。

740 1
|
测试技术
|

PTS压测问题之下载接口额外收费如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

363 2
|
Java 测试技术 网络安全
|

PTS报错问题之压测报错如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

822 0
|
测试技术 Serverless iOS开发
|

PTS接口问题之执行请求失败如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

282 1
|
缓存 负载均衡 测试技术
|

pts压测问题之接口超时如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

812 1
|
网络协议 测试技术
|

PTS压测问题之如何确定压测可以停止

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

422 2
|
SQL 监控 测试技术
|

PTS压测问题之token值不一样配置如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

526 1
|
测试技术
|

PTS报错问题之脚本报错如何解决

PTS(Performance Testing Service)是一项面向网站、应用等提供的压力测试服务,用于模拟不同场景下的用户访问,评估系统的性能表现;在进行PTS压测时,可能会出现一些异常或报错,本合集将PTS压测中频繁出现的问题及其解决办法进行汇编,旨在帮助用户更有效地进行性能测试和问题定位。

211 0
|
存储 运维 监控
|

云监控cms与ali promethues 结合 ali grafana 的“百变金刚”灵活观测心得

阿里云的云监控cms与实时应用监控arms众多用户将其理解为竟品,实则不然,两者如以互补的心态使用则会发现另一片天地。 依靠cms与云产品数据强一致性与arms下promethues的超高灵活整合能力,完成想要的观测、告警之运维能力。 本文介绍一下,云监控数据同步在promethues中结合grafana展示,最后达到统一管理大盘集、统一告警平台。 关键词:可预测告警 自定义报警 统一报警 统一观测 前提:开启企业云监控 、开启arms

385 0
|
运维 监控 Cloud Native
|

《阿里云可观测最佳实践》——4.羽如贸易(上)

《阿里云可观测最佳实践》——4.羽如贸易(上)

294 0
我要发布