开发者社区> 云原生> 云原生可观测

云原生可观测

关注

云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。

0
今日
2176
内容
4
活动
305
关注

云产品可观测平台Alibaba Cloud Lens发布

随着云原生时代的到来企业基础设施规模的扩大,云上资源愈发复杂,架构更加多样,如果缺乏有效的云管理能力,将不可避免造成巨大的资源浪费和成本支出。Flexera 调研表明,79% 的企业在如何使用云产品上,普遍缺乏经验的挑战。本次发布的Alibaba Cloud Lens 作为云产品可观测平台,可以从成本、性能、安全、数据保护、稳定性、访问分析六个纬度,提供对存储类、网络类、数据库类等云产品的精细化运维管理能力。让企业在保障业务敏捷性的前提下,低门槛实现对云产品的可观测,优化用云成本。讲师/嘉宾简介孟威,阿里云智能产品专家其冀,阿里云智能产品专家七贤,阿里云智能产品专家孙玉梅,阿里云智能高级研发工程师

23807 2
8月前
|

Spring AI Alibaba 可观测原理与实践

作为当前炙手可热的 Java AI Agent 开发框架,Spring AI Alibaba 在提示词托管、上下文工程及预置 Agent 实现等领域展现出显著优势。在 Agent 从概念验证迈向生产落地的过程中,可观测性正成为开发者所关注的焦点。本次分享将深入解析 Spring AI Alibaba 框架原生的可观测性实现机制,并演示如何通过 LoongSuite Java Agent 无缝集成,快速构建和使用覆盖 Agent 全链路的可观测性。 **讲师:**张铭辉|阿里云研发工程师

981 3

可观测技术沙龙《阿里云ACK容器服务生产级可观测体系建设实践》

可观测技术沙龙(行业实践)主题:《阿里云ACK容器服务生产级可观测体系建设实践》演讲人:冯诗淳(行疾) 阿里云-云原生ACK容器服务 团队

831 0
2月前
|

应用性能监控(APM)——分布式系统的精准透视

全面解读基于OpenTelemetry实现代码级追踪、服务拓扑与异常捕获,快速定位微服务/Serverless架构下的性能瓶颈与故障根因。 讲师/嘉宾简介 汪宁|阿里云智能产品专家

262 0
5月前
|

Operation Intelligence:可观测与智能运维(AIOps)

在云原生与 AI 原生架构加速演进的今天,系统复杂性已突破传统运维的认知边界。单纯依赖日志、指标与告警的被动观测模式难以支撑实时决策与快速响应 —— 可观测性正在进化为智能决策与系统自治的核心引擎。本论坛汇聚学术先锋、技术领袖与一线实践者,深入探讨从“被动响应”到“主动认知”、从“看得见”到“看得懂、判得准、控得住”的智能跃迁之路,真正释放 Operation Intelligence 的业务与运维价值。 讲师/嘉宾简介 释放 AI 研发效能,AI 原生驱动企业架构新范式演进——周琦,阿里云智能集团云原生应用平台负责人 《AI 原生应用架构白皮书》重磅发布——周琦,阿里云智能集团云原生应用平台负责人、穆飞,阿里云智能集团资深总监,阿里云研究院负责人、郑立,稳定性保障实验室负责人、魏峻,中国科学院软件研究所研究员,博士生导师,软件工程学科方向带头人,学术学位委员会委员、倪超,浙江大学软件学院副教授 《AI 原生应用架构白皮书》 解读:加速 AI 应用发生——李艳林,阿里云智能集团资深技术专家 云原生进化论:加速 AI 应用构建最佳范式——李国强,阿里云智能集团资深产品专家 生成式 AI 在实体店现场经营中的机会与实践——赵振宇,盒马资深技术专家 满帮 AI 基建建设现状与架构选型思考——杨兴华,满帮集团产研中心研发总经理 对话:AI 原生将如何重塑应用研发范式——杨兴华,满帮集团产研中心研发总经理、郑立,中国信通院云大所云计算部副主任、才振功,浙江大学软件学院副教授、李国强,阿里云智能集团资深产品专家

655 1
2月前
|

云产品监控——多云环境下的统一资源视图

聚焦主流云厂商IaaS/PaaS服务的监控整合,通过标准化采集与统一视图,实现跨账号、跨区域的云资源的健康度、性能与成本一体化管理,有效消除多云环境下的监控盲区。 讲师/嘉宾简介 少焉|阿里云智能产品专家

140 0
8月前
|

零代码改造!LoongSuite AI 采集套件观测实战

在 AI 时代,随着模型和应用侧的快速演化,对于推理过程,成本和性能显得尤为重要,而端到端的 AI 可观测是其中至关重要的一环。本文将介绍端到端 AI 可观测的基本概念与痛点,并通过阿里云可观测团队最新开源的 AI 采集套件 LoongSuite Agent 来对大模型应用进行全链路可观测以解决这些痛点。帮助客户无侵入,低成本地进行全链路的大模型可观测。 讲师:刘子明|阿里云研发工程师

520 0
2月前
|

CMS2.0 全景综述:可观测范式升级与智能运维蓝图

剖析云监控2.0的核心理念:从被动告警走向主动洞察。聚焦“统一数据底座 + 场景化分析 + AI驱动闭环”,建立覆盖基础设施、应用、AI、用户与网络的全栈可观测思维。 讲师/嘉宾简介 夏明|阿里云智能高级技术专家

353 0
4月前
|

从定位到关联:构建 UModel 数据发现与链路分析的全链路能力

聚焦 UModel 核心查询能力,系统讲解通过元数据查询与实体检索快速定位字段来源、模型定义与业务上下文;借助图查询能力可视化展现模型间依赖关系,揭示调用链路与影响范围。两大能力层层递进,全面提升建模系统的可追溯性与治理效率。 讲师/嘉宾简介 任建(路遥)|高级工程师、隰宗正(霜键)|高级工程师

242 0

2025 AI 原生编程挑战赛·赛题解析

2025 AI 原生编程挑战赛·赛题解析

612 0

可视化能力升级!Grafana 10 能力详解

Grafana 10 新版本已正式发布,不仅仅是引入了新的功能,还带来了更好的分析洞察能力、更高的协同效率及更美观的仪表盘。那么,就由阿里云工程师带我们深度了解 Grafana 10的全新功能与升级。讲师/嘉宾简介苏墨馨|云原生可观测工程师

11534 4
|
监控 Cloud Native 架构师
|

应用实时监控服务ARMS-持续性能分析实践解析

讲师:杨龙 (阿里云程序语言与编译器部JVM工具开发专家)介绍:应用性能剖析是一种分析程序的时间和资源占用的方法。更好的应用性能,可以提供更好的用户体验,可以降低企业IT成本,可以让系统更稳定和可靠。本期内容将介绍如何利用ARMS Continuous Profiler去定位和修复应用性能问题。

39018 2

Grafana服务: 9.x版本上线及新功能介绍

阿里云Grafana服务是阿里云云原生团队和Grafana Labs合作推出的云原生可观测统一解决方案。近期全新上线9.x版本,Grafana服务 9.x版本新增哪些功能特性?这些新功能特性需要如何使用呢?本期议题将为您揭晓答案。讲师/嘉宾简介姜维|阿里云技术专家

1178 0

微服务应用可观测性增强方案探索与实践

彼得·德鲁克:“如果你无法量化它,你就无法管理它。”如果说监控告诉我们系统出问题了,那么可观测就告诉我们系统哪里出问题以及导致原因。当我们从微服务视角开始思考应用可观测性时,基于传统方案之上还能再增强哪些事情?本次分享将会提供一种新的微服务可观测思路,让我们轻松透视Dubbo应用内部问题。讲师/嘉宾简介十眠

2797 3

云拨测全面升级|让网站测速、CDN优化更简单、更便宜

云拨测 2.0 全新上线,为您带来: (1)更丰富的监测点种类与覆盖范围 提供云主机、PC端、移动端监测点,覆盖国内外主流运营商。 (2)更多样的任务类型 支持网络质量、网页性能、文件传输(CDN)等任务类型。 (3)更便宜的使用成本 云主机监测最低仅需 0.001 元/次,全面压降拨测成本。 讲师/嘉宾简介 徐葛

667 1

可观测技术沙龙《微服务异常诊断与根因分析算法实践》

可观测技术沙龙(行业实践) 主题:《微服务异常诊断与根因分析算法实践》演讲人:刘贵阳 阿里云智能高级研发工程师

813 0

可观测技术沙龙《基于eBPF的Kubernetes可观测实践》

可观测技术沙龙(开源探索)主题:《基于eBPF的Kubernetes可观测实践》演讲人:刘洋阿里云智能专家

1081 2
4月前
|

模型 · 实体 · 指标:UModel 多维度探索机制设计与实践

系统讲解 UModel 三大核心浏览组件的定位与实战应用:通过 UModel Explorer 实现模型结构的全局可视化,掌握整体依赖与变更脉络;借助 Entity Explorer 深入业务实体定义,理解字段语义与上下文关系;利用 MetricSet Explorer 快速定位关键业务指标,支撑高效监控与分析。三者协同,构建全链路数据认知体系。 讲师/嘉宾简介 隰宗正(霜键) |高级工程师、 王涛(灵亦)|技术专家

221 0

使用应用监控 eBPF 版实现无侵入的应用可观测

直播讲师:张海彬直播简介:eBPF 技术是一种在 Linux 内核中运行沙盒程序,具有无侵入、语言无关、全栈监控等能力,无需修改任何代码,即可实现应用的可观测能力,本次主要讲解 ARMS 通过 eBPF 技术实现无侵入的应用可观测。

859 1

应用实时监控服务ARMS-持续性能分析实践解析

应用性能剖析是一种分析程序的时间和资源占用的方法。更好的应用性能,可以提供更好的用户体验,可以降低企业IT成本,可以让系统更稳定和可靠。本期内容将介绍如何利用ARMS Continuous Profiler去定位和修复应用性能问题。 讲师/嘉宾简介 杨龙 (阿里云程序语言与编译器部JVM工具开发专家)

730 0

Smart Metrics ——“智能,易用,效果可见”的Grafana智能告警插件

直播简介:Smart Metrics 是阿里云云原生团队Grafana平台上推出的一款智能告警插件,旨在为用户解决“告警配置难,误告警泛滥“的问题。那么Smart Metrics具体有哪些功能,又该如何使用呢?本期课程将为您揭晓答案。点击此处,前往官网了解更多Grafana相关信息!钉钉搜索群号:34785590,立刻加入阿里云Grafana服务群参与讨论~讲师/嘉宾简介陈昆仪,阿里云算法工程师

1379 0

可观测技术沙龙《阿里云云原生可观测套件焕新升级》

可观测技术沙龙(主会程)主题:《阿里云云原生可观测套件焕新升级》演讲人:曹剑阿里云高级产品专家

894 55

可观测技术沙龙《眼见为实,众观全局》

可观测技术沙龙(主会程)主题:《眼见为实,众观全局》演讲人:丁宇阿里巴巴研究员

731 1

ARMS实践|日志在可观测场景下的应用-LiveTail

ARMS实践|日志在可观测场景下的应用-LiveTail

635 3
|
运维 监控 应用服务中间件
|

使用Kubernetes监控发现资源使用,流量分布不均匀的问题

为了支持日益增长的用户请求流量,大规模系统架构追求服务实例无状态可水平扩展的特性。这就要求流量均匀分配到各服务实例,容器和节点的资源使用也尽可能平均,否则热点问题将严重拖累系统性能,导致严重故障。因此,如何从流量及资源两个维度的监控数据,快速发现热点问题,提前消除隐患,成为kubernetes监控的重点。

636 0
|
运维 监控 应用服务中间件
|

如何进行CDN以及下载优化分析

1、CDN对于网站体验的影响2、如何进行CDN评估与优化3、对于官网下载,我们该关注哪些要素

568 0
|
运维 监控 应用服务中间件
|

业务全链路追踪最佳实践

全链路追踪“接入难”、“诊断难”、“运维难”、“成本高”的四大问题该如何解决?中大型企业如何从0到1构建生产级全链路追踪体系?全链路追踪如何赋能业务,最大化的释放链路价值? 本次直播带你一起揭秘全链路追踪背后的世界!

572 0

云原生可观测技术公开课:ARMS智能告警最佳实践

年轻有为的运维工程师 小A 刚接手公司最核心业务系统的稳定性保障工作,他遇到了三大难题“不知道该关注哪些指标”、“不知道该设置什么阈值”以及“不知道怎么给起伏不定的指标配置告警规则”。本期直播我们将围绕小 A 遇到的这三个问题,跟大家介绍ARMS新上的智能告警功能,帮小A轻松运维公司核心系统。讲师/嘉宾简介陈昆仪(图杨)

946 0

阿里云云原生全栈可观测实践—故障洞察提效 50%

直播介绍:(建议600字以内) 1、阿里可观测技术是如何从淘宝电商时代的APM发展演进到当下全栈观测的? 2、如何做好无侵入的数据采集技术? 3、如何通过智能告警来提醒告警配置效率? 4、观测数据存储&计算成本控制的有效策略有哪些? 5、全栈可观测实践案例分享。 讲师/嘉宾简介 曾国庆(悦达)|阿里云智能·技术专家,KubeVela 社区 Maintainer

1032 3

使用 Kubectl 部署 web 服务到 K8s 集群

本场景将提供一台 ECS 实例(云服务器)和 Kubernetes(简称 k8s) 集群,其中 k8s 集群由容器服务 Kubernetes 版 ACK 提供。通过本教程的操作,带您体验如何使用 k8s 的原生命令 kubectl 部署一个 web 应用(魔方应用)的镜像到 k8s 集群中,并通过 Ingress 将部署的服务暴露出来由外部访问。课程收获:-kubectl 命令的基本用法-使用 yaml 定义 k8s 资源的方法-ingress 的基本配置方法讲师/嘉宾简介李宇曈(遐宇)阿里云开发工程师,负责 ACK 上 Ingress 网关产品的研发和维护。

527 0

可观测技术沙龙《Open,composable observability with Grafana and Prometheus》

可观测技术沙龙(开源探索) 主题:《Open,composable observability with Grafana and Prometheus》演讲人:Marcus OlssonGrafana Labs 布道师

787 0

可观测技术沙龙《万节点规模云服务的SRE能力建设》

飞天club可观测技术峰会(行业实践)主题:《万节点规模云服务的SRE能力建设》演讲人:宋傲

579 48
|
运维 监控 应用服务中间件
|

如何使用Kubernetes监控定位慢调用?

1、常见慢调用根因有哪些?2、如何快速定位资源使用、下游依赖、网络性能导致的慢调用?

516 0
|
运维 监控 应用服务中间件
|

探索应用架构,发现预期外的网络流量

1、什么是K8s监控2、我们为何需要K8s监控?3、如何探索应用架构,发现预期外的流量

501 0
3月前
|

云监控2.0重磅升级!ECS系统问题深度诊断实战揭秘 —— 阿里云SysOM系统诊断能力全解析

在云原生与大规模分布式系统时代,ECS操作系统层的问题往往“看不见、摸不着、难定位”——内存莫名被吃光?IO延迟飙升却找不到源头?Redis超时竟源于cgroup泄漏?传统监控工具束手无策! 本次直播,我们将首次深度解读 阿里云云监控2.0 ECS洞察中的SysOM系统诊断能力,基于阿里多年双11实战经验打造的一体化OS运维平台,真正实现从“被动救火”到“主动洞察”的转变! 讲师/嘉宾简介 诗雁|阿里云操作系统团队技术专家

447 0
4月前
|

构建运维世界模型之路:UModel 数据建模全景解读

从零构建对 UModel 的系统认知,全面解析其在数据体系中的定位、组成与关键能力。 讲师/嘉宾简介 张城(元乙)|高级技术专家

289 1

飞天发布时刻|ARMS,日志服务SLS产品能力升级

在数字化转型的浪潮中,云计算的深化应用不断推动着技术边界的扩展,而可观测性作为确保系统稳定运行与高效迭代的关键支撑,正逐渐成为现代云原生架构不可或缺的一部分。5月22日10:00,阿里云飞天发布时刻,阿里云应用实时监控服务 ARMS 将宣布全面升级。这次发布不仅标志着阿里云技术实力的演进,更是对企业需求深刻洞察后的创新实践。本次发布会现场,阿里云云原生应用平台资深产品专家李国强将携手阿里云应用实时监控服务 ARMS 研发负责人周洋,共同解读此次应用实时监控服务 ARMS 的全面升级与技术创新,如何满足当下企业多元化场景下的可观测需求。讲师/嘉宾简介李国强|阿里云云原生应用平台资深产品专家周洋|阿里云应用实时监控服务 ARMS 研发负责人

627 57

RocketMQ直播课:5.0新版本可观测能力详解

● 可观测能力升级:Tracing链路追踪介绍RocketMQ的可观测能力,主要涉及Tracing的背景、设计和最佳实践。● 可观测能力升级:Metrics 指标分析介绍RocketMQ的可观测能力,主要涉及Metrics实现、指标定义、上报方式和最佳实践等。讲师文婷阿里云消息队列产品专家张森泽(玄珏)阿里云消息技术专家

514 0

基于 MSE 实现微服务的全链路灰度

本次实验提供了一个托管 MSE Ingress 网关集群和一个托管版 Kubernetes集群(用于 Demo 服务的部署)。 通过本场景的实验操作,您将掌握基于 MSE 微服务治理的,支持 MSE Ingres 网关、Spring Cloud、Dubbo 组件的微服务全链路灰度方案。 讲师/嘉宾简介 卜比(阿里云高级开发工程师)

490 0
|
运维 监控 前端开发
|

《十万个可观测冷知识》—如何识别单个用户在应用程序中的性能体验

随着网站、小程序成为生活必需品,用户体验成为重要话题。那么,如何识别单个用户在应用程序中的性能体验

922 0

可观测技术沙龙《体验为先,DEM驱动可持续发展》

可观测技术系列沙龙(主会程) 主题:《体验为先,DEM驱动可持续发展》演讲人:吴静涛博睿数据首席运营官

577 0

可观测技术沙龙《基于Elasticsearch的指标可观测实践》

可观测技术沙龙(开源探索)主题:《基于Elasticsearch的指标可观测实践》演讲人:魏子珺

526 0
|
运维 监控 应用服务中间件
|

使用Kubernetes监控定位Pod状态异常根因

Kubernetes Pod作为Kubernetes核心资源对象,不仅Service,Controller Workload都是围绕它展开工作,作为最小调度单元的它还担任着传统IT环境主机的职责,因此具有复杂的生命周期和依赖。因如此,绝大多数Kubernetes问题最终都会在Pod上表现出来,本节课将带来Pod常见异常场景解析以及定位根因最佳实践。

606 0
|
运维 监控 应用服务中间件
|

网站劫持分析最佳实践分享

从常见网站劫持的场景出发,分享劫持发现、定位以及解决的最佳实践。

507 0

观测云实践学堂04期《Top 10! 观测云年度最佳可观测性产品功能》

1.场景笔记(更好地记录与分享,助您高效排障) 2.场景自定义查看器(敏捷搭建,快速定位问题所在) 3.时序图相似性指标查询(高效对比排查性能故障) 4.SLO监控(全面衡量系统稳定性,提高使用体验) 5.未恢复事件查看器(实时查看分析监控告警记录) 6.主机网络分析(实时了解业务系统网络运行状态) 7.日志黑名单过滤(优化存储数据信息,节约成本) 8.构建内网服务可用性监测(支持自建拨测节点,保障服务可用性) 9.安全巡检(保证主机所有行为安全可控) 10.DCA桌面客户端(便捷管理您已安装的采集器) 讲师/嘉宾简介 储文姬 观测云产品运营

585 0

观测云实践学堂03期《温故而知新- Kubernetes可观测实践》

观测云实践学堂03期《温故而知新- Kubernetes可观测实践》

631 0
4月前
|

从集成到稳定:UModel API 集成与运维自愈机制详解

深入解析 UModel 的 PaaS API 设计理念与集成实践路径;同时系统梳理高频使用问题与典型报错场景,提升用户独立运维与快速恢复能力。从“如何接”到“出了问题怎么查”,帮助开发者和运维团队构建更可靠、可持续的 UModel 应用体系。 讲师/嘉宾简介 张鑫(千乘)|技术专家

122 0

微服务应用灰度发布最佳实践

灰度发布的典型场景在DevOps研发流程中集成灰度发布典型场景的落地示例讲师/嘉宾简介张裕,云效产品架构师。BizDevOps白皮书核心作者、云效研发效能三板斧核心讲师。曾任企业DevOps工具团队负责人,写得了代码、出得了方案、写得了文章,从业近二十年,对软件工程有自己深入的理解。

770 0

掌握ARMS持续剖析-轻松洞察应用性能瓶颈

1.介绍可观测领域近年来新出现的强有力根因定位技术持续剖析。2.介绍ARMS所提供的开箱即用持续剖析功能,如何轻松帮助定位应用CPU、内存、慢调用链相关代码级问题根因。讲师/嘉宾简介饶子昊

839 57

打造最佳生产告警体系,Grafana & ARMS告警实践

运维工程师时常遇到以下问题:(1)数据源、告警配置分散在不同系统,告警发生时没有统一告警渠道及信息,造成误导?(2)线上业务出现问题时,各种全员告警,却无人接手?基于Grafana与ARMS告警的多通知方式与算法降噪,我们更轻松的处理错报、误报等常见告警,降低项目风险。讲师/嘉宾简介姜维(阿里云技术专家)

10980 3
我要发布