云监控 2.0:全栈智能可观测平台
云监控2.0是由阿里云智能集团资深产品专家司徒放分享的全栈智能可观测平台。该平台旨在解决传统监控系统的割裂问题,通过统一接入、存储和观测模型,实现基础设施、应用及用户体验的全面可观测。云监控2.0引入了智能体和大模型技术,支持全局搜索、问题排查和根因定位,大幅提升运维效率。未来将扩展更多智能洞察场景,并开放API供客户定制使用。
Log/Trace/Metric 完成 APIServer 可观测覆盖
12 月 11 日,OpenAI 出现了全球范围的故障,影响了 ChatGPT/API/Sora/Playground/Labs 等服务,持续时间超过四个小时。究其背后原因,主要是新部署的服务产生大量的对 K8s APIServer 的请求,导致 APIServer 负载升高,最终导致 DNS 解析不能工作,影响了数据面业务的功能。面对 APIServer 这类公用基础组件,如何通过 Log/Trace/Metric 完成一套立体的覆盖体系,快速预警、定位根因,降低不可用时间变得非常重要。
云监控最佳实践之-容器所有实例的热力图
### 背景:
从罗辑同学那里收到信息, 他们正在做一个容器服务上所有实例的各种指标的热力图。希望能够整体展示所有容器实例的负载情况。
这个需求不是个例,恰好,云监控的dashboard和容器服务监控两者结合可以满足这个需求场景。
### 具体步骤如下:
#### 使用云账号登录云监控控制台:
https://cms.console.aliyun.com/#/home/e
阿里云CDN-金融政企CDN最佳实践
对云存储和云网络来说,CDN是相对中心化的东西,要给全球不同的网络访问,中间还有一些链路上的问题。阿里云视频云产品架构师南淼在2018云栖大会·上海峰会中做了题为《阿里云CDN-金融政企CDN最佳实践》的分享,就阿里云CDN、金融政企主要产品与解决方案、阿里云CDN+、阿里云CDN服务体系等方面的内容做了深入的分析。
阿里云容器Kubernetes监控(三) - 与云监控的集成与使用
简介
监控是运维Kubernetes中非常重要的一环,在kubernetes的生态内,有非常多可选的方案,场景的方案包括内置的Heapster、CNCF的亲儿子Prometheus、Influxdb的采集方案Telegraf等等,当然传统的监控运维工具例如zabbix也对容器的场景进行了适配。
【新功能发布】云监控主动报警1.0发布
为了避免由于未自主设置云监控报警,造成云产品关键监控指标异常无法及时知晓,导致影响服务正常运转的情况。云监控上线了主动报警功能。
旨在不进行您无需进行任何操作,主要云产品关键指标出现严重问题时,发送报警告知问题。如果您需要更细粒度的报警管理,请在云监控进行相关报警配置。