众览全局,企业级云监控助力构建统一云产品可观测
企业上云已成为共识,但在合理使用和管理云资源方面仍面临诸多挑战。富莱瑞调研显示79%的企业缺乏经验。阿里云2023年推出云监控2.0,通过统一接入、关联分析、数据探索等六大升级,帮助企业应对数据孤岛、关联分析困难、灵活性不足等问题。云监控2.0还引入了CloudLens和AI大模型技术,提供更深入的云产品可观测能力,提升运维效率。实际案例表明,通过建设统一可观测平台,企业的故障排查时间和运营成本显著降低。
Log/Trace/Metric 完成 APIServer 可观测覆盖
12 月 11 日,OpenAI 出现了全球范围的故障,影响了 ChatGPT/API/Sora/Playground/Labs 等服务,持续时间超过四个小时。究其背后原因,主要是新部署的服务产生大量的对 K8s APIServer 的请求,导致 APIServer 负载升高,最终导致 DNS 解析不能工作,影响了数据面业务的功能。面对 APIServer 这类公用基础组件,如何通过 Log/Trace/Metric 完成一套立体的覆盖体系,快速预警、定位根因,降低不可用时间变得非常重要。
上海云栖:金融政企行业的CDN最佳实践
在刚刚结束的上海云栖大会飞天技术汇分论坛上,阿里云视频云产品架构师罗小飞进行了《阿里云CDN——面向金融政企的CDN最佳实践》主题分享,为上海的嘉宾介绍CDN的解决方案与技术服务体系。
使用 Grafana 展示阿里云监控指标
本文介绍使用 Grafana 展示阿里云监控指标的方法,并提供了使用 helm chart 一键部署包含阿里云监控 dashboard 的 Grafana-Server。
物联网平台设备运维监控报警介绍
物联网平台提供了面向运维场景的监控报警功能,帮助客户了解业务的运行情况,进行相关的运维操作。本文重点介绍相关的监控可视化及规则报警通知功能。