官方博客-第14页-阿里云开发者社区

  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2024-12-27
    337

    OpenAI全球宕机思考:谈谈可观测采集稳定性建设

    文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。

    337
  • 2025-01-15
    164

    阿里云可观测 2024 年 12 月产品动态

    阿里云可观测 2024 年 12 月产品动态。

  • 2025-01-15
    414

    UU 跑腿云原生化,突围同城配送赛道

    从架构演进、网关优化到可观测体系构建等,UU 跑腿的云原生化,让 80% 的微服务轻松上云,还做到了 1 分钟弹性伸缩,实现了 80% 的运维成本降低。

  • 2025-01-26
    455

    基于 API 网关践行 API First 开发实践

    API First 开发模式的核心在于:以 API 为先,将其视为“头等公民”,在构建应用、服务及集成之前,应优先定义并设计 API 及其配套。API First 作为一种相对较新的开发模式,它已逐渐流行并获得业内的广泛认可。

    455
  • 2025-02-14
    477

    2025 年可观测 10 大趋势预测

    下述报告主要整理自各大网站发布的对 2025 年可观测趋势的预测,作者合并同类项汇总 10 个共性的趋势,欢迎大家一起讨论。

    477
  • 2025-02-21
    605

    K8S异常诊断之俺的内存呢

    本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。

    605
  • 2023-06-29
    851

    基于云原生网关的全链路灰度实践

    基于云原生网关的全链路灰度实践

    851
  • 2023-10-09
    30201

    基于阿里云服务网格流量泳道的全链路流量管理(一)严格模式流量泳道

    灰度发布是一种常见的对新版本应用服务的发布手段,其特点在于能够将流量在服务的稳定版本和灰度版本之间时刻切换,以帮助我们用更加可靠的方式实现服务的升级。

    30,201
  • 1
    ...
    13
    14
    15
    ...
    32
    到第
    14/32