官方博客-第11页-阿里云开发者社区

  • 2024-08-26
    478

    十六年所思所感,聊聊这些年我所经历的 DevOps 系统

    从 2008 年开始,我陆陆续续参与了多个 DevOps 系统的建设,如今,审视这些系统的建设初衷和它们的设计思路或遇到的问题,依然有不少借鉴意义。我会按照时间顺序,把每个 DevOps 系统的特点,诞生的背景,以及在当时所主要解决的问题做一个概要的介绍,同时,我们也会以今天的视角再次审视这些问题,来看下同样的问题,经过十几年的发展,解决方案上有哪些不同。

    478
  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2025-01-20
    609

    ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明

    针对本地存储和 PVC 这两种容器存储使用方式,我们对 ACK 的容器存储监控功能进行了全新升级。此次更新完善了对集群中不同存储类型的监控能力,不仅对之前已有的监控大盘进行了优化,还针对不同的云存储类型,上线了全新的监控大盘,确保用户能够更好地理解和管理容器业务应用的存储资源。

    609
  • 2025-02-21
    595

    K8S异常诊断之俺的内存呢

    本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。

    595
  • 2024-05-15
    136128

    云原生场景下,AIGC 模型服务的工程挑战和应对

    本文介绍了在云原生场景下,AIGC 模型服务的工程挑战和Fluid 在云原生 AIGC 模型推理场景的优化。

  • 2024-05-15
    1424

    Koordinator v1.4 正式发布,为用户带来更多的计算负载类型和更灵活的资源管理机制

    Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制

    1,424
  • 2024-05-15
    162730

    充分发挥 SQL 能力

    MaxCompute(ODPS)SQL 发展到今天已经颇为成熟,作为一种 SQL 方言,可以高效地应用在各种数据处理场景。本文尝试独辟蹊径,强调通过灵活的、发散性的数据处理思维,就可以用最基础的语法,解决复杂的数据场景。

    162,730
  • 2024-05-15
    415

    利用ACK注册集群为云下K8s注入弹性能力

    随着容器技术的普及,有越来越多的用户开始在私有环境中搭建K8s来使用,这时候就很容易遇到一个问题,私有环境资源交付周期太长,不能完全释放K8s动态扩容的能力,本文就是介绍如何利用ACK注册集群解决这个问题,让云下的K8s集群也可以享受云上一样的资源快速交付能力。

    415
  • 1
    ...
    10
    11
    12
    ...
    24
    到第
    11/24