官方博客-第24页-阿里云开发者社区

  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2025-02-21
    597

    K8S异常诊断之俺的内存呢

    本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。

    597
  • 2025-05-20
    352

    从 o11y 2.0 说起,大数据 Pipeline 的「多快好省」之道

    SLS 是阿里云可观测家族的核心产品之一,提供全托管的可观测数据服务。本文以 o11y 2.0 为引子,整理了可观测数据 Pipeline 的演进和一些思考。

  • 乐元素 X Hologres,一站式高性能游戏运营分析平台

    乐元素 X Hologres,一站式高性能游戏运营分析平台。

  • 2023-03-09
    11740

    数据湖存储的安全写入之道

    本文以 Hadoop 社区中的 S3A Connector 的实现为切入,分析了数据湖写入路径的安全性。

    11,740
  • 2023-04-14
    583

    如何在 Anolis 8 上构建基于 Nydus 和 Dragonfly 的镜像加速解决方案

    Nydus+Dragonfly 组合减少容器启动过程中镜像的拉取时间,提升集群间的镜像分发效率。

    583
  • 2023-04-20
    18322

    PolarDB-X 致数据库行内人 (一) ~ 如何有效评测国产数据库的分布式事务

    本文是系列文章的第一篇,介绍第一个重要话题:“数据库的分布式事务”,这也是目前普通用户面对分布式数据库产品介绍问的最多的一个内容,如何有效评测分布式事务也是一个非常重要的能力。致敬同行,我们将PolarDB-X事务架构设计上的一些思考和测试方式,做了整理和梳理,期望能对大家更好的理解分布式事务的测试有所帮助。

  • 2023-04-23
    25772

    慢SQL是如何拖垮数据库的

    本文结合一个实际故障案例出发,分析慢SQL是如何打垮数据库并引发故障的。

    25,772
  • 2023-08-09
    51650

    PolarDB-X 针对跑批场景的思考和实践

    金融行业和运营商系统,业务除了在线联机查询外,同时有离线跑批处理,跑批场景比较注重吞吐量,同时基于数据库场景有一定的使用惯性,比如直连MySQL分库分表的存储节点做本地化跑批、以及基于Oracle/DB2等数据库做ETL的数据清洗跑批等。

  • 1
    ...
    23
    24
    25
    ...
    48
    到第