官方博客-第17页-阿里云开发者社区

  • 2024-11-15
    484

    架构师的真内核

    本文旨在帮助大家深入理解技术、架构和团队领导力的本质,从而获得持续成长的方法。欢迎在文末留言,你觉得架构师需要具备的核心能力是什么?

    484
  • OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

    聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

  • 2024-12-27
    329

    OpenAI全球宕机思考:谈谈可观测采集稳定性建设

    文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。

    329
  • 2025-01-26
    447

    基于 API 网关践行 API First 开发实践

    API First 开发模式的核心在于:以 API 为先,将其视为“头等公民”,在构建应用、服务及集成之前,应优先定义并设计 API 及其配套。API First 作为一种相对较新的开发模式,它已逐渐流行并获得业内的广泛认可。

    447
  • 2025-02-21
    597

    K8S异常诊断之俺的内存呢

    本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。

    597
  • 2025-04-28
    705

    StrmVol 存储卷:解锁 K8s 对象存储海量小文件访问性能新高度

    本文介绍了阿里云容器服务(ACK)支持的StrmVol存储卷方案,旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统(如EROFS)结合,StrmVol显著降低了小文件访问延迟,适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销,以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务,模拟分布式图像数据集加载,测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况,详细使用方法可参考官方文档。

  • 2024-05-15
    726

    解密最受欢迎的开源 Serverless 框架:流量篇

    解密最受欢迎的开源 Serverless 框架:流量篇

    726
  • 2024-05-15
    107448

    容灾切换时间减少 99%,“云边协同”如何提升影演服务效率与稳定性

    容灾切换时间减少 99%,“云边协同”如何提升影演服务效率与稳定性

    107,448
  • 2024-05-15
    109985

    应用监控 eBPF 版:实现 Golang 微服务的无侵入应用监控

    应用监控 eBPF 版:实现 Golang 微服务的无侵入应用监控

    109,985
  • 1
    ...
    16
    17
    18
    ...
    33
    到第
    17/33