官方博客-第13页-阿里云开发者社区

崔力强

2024-12-10

618

更快、更灵活、场景更丰富，云效镜像构建能力升级啦

本文介绍了云效在镜像构建方面的改进。

崔力强

618

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

639

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

639

有松

2025-01-16

331

AI 场景下，函数计算 GPU 实例模型存储最佳实践

当前，函数计算 FC 已被广泛应用在各种 AI 场景下，函数计算支持通过使用容器镜像部署 AI 推理应用，并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用，并快速解决不同场景下的模型存储选型问题，本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析，以期为您的模型存储决策提供帮助。

有松

331

牧原

2025-02-21

614

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

614

达领

2023-04-23

25790

慢SQL是如何拖垮数据库的

本文结合一个实际故障案例出发，分析慢SQL是如何打垮数据库并引发故障的。

达领

25,790

石樵

2023-12-01

3032

分布式锁实现原理与最佳实践

在单体的应用开发场景中涉及并发同步时，大家往往采用Synchronized（同步）或同一个JVM内Lock机制来解决多线程间的同步问题。而在分布式集群工作的开发场景中，就需要一种更加高级的锁机制来处理跨机器的进程之间的数据同步问题，这种跨机器的锁就是分布式锁。接下来本文将为大家分享分布式锁的最佳实践。

石樵

3,032

桦雄

2024-05-15

48501

走进RDS之MySQL内存分配与管理（下）

本篇为下篇，主要对MySQL内存限制特性进行解读，代码基于8.0.28。本文将围绕该项工作的改动、设计实现等方面展开介绍。

桦雄

48,501

子丑雅纯

2024-05-15

123431

提升团队工程交付能力，从“看见”工程活动和研发模式开始

本文从统一工程交付的概念模型开始，介绍了如何将应用交付的模式显式地定义出来，并通过工具平台落地。

子丑雅纯

123,431

在峰

2024-06-24

56463

解锁分布式云多集群统一监控的云上最佳实践

为应对分布式云多集群监控的挑战，阿里云可观测监控 Prometheus 版结合 ACK One，凭借高效纳管与全局监控方案有效破解了用户在该场景的监控运维痛点，为日益增长的业务需求提供了一站式、高效、统一的监控解决方案，实现成本与运维效率的双重优化。助力企业的数字化转型与业务快速增长，在复杂多变的云原生时代中航行，提供了一个强有力的罗盘与风帆。

在峰

56,463

官方博客-第13页-阿里云开发者社区

类目筛选

内容类型

更快、更灵活、场景更丰富，云效镜像构建能力升级啦

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

AI 场景下，函数计算 GPU 实例模型存储最佳实践

K8S异常诊断之俺的内存呢

慢SQL是如何拖垮数据库的

分布式锁实现原理与最佳实践

走进RDS之MySQL内存分配与管理（下）

提升团队工程交付能力，从“看见”工程活动和研发模式开始

解锁分布式云多集群统一监控的云上最佳实践

官方博客-第13页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

更快、更灵活、场景更丰富，云效镜像构建能力升级啦

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

AI 场景下，函数计算 GPU 实例模型存储最佳实践

K8S异常诊断之俺的内存呢

慢SQL是如何拖垮数据库的

分布式锁实现原理与最佳实践

走进RDS之MySQL内存分配与管理（下）

提升团队工程交付能力，从“看见”工程活动和研发模式开始

解锁分布式云多集群统一监控的云上最佳实践