官方博客-阿里云开发者社区

阿里云基础设施.

2025-05-01

476

ACK AI Profiling：从黑箱到透明的问题剖析

本文从一个通用的客户问题出发，描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查，最后到问题定位与解决、业务执行过程的分析，从而展现一个从黑箱到透明的精细化的剖析过程。

阿里云基础设施.

476

阿里云云原生

2025-04-28

810

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

本文介绍了阿里云容器服务（ACK）支持的StrmVol存储卷方案，旨在解决Kubernetes环境中海量小文件访问性能瓶颈问题。通过虚拟块设备与内核态文件系统（如EROFS）结合，StrmVol显著降低了小文件访问延迟，适用于AI训练集加载、时序日志分析等场景。其核心优化包括内存预取加速、减少I/O等待、内核态直接读取避免用户态切换开销，以及轻量索引快速初始化。示例中展示了基于Argo Workflows的工作流任务，模拟分布式图像数据集加载，测试结果显示平均处理时间为21秒。StrmVol适合只读场景且OSS端数据无需频繁更新的情况，详细使用方法可参考官方文档。

阿里云云原生

810

尹斌斌周絮

2025-03-21

812

解决隐式内存占用难题

本文详细介绍了在云原生和容器化部署环境中，内存管理和性能优化所面临的挑战及相应的解决方案。

尹斌斌周絮

812

尹丰彬

2025-02-21

873

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

本文介绍了从Istio+k8s环境迁移到阿里云ASM+ACK环境的渐进式方法，通过配置虚拟服务和入口服务实现新老集群间的服务调用与流量转发，确保业务连续性与平滑迁移

尹丰彬

873

牧原

2025-02-21

662

K8S异常诊断之俺的内存呢

本文讲述作者如何解决客户集群中出现的OOM（Out of Memory）和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征，还深入探讨了排查过程中的关键步骤和技术细节。

牧原

662

霜序

2025-01-20

648

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

针对本地存储和 PVC 这两种容器存储使用方式，我们对 ACK 的容器存储监控功能进行了全新升级。此次更新完善了对集群中不同存储类型的监控能力，不仅对之前已有的监控大盘进行了优化，还针对不同的云存储类型，上线了全新的监控大盘，确保用户能够更好地理解和管理容器业务应用的存储资源。

霜序

648

正己

2025-01-06

426

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

Kubernetes 体系基于 DNS 的服务发现为开发者提供了很大的便利，但其高度复杂的架构往往带来更高的稳定性风险。以 Nacos 为代表的独立服务发现系统架构简单，在 Kubernetes 中选择独立服务发现系统可以帮助增强业务可靠性、可伸缩性、性能及可维护性，对于规模大、增长快、稳定性要求高的业务来说是一个较理想的服务发现方案。希望大家都能找到适合自己业务的服务发现系统。

正己

426

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

2024-12-25

725

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

聚焦近日OpenAI的大规模K8s集群故障，介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案：包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。

刘佳旭冯诗淳竺夏栋麻嘉豪隋吉智等

725

元昌

2024-11-21

645

构建理想容器镜像——以CSI为例

本文围绕阿里云CSI（Container Storage Interface）镜像构建的实际案例，探讨了一系列优化容器镜像的最佳实践。

元昌

645

官方博客-阿里云开发者社区

类目筛选

内容类型

ACK AI Profiling：从黑箱到透明的问题剖析

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

解决隐式内存占用难题

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

K8S异常诊断之俺的内存呢

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

构建理想容器镜像——以CSI为例

官方博客-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

ACK AI Profiling：从黑箱到透明的问题剖析

StrmVol 存储卷：解锁 K8s 对象存储海量小文件访问性能新高度

解决隐式内存占用难题

基于虚拟服务配置的渐进式迁移实践：Istio集群至ASM集群的平滑切换

K8S异常诊断之俺的内存呢

ACK 容器监控存储全面更新：让您的应用运行更稳定、更透明

OpenAI 宕机思考丨Kubernetes 复杂度带来的服务发现系统的风险和应对措施

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

构建理想容器镜像——以CSI为例