OpenKruise 在 2024.3 发布了最新的 v1.6 版本(ChangeLog),本文对新版本的核心特性做整体介绍。
本文介绍如何使用TFJob在ASK+ECI场景下,快速完成基于GPU的TensorFlow分布式训练任务。
Kube Queue:Kubernetes 任务排队的利器
秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?
Koordinator v1.4 正式发布!为用户带来更多的计算负载类型和更灵活的资源管理机制
期待已久!阿里云容器服务 ACK AI 助手正式上线
容灾切换时间减少 99%,“云边协同”如何提升影演服务效率与稳定性
本文主要介绍了解析云原生 AI 所遇到的技术挑战和应对方案,随后介绍云原生 AI 领域的关键技术与架构细节,最后分享我们在 ACK 的相关经验及工程实践。
从内核的视角观测容器——SysOM 容器监控