阿里云容器服务新建集群优化方案
这里记录了在工作中遇到阿里云容器服务的调优优化方案,帮助您绕过阿里云容器服务中的一些坑,来使用更好更优质的阿里云容器服务。
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
阿里云上弹性伸缩kubernetes集群 - autoscaler
阿里云Kubernetes服务简化了K8S集群的创建、升级和手动扩缩容。然而使用Kubernetes集群经常问到的一个问题是,我应该保持多大的节点规模来满足应用需求呢? Autoscaler的出现解决了这个问题,它可以自动的根据部署的应用所请求的资源量来动态的伸缩集群。
《Cloud Native 》云原生技术汇总
An awesome & curated list of best applications and tools for Cloud Native.
This Awesome Repository is highly inspired from cncf's landscape & Awesome.
GitOps 初探
GitOps 的概念最初来源于 Weaveworks 的联合创始人 Alexis 在 2017 年 8 月发表的一篇博客 GitOps - Operations by Pull Request。文章介绍了 Weaveworks 的工程师如何以 Git 作为事实的唯一真实来源,部署、管理和监控基于 Kubernetes 的 SaaS 应用。