基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。
时序数据库技术和架构演进
在阿里云栖开发者沙龙时序数据库技术专场上,阿里巴巴数据库产品事业部技术专家渐醨为大家介绍了时间序列数据库的前世今生,为大家解读了时序数据库的由来、发展、现状、未来,并重点比较了目前时序数据库的热门产品和项目。
VPGAME 的 Kubernetes 迁移实践
作者 | 伍冲斌 VPGAME 运维开发工程师
导读:VPGAME 是集赛事运营、媒体资讯、大数据分析、玩家社群、游戏周边等为一体的综合电竞服务平台。总部位于中国杭州,在上海和美国西雅图分别设立了电竞大数据研发中心和 AI 研发中心。
云原生生态周报 Vol. 12 | K8s 1.16 API 重大变更
本文作者:源三、临石、张磊、莫源
业界要闻
1. K8s 1.16 将废弃一系列旧的 API 版本
影响面涉及 NetworkPolicy、PodSecurityPolicy、DaemonSet, Deployment, StatefulSet, ReplicaSet 和 Ingress。
Flink 1.10 Container 环境实战
本文第一部分将简明扼要地介绍容器管理系统的演变;第二部分是 Flink on K8S 简介,包括集群的部署模式调度原理等等;第三部分是我们这一年以来关于 Flink on K8S 的实战经验分享,介绍我们遇到的问题、踩过的坑;最后一部分是 Demo,将手把手演示集群部署、任务提交等等。