开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景
全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。
运维人员的军刀——ROS
阿里云资源编排(Resource Orchestration)是一种简单易用的云计算资源管理和自动化运维服务。
本文以运维ECS为例,介绍如何使用资源编排服务,和现有的运维系统对接。本文使用ROS的Python SDK方式来调用资源编排服务,详细教程请参照阿里云资源编排服务Python SDK使用
从0到千万DAU,这5年闲鱼架构如何演进?
阿里妹导读:闲鱼品牌创立于14年阿里的某个茶水间,从0开始到现在千万DAU,5年时间里闲鱼见证了闲置物品从线下到线上交易的转移。而线上交易的繁荣,则需要业务架构做相应的调整、演进才能支撑业务的快速发展。
为什么它有典型FaaS能力,却是非典型FaaS架构?
阿里妹导读:FaaS—Function as a service,函数即服务。它是2014年由于亚马逊的AWS Lambda的兴起,而被大家广泛认知。FaaS能力是NBF中的一项非常重要的能力,NBF是一个非典型的FaaS架构,但是具备了典型的FaaS能力。
K8S Ingress Controller 健康检查原理剖析
K8S本身提供了Liveness和Readiness机制对Pod进行健康监控,同样我们在部署K8S Ingress Controller时也配置了LivenessProbe和ReadinessProbe来对其进行健康检查,本文旨在剖析Nginx Ingress Controller内部的健康检查逻辑,以便于更好地监控Nginx Ingress Controller。
Docker基础之七: 镜像操作
构建镜像
镜像(Image)是容器的基础。当你运行docker run的时候,你会指定一个Image来运行。比如,最基本的ubuntu镜像和training/webapp镜像。 在上一节中,我们是从Docker Hub下载的ubuntu镜像。在本节中,我们将做如下操作:
管理和运行你的本地镜像