开源工具GPU Sharing:支持Kubernetes集群细粒度
问题背景
全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合,但是如果对于模型开发和模型预测的场景就会比较浪费。
阿里巴巴飞天大数据架构体系与Hadoop生态系统
先说Hadoop
什么是Hadoop?
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。
【沉淀】饿了么四次技术进化的曲折路,记访谈张雪峰
饿了么日订单从几十万增长到一百万,又从一百万增长到三百万,接着到2016年圣诞节的九百万。亮眼数字背后,张雪峰和他团队背负的技术压力可想而知。饿了么的技术发展历程究竟是怎样的?作为饿了么技术掌舵者,他都有哪些认识和思考?云栖社区的记者采访了这位“云栖奖”获奖者。
【大数据开发套件调度配置实践】——不同周期任务依赖配置
大数据开发过程中常遇到不同运行周期的任务进行依赖,常见**天任务依赖小时任务**、**小时任务依赖分钟任务**。那么如何通过大数据开发套件开发这两种场景呢?
本文将从这两个场景出发,结合调度依赖/参数/调度执行等,介绍不同周期调度依赖的最佳操作实践。
阿里云郑晓:浅谈GPU虚拟化技术(第三章)
本系列文章推送门:
阿里云郑晓:浅谈GPU虚拟化技术(第一章) GPU虚拟化发展史 阿里云郑晓:浅谈GPU虚拟化技术(第二章)GPU虚拟化方案之——GPU直通模式
今天一个小伙伴@我说:“你浅谈一下,没点技术背景的,估计都看不懂…”,醍醐灌顶啊,面向公众的文章不是学术论文,应以普及基本概念为主。
后羿射日般的精准 - 阿里云ECS调度是如何炼成的
弹性计算服务ECS(Elastic Compute Service)是阿里云营收的中流砥柱和流量担当。作为各行业客户新业务和技术创新的发动机和使能者,ECS不仅能在10分钟内交付出一个中等体量互联网公司所需的全部计算力,更能承载阿里集团双十一极大的峰值弹性需求以及互联网巨头客户业务高峰所需的计算力,帮助所有用户打破计算力边界的限制。
Spark中的资源调度
本文对Spark的资源调度的进行了介绍,涉及到4个维度的调度,包括SparkApplication/pool/TaskSetManager/Task。