OCP会议信息
8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。
开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。
本届峰会以“开放.向未来:绿色、融合、赋能”为主题,汇聚来自OCP Foundation、浪潮信息、Intel、Meta、三星、西部数据、燧原科技、NVIDIA、微软、阿里云、百度、腾讯云、清华大学等30多家知名公司、高校与研究机构的专家学者,聚焦数据中心基础设施创新、可持续发展以及产业生态等话题。
vODLA异构计算资源池化技术架构和实践
本次OCP会上阿里云异构计算和编译团队分享了基于阿里云震旦异构计算平台的资源池化技术vODLA的架构和实践。这个也是继承OCP 2021分享的震旦异构计算平台的轻量级AI异构计算编译框架(HALO)和异构硬件统一接口规范(ODLA)相关内容的延续。
在本次OCP大会上,我们重点把vODLA池化的面向算力的用户界面、pod业务与集群调度协同的基础架构进行了交流。本次也恰好遇到腾讯TKE的同学,和他们探讨了一下不同虚拟化的集群调度技术。
ODLA算力技术栈和vODLA池化方案介绍
-
如下图左边是异构AI全本技术,震旦异构计算平台(HALO+ODLA)其主要功能是向上屏蔽AI框架差异、向下屏蔽异构算力差异。同时做一些硬件感知等编译优化。
-
如下图的右边是本次重点介绍的面向算力的用户界面,为了实现屏蔽资源虚拟化和算力的差异,我们基于震旦异构计算平台设计了下图右边的vODLA资源池化软件栈,实现了单机更加好的弹性伸缩,并且以算力的方式给用户呈现,降低了AI的入门门槛。
vODLA算力池化整体架构
-
vODLA池化基础设施是在AI技术栈中处于芯片之上AI框架之下的软硬件协同方案。
-
vODLA技术特点:
-
通过池化架构,算力流动实现了“一个架构,边云部署”。
-
通过统一API,支持多种算力硬件,实现了“一套接口,多种算力”。
-
通过集群形态统一,训练和推理混合部署,实现“一种集群,大小算力”。
-
通过算力多级虚拟,支持多厂家AI芯片,实现“一个设备,多种芯片”。
-
vODLA Auto-turning池化智慧调度技术
通过k8s资源扩展技术,基于CRDs对算力和虚拟化能力进行详细描述,pod内的算力自适应可以查询、创建和删除CRD资源,并且还能实现接收metrics数据,从而实现反馈优化,做到pod业务和集群调度的协同或者HALO编译器可以实现感知资源拓扑的优化能力。
vODLA池化共建项目的实践
介绍了和某客户共建项目的成果,分享了基础流程。
ODLA池化MLPerf打榜情况
通过设计单机多卡的弹性伸缩能力的MLPerf用例,证明池化技术的性能损耗可以在1%以内,线性度可以控制在1左右。
vODLA池化技术演进
介绍了震旦异构计算的开源平台,表达通过vODLA池化技术做强开源生态的意愿,分享后续演进策略。
参考文档:
-
OCP China Day 2022官网宣传介绍
-
2021年云栖大会《AI算力池化技术创新研究与应用》