OCP China Day 2022:vODLA异构计算资源池化技术架构和实践

简介: OCP会议信息8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。本届峰会以“开放.向未来:绿色、融合、赋能

OCP会议信息

8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。

开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。

本届峰会以“开放.向未来:绿色、融合、赋能”为主题,汇聚来自OCP Foundation、浪潮信息、Intel、Meta、三星、西部数据、燧原科技、NVIDIA、微软、阿里云、百度、腾讯云、清华大学等30多家知名公司、高校与研究机构的专家学者,聚焦数据中心基础设施创新、可持续发展以及产业生态等话题。

vODLA异构计算资源池化技术架构和实践 

本次OCP会上阿里云异构计算和编译团队分享了基于阿里云震旦异构计算平台的资源池化技术vODLA的架构和实践。这个也是继承OCP 2021分享的震旦异构计算平台的轻量级AI异构计算编译框架(HALO)和异构硬件统一接口规范(ODLA)相关内容的延续。

在本次OCP大会上,我们重点把vODLA池化的面向算力的用户界面、pod业务与集群调度协同的基础架构进行了交流。本次也恰好遇到腾讯TKE的同学,和他们探讨了一下不同虚拟化的集群调度技术。

ODLA算力技术栈和vODLA池化方案介绍 

  • 如下图左边是异构AI全本技术,震旦异构计算平台(HALO+ODLA)其主要功能是向上屏蔽AI框架差异、向下屏蔽异构算力差异。同时做一些硬件感知等编译优化。
  • 如下图的右边是本次重点介绍的面向算力的用户界面,为了实现屏蔽资源虚拟化和算力的差异,我们基于震旦异构计算平台设计了下图右边的vODLA资源池化软件栈,实现了单机更加好的弹性伸缩,并且以算力的方式给用户呈现,降低了AI的入门门槛。

vODLA算力池化整体架构 

  • vODLA池化基础设施是在AI技术栈中处于芯片之上AI框架之下的软硬件协同方案。
  • vODLA技术特点:
    • 通过池化架构,算力流动实现了“一个架构,边云部署”。
    • 通过统一API,支持多种算力硬件,实现了“一套接口,多种算力”。
    • 通过集群形态统一,训练和推理混合部署,实现“一种集群,大小算力”。
    • 通过算力多级虚拟,支持多厂家AI芯片,实现“一个设备,多种芯片”。

vODLA Auto-turning池化智慧调度技术 

通过k8s资源扩展技术,基于CRDs对算力和虚拟化能力进行详细描述,pod内的算力自适应可以查询、创建和删除CRD资源,并且还能实现接收metrics数据,从而实现反馈优化,做到pod业务和集群调度的协同或者HALO编译器可以实现感知资源拓扑的优化能力。

vODLA池化共建项目的实践 

介绍了和某客户共建项目的成果,分享了基础流程。

ODLA池化MLPerf打榜情况 

通过设计单机多卡的弹性伸缩能力的MLPerf用例,证明池化技术的性能损耗可以在1%以内,线性度可以控制在1左右。

vODLA池化技术演进 

介绍了震旦异构计算的开源平台,表达通过vODLA池化技术做强开源生态的意愿,分享后续演进策略。

参考文档:

  1. OCP China Day 2022官网宣传介绍
  2. 2021年云栖大会《AI算力池化技术创新研究与应用》

相关文章
|
7天前
|
消息中间件 持续交付 数据库
构建高效可靠的微服务架构:策略与实践
【4月更文挑战第25天】 随着现代软件开发的复杂性日益增加,传统的单体应用已难以满足快速迭代和灵活部署的需求。本文深入探讨了如何构建一个高效且可靠的微服务架构,包括关键的设计原则、技术选型以及实践中的挑战和应对策略。通过分析多个成功案例,我们总结了一系列最佳实践,并提出了一套可量化的性能优化方法。文章不仅为开发者提供了具体的技术指导,同时也强调了团队协作和持续学习在微服务转型过程中的重要性。
|
2天前
|
消息中间件 监控 JavaScript
Node.js中的微服务架构:构建与实践
【4月更文挑战第30天】本文探讨了在Node.js中构建微服务的实践,包括定义服务边界、选择框架(如Express、Koa或NestJS)、设计RESTful API、实现服务间通信(HTTP、gRPC、消息队列)、错误处理、服务发现与负载均衡,以及监控和日志记录。微服务架构能提升应用的可伸缩性、灵活性和可维护性。
|
2天前
|
消息中间件 测试技术 API
构建高效微服务架构:从理论到实践
【4月更文挑战第30天】 随着现代软件开发的演进,微服务架构成为了企业追求敏捷、可扩展和容错性的关键解决方案。本文将深入探讨构建高效微服务架构的核心原则和策略,并通过一个实际案例来展示如何将这些理论应用于生产环境。我们将重点讨论服务的划分、通信机制、数据一致性以及持续集成与部署的实践,旨在为开发者提供一个清晰、可行的技术蓝图,以支持快速迭代和系统的稳健运行。
|
2天前
|
运维 监控 负载均衡
探索微服务架构下的服务网格(Service Mesh)实践之路
【4月更文挑战第30天】 在现代云计算的大背景下,微服务架构以其灵活性和可扩展性成为众多企业转型的首选。然而,随着服务的激增和网络交互的复杂化,传统的服务通信模式已无法满足需求,服务网格(Service Mesh)应运而生。本文通过分析服务网格的核心组件、运作机制以及在企业中的实际应用案例,探讨了服务网格在微服务架构中的关键作用及其带来的变革,同时提出了实施过程中面临的挑战和解决策略。
|
2天前
|
Kubernetes 监控 Cloud Native
构建未来:云原生架构的演进与实践
【4月更文挑战第30天】 随着数字化转型的不断深入,企业对IT基础设施的要求日益提高。云原生技术以其独特的弹性、可扩展性和敏捷性成为推动现代应用开发的关键动力。本文将探讨云原生架构的核心组件、实施策略以及面临的挑战,旨在为读者提供一个关于如何有效构建和部署云原生应用的全面视角。
|
2天前
|
监控 Java 测试技术
现代化软件开发中的微服务架构设计与实践
随着软件开发的发展,传统的单体应用架构已经无法满足现代化应用的需求。微服务架构作为一种新的设计理念,为软件开发提供了更灵活、可扩展的解决方案。本文将介绍微服务架构的设计原则、实践方法以及相关技术工具,并结合实例展示其在现代化软件开发中的应用。
|
3天前
|
Cloud Native Devops 持续交付
构建未来应用:云原生架构在现代企业中的实践与挑战
【4月更文挑战第29天】 随着数字化转型的加速,企业正迅速转向云计算以支撑其业务敏捷性和创新。云原生技术,作为推动这一转型的关键因素,正在重新定义软件开发和运维模式。本文将深入探讨云原生架构的核心组件,包括容器化、微服务、持续集成/持续部署(CI/CD)以及DevOps文化,并分析这些技术如何帮助企业实现弹性、可扩展和高效的应用部署。同时,我们将讨论在采纳云原生实践中所面临的挑战,包括安全性、治理和人才缺口等问题。
|
3天前
|
运维 Cloud Native Devops
构建未来应用:云原生架构的演进与实践
【4月更文挑战第29天】在数字化转型的浪潮中,企业亟需灵活、高效的技术支撑来应对市场的快速变化。云原生架构以其独特的设计理念和技术栈,成为推动这一变革的关键力量。本文深入探讨了云原生的核心概念、关键技术和实施策略,旨在为企业提供一个清晰的云原生转型蓝图,助力其构建更加动态、可扩展的应用系统。
|
3天前
|
安全 Java 开发者
构建高效微服务架构:后端开发的新范式Java中的多线程并发编程实践
【4月更文挑战第29天】在数字化转型的浪潮中,微服务架构已成为软件开发的一大趋势。它通过解耦复杂系统、提升可伸缩性和促进敏捷开发来满足现代企业不断变化的业务需求。本文将深入探讨微服务的核心概念、设计原则以及如何利用最新的后端技术栈构建和部署高效的微服务架构。我们将分析微服务带来的挑战,包括服务治理、数据一致性和网络延迟问题,并讨论相应的解决方案。通过实际案例分析和最佳实践的分享,旨在为后端开发者提供一套实施微服务的全面指导。 【4月更文挑战第29天】在现代软件开发中,多线程技术是提高程序性能和响应能力的重要手段。本文通过介绍Java语言的多线程机制,探讨了如何有效地实现线程同步和通信,以及如
|
3天前
|
Kubernetes Cloud Native 持续交付
构建未来:云原生架构在现代企业中的应用与实践
【4月更文挑战第29天】 随着数字化转型的浪潮席卷各行各业,企业对于信息技术基础设施的要求日益提高。传统的IT架构已难以满足快速迭代、灵活扩展和持续创新的需求。本文聚焦于云原生架构,一种为云计算环境量身打造的设计理念和技术集合,旨在帮助企业构建更加灵活、可靠和高效的系统。通过对云原生核心组件的解析、实施策略的探讨以及成功案例的分析,我们揭示了云原生架构如何助力企业在竞争激烈的市场中保持领先地位。