《达摩院2023十大科技趋势》——产业革新——软硬融合云计算体系架构

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 《达摩院2023十大科技趋势》——产业革新——软硬融合云计算体系架构

趋势五、软硬融合云计算体系架构


云计算向以 CIPU 为中心的全新云计算体系架构深度演进,通过 软件定义,硬件加速, 在保持云上应用开发的高弹性和敏捷性 同时,带来云上应用的全面加速。


摘要


云计算从以 CPU 为中心的计算体系 架构向以云基础设施处理器(CIPU)为 中心的全新体系架构深度演进。通过软 件定义,硬件加速,在保持云上应用开 发的高弹性和敏捷性同时,带来云上应 用的全面加速。新的体系架构下,软硬 一体化带来硬件结构的融合,接入物理 的计算、存储、网络资源,通过硬件资 源的快速云化实现硬件加速。此外,新 架构也带来软件系统的融合。这意味着 以 CIPU 云化加速后的算力资源,可通 过 CIPU 上的控制器接入分布式平台, 实现云资源的灵活管理、调度和编排。 在此基础上,CIPU 将定义下一代云计 算的服务标准,给核心软件研发和专用 芯片行业带来新的发展机遇。


image.png

趋势解读


随着后摩尔时代的带来,CPU 的性 能提升趋近于天花板,数据量的 爆发式增长带来极高的数据处理需求。 企业在大数据、 AI 等数据密集型计算的 应用场景越来越多。这两方面的因素导 致以 CPU 中心的云计算体系架构碰上了 技术瓶颈,无法应对云上时延和带宽的 进一步扩展。传统的 CPU 体系架构需要 向着软硬一体化的方向迭代升级。


云计算的体系架构发展经历了三个 阶段,已经解决了超高并发和大算力的 经济性问题。第一阶段在 2010 年左右, 以 X86 服务器、互联网中间件为代表的 分布式架构技术为主。第二阶段在 2015 年左右,云厂商通过软件定义的方式,构 建了虚拟私有云(VPC)和计算存储分离 的池化架构。在新的池化架构之下,计 算存储网络资源可以分别实现按需扩容。


目前,云计算进入第三阶段,引入 专用硬件,形成软硬一体化的虚拟化架 构,实现了全面硬件加速。这个阶段云 计算面临的挑战,是在数据密集计算、 云数据中心东西流量越来越大的趋势下, 实现云计算单位成本下更高的计算性能, 以及更高效的云数据中心管理。 而计算 效率的提升,还需要回到芯片和系统底 层中去。


以CIPU为核心的云计算体系架构, 在工程实现上主要有以下三方面突破:


首先,是底层硬件结构的融合,带 来全面硬件加速。基于 CIPU 的新架构 能够向下管理数据中心硬件,配合云操 作系统,对计算、存储,网络,安全进 行全面加速,把 IDC 真正变成一台高速 总线互联的超级计算机。在用户云上计 算最需要的基础云网络和云存储链路上 提供更低的延迟、更高的带宽和吞吐。


其次,在全链路实现硬件加速的基 础上,创新地实现了 eRDMA,不但能 够大规模组网,还能让用户无需修改负 载的代码,无感加速, 让云上的高性能 计算普惠服务化成为现实。


最后,在全新的云数据中心硬件体 系架构下,CIPU 和服务器的系统组合, 既可以一对多,也能实现多对一,高效 满足云上不同计算场景下东西向流量计 算配比的灵活需求。


软硬融合的云计算体系架构,保持 了软件定义,在分布式架构时期构建的 交付敏捷性和灵活度,池化架构时期构 建的弹性、可靠性、可用性,还带来了 云上应用的全面加速,显著提升了计算 性能。


未来三年,云计算向以 CIPU 为中 心的全新云计算体系架构深度演进,云 上的函数计算,容器服务,数据库服务, 大数据服务,AI 等云服务,也将全面被 CIPU 加速。从购买计算资源进行自身应 用加速,到全面使用云上服务,用户将 获得 CIPU 加速带来的全面体验。从资 源到服务,云计算服务的核心价值,很 大程度将取决于云厂商能提供的底层计 算能力和计算效率。


专家点评


软硬件一体化设计 是当前计算架构的 重要演进方向。尤其 在复杂的云计算场 景 中, 软 硬 件 的 协 同优化与迭代升级 更是决定其性能提 升 的 关 键。CIPU 是 阿里云结合其飞天 操 作 系 统, 实 现 对 数 据 中 心 计 算、 存 储、 网 络 等 多 维 资 源进行高效管理和 软硬件协同加速的 代 表 性 技 术。CIPU 在阿里云的成功实 践也预示着软硬件 一体化的虚拟化架 构将引领云计算的 技术升级。


任炬  

清华大学计算机系 副教授



CIPU 有非常多的创 新,比较值得一提的 是其提供的 eRDMA 能力,通过全面普惠 的 大 规 模 弹 性 VPC 网络, 对云上分布 式 workload 做高性 能 网 络 加 速, 从 缓 存, 数 据 库, 大 数 据,AI 等, 有 20% 到 80% 不 等 的 e2e 性 能 提 升, 且 无 需 用户修改一行代码。  云计算体系架构基 础技术的不断革新, 正在推动云上基础 计算能力开始大幅 超 越 线 下 服 务 器,  而企业只要上云就 能从云计算资源或 云 服 务 中, 低 成 本 获得这些还在不断 扩大的系统红利。


蒋林泉

阿里云研究员 阿里云神龙计算平 台负责人

相关文章
|
12天前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
18天前
|
运维 持续交付 云计算
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
51 1
|
21天前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
34 3
|
10天前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
38 4
【AI系统】计算图优化架构
|
14天前
|
存储 安全 网络安全
云计算与网络安全:技术融合的双刃剑
在数字化浪潮中,云计算如同一股不可阻挡的力量,推动着企业和个人用户步入一个高效、便捷的新时代。然而,随之而来的网络安全问题也如影随形,成为制约云计算发展的阿喀琉斯之踵。本文将探讨云计算服务中的网络安全挑战,揭示信息保护的重要性,并提供实用的安全策略,旨在为读者呈现一场技术与安全的较量,同时指出如何在享受云服务带来的便利的同时,确保数据的安全和隐私。
25 6
|
12天前
|
存储 人工智能 安全
云计算与网络安全:技术融合与挑战
在数字化时代的浪潮中,云计算和网络安全已成为推动社会进步的两大关键技术。本文将探讨云计算服务的发展,网络安全的重要性,以及信息安全技术的演进。我们将通过实例分析,揭示云服务如何增强数据保护,网络安全措施如何应对新兴威胁,以及信息安全技术的创新如何为企业带来竞争优势。文章旨在为读者提供对云计算和网络安全领域的深入理解,并展示它们如何共同塑造我们的未来。
|
14天前
|
存储 监控 安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
本文将探讨云计算与网络安全之间的关系,以及它们在云服务、网络安全和信息安全等技术领域中的融合与挑战。我们将分析云计算的优势和风险,以及如何通过网络安全措施来保护数据和应用程序。我们还将讨论如何确保云服务的可用性和可靠性,以及如何处理网络攻击和数据泄露等问题。最后,我们将提供一些关于如何在云计算环境中实现网络安全的建议和最佳实践。
|
12天前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
30 1
|
16天前
|
存储 安全 网络安全
云计算与网络安全:云服务、网络安全、信息安全等技术领域的融合与挑战
随着云计算技术的飞速发展,越来越多的企业和个人开始使用云服务。然而,云计算的广泛应用也带来了一系列网络安全问题。本文将从云服务、网络安全、信息安全等方面探讨云计算与网络安全的关系,分析当前面临的挑战,并提出相应的解决方案。
45 3
|
19天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。