《达摩院2023十大科技趋势》——产业革新——软硬融合云计算体系架构

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 《达摩院2023十大科技趋势》——产业革新——软硬融合云计算体系架构

趋势五、软硬融合云计算体系架构


云计算向以 CIPU 为中心的全新云计算体系架构深度演进,通过 软件定义,硬件加速, 在保持云上应用开发的高弹性和敏捷性 同时,带来云上应用的全面加速。


摘要


云计算从以 CPU 为中心的计算体系 架构向以云基础设施处理器(CIPU)为 中心的全新体系架构深度演进。通过软 件定义,硬件加速,在保持云上应用开 发的高弹性和敏捷性同时,带来云上应 用的全面加速。新的体系架构下,软硬 一体化带来硬件结构的融合,接入物理 的计算、存储、网络资源,通过硬件资 源的快速云化实现硬件加速。此外,新 架构也带来软件系统的融合。这意味着 以 CIPU 云化加速后的算力资源,可通 过 CIPU 上的控制器接入分布式平台, 实现云资源的灵活管理、调度和编排。 在此基础上,CIPU 将定义下一代云计 算的服务标准,给核心软件研发和专用 芯片行业带来新的发展机遇。


image.png

趋势解读


随着后摩尔时代的带来,CPU 的性 能提升趋近于天花板,数据量的 爆发式增长带来极高的数据处理需求。 企业在大数据、 AI 等数据密集型计算的 应用场景越来越多。这两方面的因素导 致以 CPU 中心的云计算体系架构碰上了 技术瓶颈,无法应对云上时延和带宽的 进一步扩展。传统的 CPU 体系架构需要 向着软硬一体化的方向迭代升级。


云计算的体系架构发展经历了三个 阶段,已经解决了超高并发和大算力的 经济性问题。第一阶段在 2010 年左右, 以 X86 服务器、互联网中间件为代表的 分布式架构技术为主。第二阶段在 2015 年左右,云厂商通过软件定义的方式,构 建了虚拟私有云(VPC)和计算存储分离 的池化架构。在新的池化架构之下,计 算存储网络资源可以分别实现按需扩容。


目前,云计算进入第三阶段,引入 专用硬件,形成软硬一体化的虚拟化架 构,实现了全面硬件加速。这个阶段云 计算面临的挑战,是在数据密集计算、 云数据中心东西流量越来越大的趋势下, 实现云计算单位成本下更高的计算性能, 以及更高效的云数据中心管理。 而计算 效率的提升,还需要回到芯片和系统底 层中去。


以CIPU为核心的云计算体系架构, 在工程实现上主要有以下三方面突破:


首先,是底层硬件结构的融合,带 来全面硬件加速。基于 CIPU 的新架构 能够向下管理数据中心硬件,配合云操 作系统,对计算、存储,网络,安全进 行全面加速,把 IDC 真正变成一台高速 总线互联的超级计算机。在用户云上计 算最需要的基础云网络和云存储链路上 提供更低的延迟、更高的带宽和吞吐。


其次,在全链路实现硬件加速的基 础上,创新地实现了 eRDMA,不但能 够大规模组网,还能让用户无需修改负 载的代码,无感加速, 让云上的高性能 计算普惠服务化成为现实。


最后,在全新的云数据中心硬件体 系架构下,CIPU 和服务器的系统组合, 既可以一对多,也能实现多对一,高效 满足云上不同计算场景下东西向流量计 算配比的灵活需求。


软硬融合的云计算体系架构,保持 了软件定义,在分布式架构时期构建的 交付敏捷性和灵活度,池化架构时期构 建的弹性、可靠性、可用性,还带来了 云上应用的全面加速,显著提升了计算 性能。


未来三年,云计算向以 CIPU 为中 心的全新云计算体系架构深度演进,云 上的函数计算,容器服务,数据库服务, 大数据服务,AI 等云服务,也将全面被 CIPU 加速。从购买计算资源进行自身应 用加速,到全面使用云上服务,用户将 获得 CIPU 加速带来的全面体验。从资 源到服务,云计算服务的核心价值,很 大程度将取决于云厂商能提供的底层计 算能力和计算效率。


专家点评


软硬件一体化设计 是当前计算架构的 重要演进方向。尤其 在复杂的云计算场 景 中, 软 硬 件 的 协 同优化与迭代升级 更是决定其性能提 升 的 关 键。CIPU 是 阿里云结合其飞天 操 作 系 统, 实 现 对 数 据 中 心 计 算、 存 储、 网 络 等 多 维 资 源进行高效管理和 软硬件协同加速的 代 表 性 技 术。CIPU 在阿里云的成功实 践也预示着软硬件 一体化的虚拟化架 构将引领云计算的 技术升级。


任炬  

清华大学计算机系 副教授



CIPU 有非常多的创 新,比较值得一提的 是其提供的 eRDMA 能力,通过全面普惠 的 大 规 模 弹 性 VPC 网络, 对云上分布 式 workload 做高性 能 网 络 加 速, 从 缓 存, 数 据 库, 大 数 据,AI 等, 有 20% 到 80% 不 等 的 e2e 性 能 提 升, 且 无 需 用户修改一行代码。  云计算体系架构基 础技术的不断革新, 正在推动云上基础 计算能力开始大幅 超 越 线 下 服 务 器,  而企业只要上云就 能从云计算资源或 云 服 务 中, 低 成 本 获得这些还在不断 扩大的系统红利。


蒋林泉

阿里云研究员 阿里云神龙计算平 台负责人

相关文章
|
2月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
2月前
|
JSON 供应链 监控
1688商品详情API技术深度解析:从接口架构到数据融合实战
1688商品详情API(item_get接口)可通过商品ID获取标题、价格、库存、SKU等核心数据,适用于价格监控、供应链管理等场景。支持JSON格式返回,需企业认证。Python示例展示如何调用接口获取商品信息。
|
2月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
331 0
|
3月前
|
机器学习/深度学习 人工智能 Java
Java 技术支撑下 AI 与 ML 技术融合的架构设计与落地案例分析
摘要: Java与AI/ML技术的融合为智能化应用提供了强大支持。通过选用Deeplearning4j、DJL等框架解决技术适配问题,并结合Spring生态和JVM优化提升性能。在金融风控、智能制造、医疗影像等领域实现了显著效果,如审批效率提升3倍、设备停机减少41%、医疗诊断延迟降低80%。这种技术融合推动了多行业的智能化升级,展现了广阔的应用前景。
259 0
|
4月前
|
存储 边缘计算 数据处理
面向智能医疗的边缘计算与云计算融合架构的设计与实现
边缘+云混合部署架构正在为AIoT与医疗领域带来前所未有的技术变革。通过这种架构,能够实现对海量数据的实时处理和深度分析,提升业务响应速度和效率,同时在保障数据安全的基础上,优化系统的可扩展性和可靠性。随着技术的发展,边缘+云架构的应用场景将愈发广泛,未来必将在更多领域内发挥巨大的潜力。
|
4月前
|
存储 安全 虚拟化
全面解析服务器虚拟化:云计算时代的核心技术架构
服务器虚拟化是云计算的核心技术,通过资源池化提升IT效率。本文详解其原理、部署优势及在数字化转型中的关键作用,涵盖技术架构、应用场景与选型指南,助力企业构建高效灵活的云环境。
531 0
|
8月前
|
数据采集 Prometheus Cloud Native
架构革新:揭示卓越性能与高可扩展的共赢秘诀
为了构建现代化的可观测数据采集器LoongCollector,iLogtail启动架构通用化升级,旨在提供高可靠、高可扩展和高性能的实时数据采集和计算服务。然而,通用化的过程总会伴随性能劣化,本文重点介绍LoongCollector的性能优化之路,并对通用化和高性能之间的平衡给出见解。
架构革新:揭示卓越性能与高可扩展的共赢秘诀
|
8月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
707 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
8月前
|
机器学习/深度学习 测试技术 网络架构
FANformer:融合傅里叶分析网络的大语言模型基础架构
近期大语言模型(LLM)的基准测试结果显示,OpenAI的GPT-4.5在某些关键评测中表现不如规模较小的模型,如DeepSeek-V3。这引发了对现有LLM架构扩展性的思考。研究人员提出了FANformer架构,通过将傅里叶分析网络整合到Transformer的注意力机制中,显著提升了模型性能。实验表明,FANformer在处理周期性模式和数学推理任务上表现出色,仅用较少参数和训练数据即可超越传统Transformer。这一创新为解决LLM扩展性挑战提供了新方向。
237 5
FANformer:融合傅里叶分析网络的大语言模型基础架构
下一篇
oss云网关配置