科普达人丨漫画图解什么是eRDMA?

简介: 绕过CPU,将数据直接从一台计算机的内存传输到另一台计算机,进行网络加速

在一个领先的阿里云数据中心里,数百台服务器(也就是大型的计算机)在疯狂工作和通信,他们正在合力完成一个大型的大数据处理任务,每台服务器领到自己的小任务,算完之后,得把结果相互同步,再计算下一步。

1.png

每一台服务器里面也有一个小团队,CPU、内存、网卡,都有着自己的分工。

2.png

但是这个看似完美的系统,好像出现了一些不和谐。服务器小C的工作得特别慢,就像木桶的短板一般拖慢了团队的速度,这引起了服务器小A的好奇。

3.png

4.png

5.png


在小C的世界中(使用通用的TCP/IP协议):数据从一台服务器,传到另一台服务器的时候,是通过内存传到CPU,CPU完成打包之后,给网卡转发出去,对方再拆包。

6 .png

7 .png

8 .png

9.png



RDMA技术是一种网络加速技术,它将数据直接从一台计算机的内存传输到另一台计算机。这实现了高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。由于用了不同的传输协议,RDMA需要专用的网卡和交换机等昂贵的设备。


10.png

11.png

12.png

13.png

14.png

15.png



说完了这些,小A一回头,发现小C早已没了踪影,小A想,可能小C去找它的神龙架构去了吧……

16.png

17.png


终于,整个数据中心,都迈入了eRDMA新时代。


报名大赛

体验“神龙架构eRDMA”的大规模加速能力



看到了上面的“漫画”,是不是对“eRDMA”产生了超强的好奇心呢?免费体验的机会就在你面前。

 

第二届阿里云 ECS CloudBuild 开发者大赛乘风而来!本届大赛是由阿里云与英特尔主办,阿里云天池平台、弹性计算、神龙计算平台与云安全共同承办的顶级赛事。

 

赛事秉持“云上开发,高效智能”的理念,为参赛者提供基于英特尔Ice Lake CPU的顶级算力、基于SGX 2.0的领先加密计算能力与神龙架构eRDMA的大规模加速能力无影架构强大算力以及一系列云上CloudOps自动化运维套件,让参赛者跟我们一起探索安全与性能加速命题,体验云上开发的高效与便捷。

 

扫描海报中的二维码,即刻报名,近距离体验阿里云相关产品及神龙架构eRDMA的大规模加速能力,亲自感知无处不在的超强算力,更有高达51万的赛事奖金等你获取!

开发者大赛头图-带二维码.png

(点击图片可放大并扫码报名)


同时在赛事进行期间还有“大赛征稿”环节,将你对阿里云相关产品的使用评测、体验、感受等观点整体成文发布在“开发者社区”,更有机械键盘、便携充电宝等精美好礼等着你!

 

点击这里,立即报名参赛,更有机会体验“神龙架构eRDMA”的大规模加速能力。


丨活动福利


7月4日,阿里云CloudOps系列沙龙第一弹:可观测才可靠,即将线上开启,欢迎大家预约。


相关文章
|
Web App开发 存储 缓存
RDMA优化整理(一)
简要的介绍了下RDMA的背景,并给出了一些RDMA编程优化技巧
5162 1
RDMA优化整理(一)
|
12月前
|
数据采集 自动驾驶 Java
PAI-TurboX:面向自动驾驶的训练推理加速框架
PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践
|
11月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
机器学习/深度学习 人工智能 算法
《深度剖析Q-learning中的Q值:解锁智能决策的密码》
Q-learning是强化学习中的重要算法,其核心是Q值,即智能体在特定状态下采取某一动作后预计能获得的长期累积奖励。Q值如同“智慧密码”,指导智能体做出最优决策。通过贝尔曼方程更新Q值,智能体能在探索与利用之间找到平衡,逐渐学习到最优策略。在简单场景中,Q表可有效存储和更新Q值;而在复杂场景如自动驾驶中,则需借助深度神经网络近似Q值函数,推动强化学习在实际应用中的突破。
659 23
|
存储 人工智能 API
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
AgentScope是阿里巴巴集团开源的多智能体开发平台,旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持,内置多种模型API和本地模型部署选项,支持多模态数据处理。
14822 78
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
|
11月前
|
缓存 人工智能 负载均衡
Scale Up!阿里云让大模型一体机真正实现“算得快”、“用得好”
当前,人工智能技术快速发展,中国智能计算市场进入成长期。大模型推理场景面临实时性、负载均衡与成本控制等多重挑战。阿里云通过芯片算子库升级、模型量化创新及推理引擎优化,实现性能加速,并应用于AI Stack训推一体机和百炼专属版等产品,支持大规模模型高效运行,显著提升性价比与用户体验。
1597 0
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
存储 缓存 人工智能
阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂
Tair KVCache 是阿里云推出的面向大语言模型推理场景的缓存加速服务,基于分布式内存池化和分级缓存体系,解决显存墙与带宽瓶颈问题。为万亿参数模型的高效推理提供技术保障,推动 AI 算力进化与规模化应用。

热门文章

最新文章