结合部属集策略实现更低的eRDMA时延

简介: 弹性RDMA(eRDMA)是阿里云ECS提供的RDMA加速功能。为了取得更低的延迟效果,我们可以结合上ECS的部属集策略,使eRDMA尽可能获取到更低的时延。

阿里云ECS提供的部属集策略[1],可以控制ECS的物理分布。部属集支持多种策略:

  • 高可用策略。将部署集内所有ECS实例在指定地域内严格地分散在不同的物理服务器上,进而保证ECS实例上业务的高可用性和ECS实例的底层物理服务器容灾能力;
  • 低延迟策略。这种模式下会将部署集内所有ECS实例尽可能地集中部署到所在可用区内同一个网络拓扑范围内,以降低网络互通的时延。

我们知道,RDMA本身具有低延迟、高吞吐的特点。实际使用的时候,也会受到实际的物理网络距离的影响:距离越远,节点之间的的延迟就会增大。在阿里云当中,我们可以结合上部属集策略,使ECS提供弹性RDMA加速功能[2]尽可能获取到更低的时延。

我们接下来通过实际的实验,看一下部属集所能带来的效果。

1. 创建部属集

首先,进入云服务器ECS的控制台,在左侧的导航栏中,找到“部属与弹性”一节。如果部属集没有显示在这一节中,那么就可以在“更多”按钮的部分找到。

在部属集的页面,点击“创建部属集”,给部属集命名,并选择“网络低延迟策略”,然后点击确认,等待部属集创建完成。

2. 购买ECS实例,并添加到部属集当中

在这一步当中,我们可以直接在部属集页面,找到刚才创建的部属集,点击“创建实例”,就会直接跳转到ECS的购买界面。

在ECS购买界面,我们购买ecs.g8ae.xlarge规格,安装Alibaba Cloud Linux 3系统,并且允许系统自动安装eRDMA驱动程序。

同时,我们在弹性网卡部分,勾选“弹性RDMA接口”。

因为我们是通过部属集页面点击“创建实例”跳转的ECS购买界面,所以在ECS购买界面当中的高级选项中已经默认为我们勾选了部属集。如果没有的话,需要手动选择刚才创建的部属集。

3. 对比测试

创建完实例之后,等待OS初始化完之后,安装perftest(一款可以测试RDMA功能的基准测试程序)。在alinux3当中,可以通过yum直接安装:

yum install -y perftest

以RDMA Write的时延测试为例。我们将刚才分别购买的两个实例分别充当server节点和client节点。

  1. 在server节点运行:
    ib_write_lat -R -a -F
    
  2. 在client节点运行:
    ib_write_lat -R -a -F <server_ip>
    

测试结果如下图所示。

我们可以看到小消息的时延<10us。

我们再次购买两台相同规格的实例,除了不选择部属集,其他的配置均一样。我们再次测试ib_write_lat,可以看到这次平均时延在12.5us附近。说明这次购买的实例分布在相距较远的两个物理机上。

4. 总结

为了达到更低的延迟结果,在购买实例时,尽量选择“网络低延迟”部属集策略。此外,部属集可以尽力保证购买的实例在物理分布上尽可能靠近,但是也会受到实际库存的影响。
[1] https://help.aliyun.com/zh/ecs/user-guide/overview-43
[2] https://help.aliyun.com/zh/ecs/user-guide/erdma-overview

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
边缘计算 人工智能 负载均衡
什么是SD-WAN?
【4月更文挑战第15天】
7980 5
|
弹性计算 Ubuntu Shell
为eRDMA注册超大内存
本文介绍如何在eRDMA环境下注册大量内存。
566 0
|
Web App开发 存储 缓存
RDMA优化整理(一)
简要的介绍了下RDMA的背景,并给出了一些RDMA编程优化技巧
4545 1
RDMA优化整理(一)
|
7月前
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
存储 Unix 编译器
汇编语言----X86汇编指令
汇编语言----X86汇编指令
1139 2
|
11月前
|
缓存 NoSQL 调度
Tair:基于KV缓存的推理加速服务
Tair 是阿里云基于KV缓存的推理加速服务,旨在优化大模型推理过程中的性能与资源利用。内容分为三部分:首先介绍大模型推理服务面临的挑战,如性能优化和服务化需求;其次讲解Nvidia TensorRT-LLM推理加速库的特点,包括高性能、功能丰富和开箱即用;最后重点介绍基于KVCache优化的推理加速服务,通过Tair的KV缓存技术提升推理效率,特别是在处理长上下文和多人对话场景中表现出色。整体方案结合了硬件加速与软件优化,实现了显著的性能提升和成本降低。
1038 3
|
12月前
|
存储 弹性计算 安全
云基础设施处理器CIPU 2.0技术解读
本文深入解读阿里云的CIPU(Cloud Infrastructure Processing Unit)技术,探讨其在云计算中的定位与价值。面对当前XPU命名泛滥的问题,阿里云为何选择CIPU这一名称?CIPU旨在解决云计算中的弹性、安全、稳定、性能和成本五大核心需求。通过对比DPU和IPU,CIPU更专注于云环境下的基础设施处理,确保数据的安全性、传输的可靠性和存储的稳定性。此外,文章还回顾了神龙计算的历史发展,强调CIPU2.0在提升性能、优化资源调度和满足大客户需求方面的进展。最终,CIPU作为手段,其核心目标是为客户提供更高性价比和更稳定的云服务。
|
资源调度 调度 混合部署
Koordinator 助力云原生应用性能提升,小红书混部技术实践
本文基于 2023 云栖大会上关于 Koordinator 分享的实录,介绍小红书通过规模化落地混部技术来大幅提升集群资源效能,降低业务资源成本。

热门文章

最新文章