结合部属集策略实现更低的eRDMA时延

简介: 弹性RDMA(eRDMA)是阿里云ECS提供的RDMA加速功能。为了取得更低的延迟效果,我们可以结合上ECS的部属集策略,使eRDMA尽可能获取到更低的时延。

阿里云ECS提供的部属集策略[1],可以控制ECS的物理分布。部属集支持多种策略:

  • 高可用策略。将部署集内所有ECS实例在指定地域内严格地分散在不同的物理服务器上,进而保证ECS实例上业务的高可用性和ECS实例的底层物理服务器容灾能力;
  • 低延迟策略。这种模式下会将部署集内所有ECS实例尽可能地集中部署到所在可用区内同一个网络拓扑范围内,以降低网络互通的时延。

我们知道,RDMA本身具有低延迟、高吞吐的特点。实际使用的时候,也会受到实际的物理网络距离的影响:距离越远,节点之间的的延迟就会增大。在阿里云当中,我们可以结合上部属集策略,使ECS提供弹性RDMA加速功能[2]尽可能获取到更低的时延。

我们接下来通过实际的实验,看一下部属集所能带来的效果。

1. 创建部属集

首先,进入云服务器ECS的控制台,在左侧的导航栏中,找到“部属与弹性”一节。如果部属集没有显示在这一节中,那么就可以在“更多”按钮的部分找到。

在部属集的页面,点击“创建部属集”,给部属集命名,并选择“网络低延迟策略”,然后点击确认,等待部属集创建完成。

2. 购买ECS实例,并添加到部属集当中

在这一步当中,我们可以直接在部属集页面,找到刚才创建的部属集,点击“创建实例”,就会直接跳转到ECS的购买界面。

在ECS购买界面,我们购买ecs.g8ae.xlarge规格,安装Alibaba Cloud Linux 3系统,并且允许系统自动安装eRDMA驱动程序。

同时,我们在弹性网卡部分,勾选“弹性RDMA接口”。

因为我们是通过部属集页面点击“创建实例”跳转的ECS购买界面,所以在ECS购买界面当中的高级选项中已经默认为我们勾选了部属集。如果没有的话,需要手动选择刚才创建的部属集。

3. 对比测试

创建完实例之后,等待OS初始化完之后,安装perftest(一款可以测试RDMA功能的基准测试程序)。在alinux3当中,可以通过yum直接安装:

yum install -y perftest

以RDMA Write的时延测试为例。我们将刚才分别购买的两个实例分别充当server节点和client节点。

  1. 在server节点运行:
    ib_write_lat -R -a -F
    
  2. 在client节点运行:
    ib_write_lat -R -a -F <server_ip>
    

测试结果如下图所示。

我们可以看到小消息的时延<10us。

我们再次购买两台相同规格的实例,除了不选择部属集,其他的配置均一样。我们再次测试ib_write_lat,可以看到这次平均时延在12.5us附近。说明这次购买的实例分布在相距较远的两个物理机上。

4. 总结

为了达到更低的延迟结果,在购买实例时,尽量选择“网络低延迟”部属集策略。此外,部属集可以尽力保证购买的实例在物理分布上尽可能靠近,但是也会受到实际库存的影响。
[1] https://help.aliyun.com/zh/ecs/user-guide/overview-43
[2] https://help.aliyun.com/zh/ecs/user-guide/erdma-overview

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
运维 监控 网络协议
使用netperf测试网络时延
使用netperf测试网络时延
1288 1
|
1月前
|
运维 监控 Kubernetes
高效应对突增流量:构建弹性高性能的SMS网关策略
本篇内容来自于ArchSummit全球架构师峰会演讲实录。
|
2月前
|
负载均衡 算法 光互联
合理使用光互联产品减少万卡集群高性能网络中TOR交换机上行网络的ECMP哈希冲突
本文通过分析万卡集群高性能网络TOR层的ECMP哈希冲突,介绍如何通过使用有源光缆AOC和无源铜缆DAC分支线缆产品来减少ECMP哈希冲突的方法。
|
弹性计算 Linux 测试技术
阿里云ECS网络不稳定、访问丢包、延迟高怎么办?
若ECS服务器经常出现网络不稳定、延迟高等情况,针对不同情况,下面列出一些常用的解决方法供大家参考: 一、Linux实例 可以尝试先用如winmtr之类的工具,查看是服务端的丢包还是网际路由线路的丢包。
|
4月前
计算机网络——计算机网络的性能指标(上)-速率、带宽、吞吐量、时延
计算机网络——计算机网络的性能指标(上)-速率、带宽、吞吐量、时延
103 1
|
5月前
|
存储 网络协议 数据中心
|
5月前
|
弹性计算 人工智能 调度
秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?
秒级弹性!探索弹性调度与虚拟节点如何迅速响应瞬时算力需求?
49450 1
|
5月前
|
网络协议 网络安全 区块链
常见网络延迟测量方法
常见网络延迟测量方法
381 0
|
存储 弹性计算 虚拟化
基于阿里云eRDMA的GPU实例大幅提升多机训练性能
2023年3月23日14:00(中国时间),NVIDIA GTC开发者大会,阿里云开发者社区观看入口正式开放,阿里云高级技术专家李伟男;阿里云弹性计算产品专家宋迪共同带来了题为《基于阿里云eRDMA的GPU实例大幅提升多机训练性能》的分享
基于阿里云eRDMA的GPU实例大幅提升多机训练性能
|
块存储
阿里云最新产品手册——阿里云核心产品——块存储——性能指标——吞吐量、访问时延
阿里云最新产品手册——阿里云核心产品——块存储——性能指标——吞吐量、访问时延自制脑图
141 0
下一篇
无影云桌面