阿里云200G云专线实战总结

简介: 因为项目需要,在阿里云开了300多台ECS机器做计算,计算生成的数据需要下载到本地机房的服务器硬盘里保存,每秒25GB数据,200Gbps专线。

今年因为项目需要,在阿里云开了300多台ECS机器做计算,计算生成的数据需要下载到本地机房的服务器硬盘里保存,用到了阿里云高速通道、ECS高性能计算、IDC网络架构、任务调度等技术,项目持续了两个月,期间学习和解决了一些问题,也踩了一些坑,今天把项目中遇到的问题及解决方案整理出来,供大家参考。

说明:25GB数据=200Gbps带宽 / 8Byte

需求很简单,使用高频CPU计算数据,然后把每秒产生的25GB数据下载到本地机房的机械硬盘里存储。

其中的关键问题有:

1、300台ECS机器的调度问题

每秒需要计算的数据量巨大,单台ECS肯定完不成,需要数百台机器同时计算,管理这些机器和计算任务是一个问题。

2、每秒25GB数据网络传输问题

25GB数据需要使用200Gbps带宽,传输如果用公网流量费用会高的吓人,而且会严重影响城市骨干网络的稳定。只能使用专线,阿里云单条专线最大只有100G,我们用了两条100G专线。

3、每秒25GB的存储问题

除了解决计算和传输问题,存储也是个大问题,企业级机械硬盘的读写速度只有120MB/s,单块硬盘肯定接不住,需要在IDC机房组建服务器集群下载数据。

4、下载任务的调度问题

因为在阿里云使用了数百台ECS服务器,每台机器计算任务完成时间不同,下载时间也会不同,还要考虑每台ECS的配置不同,这块就踩了一个巨大的坑,后面会讲细节。

WechatIMG21887.png

具体方案:

首先要在阿里云申请开通高速通道(专线服务),申请通过后才可以进入阿里云机房施工(拉专线),施工费:15000元/次,100G的专线费用:33900元/月。以上完成后就可以进入阿里云机房和自己的机房施工了。

从阿里云机房拉一条光纤到自己机房的交换机上,交换机选用华为的百G交换机,服务器网卡通过pci-e接口都换成了万兆网卡,交换机到服务器使用万兆网线。每台交换机下面挂20台万兆服务器,主要是保证能把100G的专线接满,还要考虑服务器死机,掉盘等情况,所以每台交换机的服务器至少在10台以上。

为了能跑满单条100G的专线,服务器全部安装pci-e的万兆网卡,使用的是14T机械硬盘,磁盘读写平均在120MB/s,每台机器万兆带宽,就是1250MB/s的数据,至少需要安装11块硬盘。

任务调度和下载服务需要解决的问题:

1、给每台ECS分配任务,并监控任务的状态

2、将完成的任务信息上传到数据库,包括:服务器ip、任务名称、文件名称、文件路径

3、线下机房每台服务器中安装下载脚本,处理下载任务

4、下载脚本获取本机磁盘空间,根据剩余空间排序,远程下载文件

5、下载完成后上报数据库,修改文件状态,并通知ECS服务器删除此文件

我们使用Python+MySql开发了上述的任务调度系统,使用Python开发脚本部署在每台服务器处理下载任务,文件下载使用的scp命令。

遇到的最大坑,整个架构运行后总是达不到200Gbps,我们检查了IDC的两台百G交换机,检查了万兆网卡,检查了磁盘读写速度、检查了万兆网线、检查了两条百G专线,整个网络链路和设备都可以达到理想性能,但是整体性能到不了,导致任务拥堵。经过一天排查发现是阿里云ECS的单机网卡问题导致的,原因是不同配置的ECS,上行和下行带宽大小是不一样的,有的机器是10Gbps,有的只有1Gbps,后来我们修改的下载任务的分配机制,当ESC的带宽是1Gbps时,同时只分配一个下载任务,10Gbps的ECS同时最多分配10个下载任务。

WX20211114-231800@2x.png

其它总结:整个项目中最大困难是对整个网络链路和设备的部署,为了能承接单条100G的专线,需要交换机、网线、网卡、主板、硬盘等链路中的环节都能发挥到极限。

实际上两台100G专线+两台百G交换机≤200G,理论情况可以达到200G,实际上最高只能到95%,因为线路和设备会有损耗,任务的执行环节会有空闲,所以设计系统的负荷时不能按理论值计算。

目录
相关文章
《阿里云产品手册2022-2023 版》——高速通道
《阿里云产品手册2022-2023 版》——高速通道
|
安全 网络安全 数据中心
阿里云高速通道和云企业网CEN有什么区别?
阿里云不同专有网络VPC连接可以使用高速通道或云企业网,那么问题来了,云企业网和高速通道之间有什么关系?
867 0
阿里云高速通道和云企业网CEN有什么区别?
|
5月前
BOSHIDA DC/AC电源模块的节能特点与环保优势
BOSHIDA DC/AC电源模块的节能特点与环保优势
BOSHIDA DC/AC电源模块的节能特点与环保优势
|
5月前
|
安全
DC/AC电源模块为现代电子设备提供稳定的能源
DC/AC电源模块为现代电子设备提供稳定的能源
 DC/AC电源模块为现代电子设备提供稳定的能源
|
5月前
|
安全
DC/AC电源模块:让电力转换变得更简单
DC/AC电源模块:让电力转换变得更简单
DC/AC电源模块:让电力转换变得更简单
|
6月前
DC/AC电源模块能够提供高效率和可靠性的能源转换
DC/AC电源模块能够提供高效率和可靠性的能源转换
DC/AC电源模块能够提供高效率和可靠性的能源转换
|
3月前
|
芯片 网络架构
开关电源DC-DC电源应用
DC-DC指直流转直流电源(Direct Current)。是一种在直流电路中将一个电压值的电能变为另一个电压值的电能的装置。如,通过一个转换器能将一个直流电压(5.0V)转换成其他的直流电压(1.5V或12.0V),我们称这个转换器为DC-DC转换器,或称之为开关电源或开关调整器。 DC-DC转换器一般由控制芯片,电感线圈,二极管,三极管,电容器构成。在讨论DC-DC转换器的性能时,如果单针对控制芯片,是不能判断其优劣的。其外围电路的元器件特性,和基板的布线方式等,能改变电源电路的性能,因此,应进行综合判断。 DC-DC转换器的使用有利于简化电源电路设计,缩短研制周期,实现最佳指标等,被
|
5月前
|
安全
BOSHIDA 使用DC/AC电源模块时需要注意的事项
BOSHIDA 使用DC/AC电源模块时需要注意的事项
BOSHIDA  使用DC/AC电源模块时需要注意的事项
|
5月前
|
安全
DC/AC电源模块在工业科技中重要的作用
DC/AC电源模块在工业科技中发挥着重要的作用
DC/AC电源模块在工业科技中重要的作用
|
5月前
|
传感器 机器人
DC/AC电源模块在工业科技中发挥着重要作用
DC/AC电源模块在工业科技中发挥着重要作用
DC/AC电源模块在工业科技中发挥着重要作用