5月,SIGCOMM 2020公布了今年的入选论文,阿里云网络产品的” VTrace: Automatic Diagnostic
System for Persistent Packet Loss in Cloud-Scale Overlay Network”是国内历年来唯一一篇云网络方向的入选论文,今年SIGCOMM总计收到了250篇投稿,成功入选的仅54篇,阿里云网络产品洛神平台的技术实力得到了网络业界顶级会议的认可。
SIGCOMM,全称Special Interest Group on Data Communication,是美国计算机协会(ACM)组织在通信网络领域的旗舰型会议,也是目前国际通信网络领域的顶尖会议,由ACM SIGCOMM组织举办。SIGCOMM对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM年会上发表论文是通信网络研究者的非常高的荣誉。
超大规模下的云网络异常定位
如果把我们每天在用的手机App当成现实生活里的商场,电影院,餐馆的话,云网络就是把这些商场,电影院和餐馆连接在一起的高速公路。在现实社会里,如果我们驾车去电影院时发现路堵了,可能会导致我们错过一场期待已久的电影,同样的,在云网络的世界里,当某个设备发生拥塞或者事故了,会导致各种应用出现异常,给我们看到的现象就是App很卡,视频打不开等。
面对这个问题,云网络业需要一个”交警”,每当网络中间有拥塞或者事故了它需要能够及时发现具体位置,然后及时处理,来让整个网络恢复正常。区别于传统的交警,一旦出现问题,云网络的这个交警需要能在几秒钟内从这张遍布全球数百万的设备里找到定位到问题,这对云网络的交警带来了非常大的挑战。
传统网络工具 VS 大数据染色报文分析
在阿里云网络团队之前,云网络碰到类似问题只能用网工三板斧来处理: 抓包,ping, trace。这个方式在云网络上无论是性能上还是可操作性上都非常差,这也是让所有云网络工程师在排查问题时头疼的地方,传统的方式玩不转了。
阿里云网络产品团队首次采用大数据结合染色报文的方式,通过大数据技术给这个交警配备了一个超强的大脑,让他能实时处理千万级网络数据,同时,结合染色报文技术让所有网络里面的数据包信息实时传递给我们的云网络交警。最后的结果就是这个云网络交警能实时感知到整个云网络每台设备的丢包和拥塞情况。阿里云网络产品团队给这个交警取了一个名字,叫vTrace。当用户在上网过程中碰到网络问题时,vTrace能很快找到对应链路上出现问题的节点在哪里,解决了云网络排查问题难的痛点,加快用户网络问题恢复过程。
目前该项技术已经在阿里云网络内部大规模普及,未来将会逐步开放给阿里云用户,让阿里云用户业能享受到vTrace带来的秒级网络问题定位能力。
关于阿里云网络:全球最丰富网络产品家族,数百万企业的首选
云网络是阿里云核心的基础产品线,目前已拥有20+款网络产品,是业界最丰富的网络产品家族,涵盖云上网络、混合云网络、跨地域网络等诸多企业网络场景。
阿里云网络产品已服务新浪微博、优酷、12306等全球数百万企业,世界杯、春晚、春运等大流量、国民级应用场景都有阿里云网络产品的身影。
这些云网络产品的背后是基于全自研网络技术的飞天洛神云网络平台,目前已经升级到洛神2.0,连接全球,超大规模,弹性开放是洛神提供的核心能力。目前,阿里云已经建立全球网络基础设施,覆盖全球21个地域,63个可用区,110+个POP点,2600+个边缘节点。