技术解读|完整揭秘网络领域顶会SIGCOMM'20论文 阿里云网络洛神 VTrace系统

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
公网NAT网关,每月750个小时 15CU
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介:

说明:以下介绍的所有技术都已论文投稿前申请了专利保护

01、概述
近日,SIGCOMM 2020公布了今年的入选论文,阿里云网络产品的” VTrace: Automatic Diagnostic System for Persistent Packet Loss in Cloud-Scale Overlay Network”是国内历年来唯一一篇云网络方向的入选论文,今年SIGCOMM总计收到了250篇投稿,成功入选的仅54篇,阿里云网络产品洛神平台的技术实力得到了网络业界顶级会议的认可。

为了方便大家更通俗地理解这篇论文,本文将从技术层面解读云网络面临的问题,以及介绍VTrace系统的整体技术架构。

02、背景
如果把每天在用的手机App当成现实生活里的商场,电影院,餐馆的话,云网络就是把这些商场,电影院和餐馆连接在一起的高速公路。在现实社会里,如果驾车去电影院时发现路堵了,可能会导致错过期待已久的电影。同样的,在云网络的世界里,当某个设备发生拥塞或者事故了,会导致各种APP应用出现异常、卡顿,视频打不开等。

而随着云网络拓扑日益复杂,承载的网络业务不断增多,虚拟网络承载着用户多种多样的业务功能,如NAT、带宽等,往往要求频繁更新以满足用户业务变化。承载着基础转发能力的物理网络在转发策略中任何一个小小的问题都可能导致用户在云网络中的数据包丢失。而传统工具如traceroute等无法在云网络适用,而人为抓包的方式对运维工程师的专业技能和经验要求较高,排查过程也比较繁琐耗时,往往最终也只能界定丢包位置而难以得到丢包原因。

面对这样的问题,云网络需要一个”交通警察“,每当网络中间有拥塞或者事故了它需要能够及时发现具体位置,然后及时处理,来让整个网络恢复正常。一旦出现卡顿、丢包等问题,云网络的交警需要能在几秒钟内从这张遍布全球数百万的设备里找到原因,是非常大的挑战。

所以,不管是对用户而言,还是对云网络供应商来说,都急需一个可以在高负载、复杂拓扑的云网络下能实现快速响应的、可控的、自动化的丢包问题排查工具,而VTrace就是阿里云网络产品设计并推出的一款解决云网络持续性丢包问题的自动化诊断系统,就是我们所说的那个有着超级大脑的超级交警。

03、面临的挑战

  1. 动态变化的网络数据流
    数据在网络里面的流转就像我们每天驾驶着车子在城市里穿梭一样,唯一的区别是网络里面的红绿灯和每个路口的方向会非常多,并且红绿灯的变化也不固定。用户可以随时修改网络的安全组来让数据包停下来或者通过,也可以通过修改路由来让某个路口增加一个分叉。想象一下在一个有1000个分叉,并且红绿灯在不停变换的路口时指挥交通就可以感受网络交警每天的工作压力了。
  2. 无处不在的潜在网络丢包点
    在数据的传输过程中,一旦在某个地方发生拥塞,或者某个地方红灯了,就停下来无法前进。这个现象在网络里随处可见,对于只有几十个路口的小城镇,找到堵塞的路口可能不需要太久,但是对于云网络,这样的路口可能有上万个,想要快速找到拥塞的路口就非常困难了。
  3. 最小化性能影响
    为了解决上面的问题,传统的做法会让数据在经过每个路口的时候都给交警发送一条短信,告诉他到哪了,然后现在是红灯还是绿灯,前面排队还有多久。但是这个做法首先成本太高,每天发送的短信可能就需要几千万条,另外,如果这个交警就拿着一部手机一条条记录信息,他也根本忙不过来。如何让网络数据包能以最低的成本最小的代价通知到网络交警,并且能快速处理这些数据包的信息,是需要找到一个很好的解决方法的。

04、设计与技术
目标与要求
基于面临的挑战,我们希望实现以下两个目标:

  1. 低损耗数据包信息、流量路径和传输质量分析:在不影响用户业务的情况下,分析数据包信息,流量路径以及传输质量,并精准探测网络传输的时延抖动
  2. 精准分析丢包原因定位:当丢包发生,VTrace系统需要快速找到有问题的虚拟网元或物理网元,并提出根本原因及修复丢包的可能。

考虑到云网络环境,对VTrace系统有以下几个要求:

  1. VTrace能够基于数据包丢失的用户现场进行分析
  2. VTrace的部署和使用不会影响正常的网络功能,对用户无感知
  3. 由于存在数百万云用户,VTrace需要能够支持不同用户的并发使用

现有技术

  1. 主动探测技术,如pingmesh,比较普通地适用于网络监控场景,但很难满足基于用户数据报丢失现象进行分析的要求,也很可能因为和用户数据包的差异性难以还原丢包路径,所以VTrace无法使用;
  2. 被动式网络监控技术,如VeriFlow,虽无需注入任何探针,但无法避免对用户有依赖性,无法满足对用户无感知的要求;
  3. 网络调试技术,如SDN Traceroute、NetAlytics等,目前对一些云网络架构并不适用,也无法做到直观地给出丢包原因,而一些旁路分析架构,如新提出的INT技术(In-band Network Telemetry),虽可以实现目标,但对网络设备的要求高,同时由于旁路导致的带宽消耗,对用户的网络功能难以做到无影响。

设计挑战
很直观的想法是,我们要做的一定是网络调试能力,在虚拟转发网元上嵌入最轻量的探针技术,获取最关键的转发要素,而带内染色技术,也是在端到端网络诊断中比较常用的技术方法,常常用于精准标识感兴趣流,利用染色特征的带内传递,让虚拟转发设备的识别动作变得简单高效,也解决了控制器精准算路的难点,但采集的数据量、多租户并发的隔离以及探针对转发的性能损耗等问题,依然对我们提出了很高的要求。

另一方面,由于不想改变数据包长度,又难以预判数据包路径,那么就需要采用将分布式的虚拟转发网元上采集的数据信息通过汇聚+计算的方式来处理,大数据技术的应用就必不可少了,但是,数据采集的时序问题、以及云网络转发中的多地域和NAT场景,这些都对流量路径的自动计算有很大的挑战。

整体架构
基于目标和要求我们设计了VTrace架构如图所示,整个系统由应用服务,控制器,虚拟转发设备(VFD),日志(代理)服务,JStorm流处理引擎及数据库组成。采用“任务-染色-转发-采集-分析”的模式来实现能力,由应用服务来生成VTrace任务,控制器给起始转发节点(VFD1)下发染色规则,起始转发节点(VFD1)基于流信息与规则进行匹配,对用户报文进行染色,所有VFD都预定义静态规则,能够基于染色标识来采集数据包信息和具体丢包信息,日志服务借助日志代理能力自动同步设备上的采集日志,而使用Jstorm流处理引擎的目的是抓取VTrace任务和日志流,最后通过对VTrace任务和日志流的分析,实现流量路径的计算、丢包信息的呈现以及时延数据的分析。
_

设计选型
这套架构如何解决出现的问题和挑战,是设计选型的关键,下面会通过以下四方面进行介绍:
1. 如何解决多网元节点的数据采集和汇聚?
非常自然的,在采集上我们使用了阿里云上成熟的日志服务产品(SLS),无需开发就能快捷完成日志数据采集、消费等功能,通过其强大的采集能力,将数百万的VFD(虚拟转发设备)日志汇聚到各地域中心,便于后续的分析处理。

由于日志数据的实时性、分布式存储的地域性以及庞大数据量,需要利用大数据技术将所有数据收集以执行流量路径重建和进一步分析,我们采用了流处理引擎JStorm,JStorm具备千万级报文数据实时分析能力,其可扩展性和强大的计算能力有助于帮助潜在的大量VTrace任务进行实时的计算分析。

如下图,利用SLS+JStorm配合来解决采集和汇聚的问题,JStorm流量引擎将各地域的SLS汇聚起来,让后续的计算无需感知其差异,并且依赖于引擎的强大流计算能力,汇聚后的数据延时很小,为后续的分析和计算打好基础。
_1

2. 如何解决多租户并发的隔离以及探针对转发的性能损耗?
由于数据包中用于VTrace染色的字段长度受限,难以将任务ID放入染色字段中,那么必须通过六元(srcIp+dstIp+srcPort+dstPort+proto+vni)来识别任务信息,VTrace应用来保证任一用户发起的任务中六元组的唯一性(六元组也是用来染色的流规则),那么在VFD的采集中,数据包的六元组也是必须要采集出来的关键要素,然而由于转发中可能存在NAT转换,如果不能识别NAT,将无法识别同个任务的数据,所以要求在匹配采集中将NAT转换的前后数据分别采集下来,用以同任务判断。

染色和探针对网络转发性能的影响?
首先在我们的设计中,控制器下发规则这个动作只需要起始转发节点生效,为什么呢?原因是六元组匹配这个动作本身性能并不高,所以设计了让起始转发节点进行报文带内染色,而其他转发节点只需支持基于染色标识来进行匹配采集,这个性能损耗就小得多。而针对染色,也做了快慢速分离,类似于数据流的新建连接,针对首包,使用哈希进行规则匹配,匹配成功后在流会话中记录规则,后续的数据包可直接执行染色动作,直到染色规则失效。而其他虚拟转发设备是预置规则,没有动态下发过程,对系统压力小,而数据采集本身会做一定的限速保护,而持续丢包问题的诊断所需要Trace的包量级也不会很大,在任务中控制好包的数量,那么整个过程对转发的性能消耗是非常小的,接着探针覆盖丢包位置,就可简单直接地采集到丢包原因。
_2

3. 如何解决分布式数据采集的时序问题?
首先设计中有两种采集器,VTraceTaskSpouts和LogSpouts分别负责实时提取VTrace任务数据库中的任务流和日志服务中的日志流,特别注意由于要实现可追踪任意云网络中的任务数据流,LogSpouts从LogSevice收集的日志流很可能是散列在不同地域。

Bolt必须要先读到Task再读到Log,才能基于任务对Log进行数据过滤,而VTraceTaskSpouts和LogSpouts发送到Bolts数据的时序被是无法保证的,于是,这里我们在VtraceApp和Jstorm之间引入了一个三次握手过程,具体就是新建VTrace任务时,VtraceApp向任务DB插入状态为new的一条任务,Jstorm读到new任务,做初始化操作,并且将new改为JStormReady,告诉VtraceApp我已经准备好了,VtraceApp在收到任务状态是JStormReady后,像控制器发送下发Vtrace任务的指令,进而“任务-染色-转发-采集-分析”正式开始了。

当VTraceTaskBolt被任务激活时,就开始收集任务相关的日志数据,对日志数据进行预处理(即过滤,转换,和分组),然而,不同日志源的日志到达Bolt的时间无法保证和转发的时序性完全一致,由于可能存在NAT转换,数据时序极可能导致无法匹配而被丢弃,考虑此问题,我们在任务激活后,进行日志流进行开窗处理,将有一定关联性但未能匹配任务六元组的数据进行缓存,窗口结束后(一般设定一定的窗口超期时间,若无数据超期则认为窗口结束),根据NAT前后的六元组更新匹配规则,然后再次将缓存的数据需要进入再次匹配,多次处理后,滞后的数据也可以保证不被丢失。

预处理后的数据会根据关键信息进行排序、算路、时延分析以及关联相关物理网元等信息,WriteBolt将结果存储起来,最后借助可视化的页面将结果呈现给用户,用户可以一目了然的看到问题数据流的流量路径及丢包详细信息。
_3

4.如何解决复杂转发模型下的自动算路?
基于解决了采集的时序问题,算路的核心算法就是:首节点和尾节点的标识(基于上云和下云的边缘标准,采集的数据中可以给出)、根据同节点数据的时序性以及不同节点的NAT转换关系来进行算路,这就是一套标准的排序算法了,即使流量经过的设备和设备类型很多,只要虚拟转发设备安装了同款采集探针,那么数据处理部分不需要做任何的开发和调整,按照统一算法就可以实现路径的自动计算了。

由于探针能采集每个数据包的时间指标,使用路径中时延计算的标准公式(平均值/最大值/最小值/方差/标准差),结合可视化技术,实现一键呈现流量路径,并分析丢包位置、丢包原因和时延情况。
_4

05、覆盖场景
1、VPC内的流量访问,经典场景:企业上云后,企业生产业务(部署在ECS中)往往需要和云上其他云服务如RDS数据库进行访问。
_1

2、VPC与公网之间的流量访问,经典场景:大部分的企业服务都需要被公网访问,如游戏服务等。
_2

3、云上VPC与云下客户机房间的访问,经典场景:很多客户的部分服务可能有对外联设备的依赖,会部署在自建机房中,那么和云上环境有互通的需要。
_3

4、不同VPC之间的访问(可能涉及跨域),经典场景:大企业级组网,一般有多地域部署的需要,也会考虑生产环境/日常环境/运维管理区的隔离性,会把不同的环境部署在不同的VPC上,不同VPC之间互相访问的需要也是比较常见的。
_4

06、总结
VTrace是一款解决云网络持续性丢包问题的自动化诊断系统,核心思想是“任务-匹配-染色-采集-分析”,结合大数据技术,旨在实时快速的自动分析出云网络端到端的流量拓扑路径,并给出准确的问题原因和解决方案,让网络运维不再需要那么“专业”,那么“复杂”。
目前该项技术已经在阿里云网络内部大规模普及,效果显著,大大减少了诊断时间,从人为处理的平均几小时下降到分钟级的耗时,现在它已经成为云网络故障排查必不可少的工具,未来将会逐步开放给阿里云用户,让阿里云用户业能体验到vTrace带来的极速网络排障能力。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
11天前
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
4天前
|
云安全 人工智能 安全
阿里云稳居公共云网络安全即服务市占率第一
日前,全球领先的IT市场研究和咨询公司IDC发布了《中国公有云网络安全即服务市场份额,2023:规模稳步增长,技术创新引领市场格局》报告。报告显示,阿里云以27.0%的市场份额蝉联榜首。
|
10天前
|
人工智能 运维 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。
|
23天前
|
存储 安全 数据安全/隐私保护
在阿里云快速启动Umami玩转网页分析
本文介绍了Umami的基本信息,并通过阿里云计算巢完成了Umami的快速部署,使用者不需要自己下载代码,不需要自己安装复杂的依赖,不需要了解底层技术,只需要在控制台图形界面点击几下鼠标就可以快速部署并启动Umami,非技术同学也能轻松搞定。
|
4天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
15 2
|
5天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第38天】本文将探讨网络安全与信息安全的重要性,包括网络安全漏洞、加密技术和安全意识等方面。我们将通过代码示例和实际操作来展示如何保护网络和信息安全。无论你是个人用户还是企业,都需要了解这些知识以保护自己的网络安全和信息安全。
|
4天前
|
存储 安全 网络安全
云计算与网络安全:探索云服务中的信息安全策略
【10月更文挑战第39天】随着云计算的飞速发展,越来越多的企业和个人将数据和服务迁移到云端。然而,随之而来的网络安全问题也日益突出。本文将从云计算的基本概念出发,深入探讨在云服务中如何实施有效的网络安全和信息安全措施。我们将分析云服务模型(IaaS, PaaS, SaaS)的安全特性,并讨论如何在这些平台上部署安全策略。文章还将涉及最新的网络安全技术和实践,旨在为读者提供一套全面的云计算安全解决方案。
|
4天前
|
存储 安全 网络安全
网络安全与信息安全:漏洞、加密技术与安全意识的交织
【10月更文挑战第39天】在数字化时代,网络安全与信息安全成为保护个人隐私和组织资产的重要屏障。本文将探讨网络安全中的常见漏洞、加密技术的应用以及提升安全意识的重要性。通过具体案例分析,我们将深入了解网络攻击的手段和防御策略,同时提供实用建议,以增强读者对网络安全的认识和防护能力。
|
4天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将探讨网络安全漏洞、加密技术以及安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和建议来保护个人信息和设备安全。