SIGCOMM 2024 | 洛神云网络学术活动与论文分享

简介: SIGCOMM 2024 | 洛神云网络学术活动与论文分享

8月3日-8月8日,计算机网络领域顶级会议ACM SIGCOMM'24 和第八届亚太网络研讨会APNet'24在悉尼的新南威尔士大学举办,来自全球各地500多名网络领域的专家学者齐聚一堂,探讨最新的学术问题和技术研究。值得注意的是,SIGCOMM作为网络会议改革的排头兵,在本次会议上首次增加了non-paper session,鼓励更多的人参与讨论社区的发展和改革,为本次会议带来颇多亮点。阿里云网络团队在产品线总经理祝顺民(花名:江鹤)带队下,参加了SIGCOMM产学研主题的Non-paper Session和两篇主会论文、一篇Workshop论文的分享。此外,在SIGCOMM之前的APNet'24会议上,也有两项阿里云网络提出问题,高校提出初步解决方案的工作被分享。


  • 洛神云网络首度公开学术成果概览图


洛神云网络现场展位图


洛神云网络在SIGCOMM'24现场展位通过海报的形式首次公开了学术成果概览图。图中以虚拟网络(注:区别于数据中心物理网络,通过封装VXLAN协议以实现租户粒度隔离的“用户/虚拟”网络,从而屏蔽用户对底层物理网络拓扑的感知)中最小的构成——VPC为主体,展示了云网络团队自主研发10余年来,在SDN、NFV、可编程硬件、网络探测、容器网络以及service mesh方面的创新,并因此发表的9篇网络/系统领域顶会论文。


洛神云网络学术成果概览图


通过这张图,可以很清晰地看到云网络十年来遇到的挑战与提出的创新解决方案。


首先,为了支持多租户部署场景下用户之间隔离的网络环境,云网络构建了Achelous网络虚拟化平台,足以支撑超过数百万IP实例(VM、裸金属和容器等)的虚拟网络;在这样大规模的网络中,SDN转发面与控制面的性能开始困扰我们,于是我们为AVS设计了灵活高效的硬件卸载框架Triton,并通过Poseidon云网络控制器将中心控制器负载尽可能多地卸载到边缘节点以实现scale out。在可编程硬件方面,我们迭代了两种基于P4和异构硬件平台的虚拟网关设备,分别部署于核心(即Sailfish)和边缘节点(LuoShen)。


为了更好地部署网络中间件,提供企业组网能力,我们综合考虑了成本、扩缩容效率,最终把所有的网络中间件(如load balance、NAT、GA全球加速、CEN用户VPC网络连接器等)以NFV的形式全部部署在公有云上的售卖VM内,通过CyberStar平台进行编排和管理,降低了百倍的扩缩容时间和独立部署的硬件成本。


在故障定位与诊断方面,为了弥补物理网络探测技术无法深入到虚拟网络转发节点处理逻辑的问题(注:物理网络探测只能探测到每台物理端点设备,例如服务器,但服务器上AVS转发逻辑是否正确无法进一步探测),先后研发了vTraceZoonet遥测系统。这些系统在日常运维、故障定位与自证清白方面发挥着重要作用。


最后,在新业务场景驱动下,我们在容器网络、service mesh方面也做了充分的探索,发布了第一个无sidecar的云上多租户服务网格架构Canal Mesh,兼顾了性能、成本,减少了对用户环境的侵入。


洛神云网络在学术研究方面的成果并非偶然,源自于对提供高要求的虚拟网络能力的专注,虽然近年来发表了很多论文成果,获得了诸如计算机学会技术发明一等奖、自动化科技进步一等奖等奖项,但归根结底还是源于踏实的自主研发与工程落地。正如祝顺民所说:“洛神云网络的学术研究是务实的,不去追求虚无缥缈的论文数量。我们会始终坚持工程与学术研究相结合,在工程部署上遇到的问题,首先从学术界寻找已有的最优价;如果学术界当前尚无最优解,我们自己要去求得最优解,部署检验后再通过论文的方式回馈学术界。”


  • 产学研Non-paper Session分享

受香港科技大学孟子立老师邀请,洛神云网络VPC团队的杨晔博士(花名:淮舟)参与了产学研(industry-academia colleboration)non-paper session分享了自己以及与浙江大学做学术合作期间的经验。


杨晔博士分享中


在分享中,杨晔博士以自己的经历为例,讲述了从中科院计算所读博期间因为项目与洛神云网络结缘、毕业后加入洛神云网络VPC团队继续vSwitch领域研究的历程。而对于这种角色切换,有着两方面不可替代的作用,一是更熟悉学术界的观点和输入,而同时入局工业界,也能弥补自己之前缺乏的production背景与现状理解。只有两种思维方式兼具的情况下,才能更清楚什么样的问题才是适合学术研究的问题,应该从哪里发力。比如说,如果一个问题的解决方案只能在阿里云特定的系统里生效,那他的价值就不会很大,像修一个bug或者方案设计上的缺陷。对工业界来说,好的方法一定是具有普适性的,principle比具体的实现重要。


近年来,洛神云网络先后与9所高校开展学术研究,除了论文发表以外,还为云网络领域培养了20多位研究生学历的以上的人才。除了向学术界指明问题、提供自己的解决思路之外,人才培养也是企业开展学术合作的一个重要的职责。


浙江大学四年级博士生蒋骁翀分享中


浙江大学博士生蒋骁翀也分享了自己参与洛神云网络学术合作以后的收获。他表示在学校里学到的知识,大多是理论知识,很多实验也只是在模拟器上运行,对大规模的系统如何运作缺乏感官上的了解。另外困扰大多数博士生的一大问题——研究方向/问题,也因为学术合作而变得更容易。


  • Canal Mesh论文分享

Canal Mesh论文由洛神云网络架构团队的宋恩格博士(花名:少怀)分享。

论文题目Canal Mesh: A Cloud-Scale Sidecar-Free Multi-Tenant Service Mesh Architecture

论文链接https://dl.acm.org/doi/10.1145/3651890.3672221


宋恩格博士论文分享中


摘要:近年来,服务网格框架在构建基于微服务的应用程序方面日益受到青睐。这些框架的关键组成部分是每个K8s pod中的代理,称为sidecar,用于处理pod之间的流量。我们的实证测量表明,这种每个pod的sidecar会引发许多问题,包括侵入用户pod、占用过多资源、管理多个sidecar的重大开销以及流量通过sidecar造成的性能下降。


在本文中,我们介绍了Canal Mesh,一个无sidecar的云上多租户服务网格架构。Canal将服务网格功能从用户集群中解耦,并在公共云中部署一个集中式的网关来处理这些功能,从而减少用户侵入和编排开销。通过服务整合和多租户共享,还可以减少服务网格的基础设施成本。为了解决基于云的部署带来的问题,例如服务可用性、租户隔离、嘈杂邻居、服务弹性以及额外的基础设施成本,我们利用了层次化故障恢复、云基础设施重用和资源聚合等技术。我们的评估显示,Canal Mesh的性能、资源消耗和控制平面开销均显著优于Istio和Ambient。


反响:Canal Mesh作为全球首个多租的sidecar-free服务网格解决方案获得了广泛的关注和讨论。荣获SIGCOMM 2024终身成就奖的K. K. Ramakrishnan教授高度赞扬了Canal Mesh的设计,在演讲前与论文第一作者进行了多次的交流,并笑称“I need to learn from Canal Mesh, a good work”。在演讲后的QA环节,也有多位现场观众踊跃提问,问题包含了Canal Mesh给用户和云厂商带来的好处、Canal Mesh的部署情况等。


此外,Canal Mesh还得到了其他业内专家的高度赞扬。来自Azure Networking Team的David A. Maltz是Azure网络的负责人、微软的副总裁,David同时也是学术界和工业界双料大牛,是DCTCP、VL2、Pingmesh等知名论文的作者,谷歌学术引用量超7万。David评价Canal Mesh包含了大量的真知灼见可以帮助社区构建更好的系统。


来自卡耐基梅隆大学的Theophilus A. Benson教授,同时也是NSDI 25的TPC chair,也在SIGCOMM中稿后迅速与作者取得了联系,表示了对Canal Mesh的关注和兴趣,并期待与作者后续进行深入的交流。


后续,阿里云洛神云网络团队还会持续投入在服务网格等创新应用领域,如果大家想要深入讨论Canal Mesh相关的问题,可以发送邮件到 alibaba_cloud_network@alibaba-inc.com。如果想要试用Canal Mesh可以发送邮件到 canal-mesh-group@list.alibaba-inc.com


  • Triton论文分享

Triton论文由洛神云网络VPC团队的杨晔博士(花名:淮舟)带来主题分享。

论文题目Triton: A Flexible Hardware Offloading Architecture for Accelerating Apsara vSwitch in Alibaba Cloud


论文链接https://dl.acm.org/doi/10.1145/3651890.3672224


杨晔博士论文分享中


摘要:vSwitch是云网络中VM的核心转发组件,然而已有的“Sep-path”硬件加速方案通过实现一条独立的硬件路径加速长连接的流,为此引入了不可预期的性能、迭代周期长、运维开销大等问题。阿里云AVS自研发了“Sep-path”类型的硬件卸载架构以后,迭代周期与运维压力显著升高,“不可预期”的性能问题也可以从region粒度的细化流量卸载比分位图中看出端倪。除了少数全是长连接的用户,能够维持90%以上的流量硬件卸载率,其实仍有相当一部分用户的卸载比率没那么可观,这是因为受限于硬件资源、实现复杂度等原因,有一部分流量没法卸载到硬件路径(action无法实现、或者存储空间受限),因而性能会受限于软件转发。


Triton架构 数据包串行通过软硬件处理单元


在本文中,为了解决这一问题,我们提出了Triton架构,通过统一的一条异构数据通路保证一致性的性能体验、降低版本迭代开销。为了充分平衡编程灵活性和性能,Triton将I/O相关、通用的处理逻辑卸载到硬件实现,例如:parser、分片等;而对于流表pipeline等业务强相关的,需要频繁迭代的保留在软件,并寻求尽力而为的加速。为了进一步提升性能,规避软件处理的瓶颈,我们还应用了一系列技术,如在云数据中心内支持巨型帧,并通过包头-负载切割来降低不必要的数据移动,提升带宽;通过实现硬件辅助的向量化数据包处理来减少查表次数,节约CPU cycles,提升数据包速率。最终实验显示,Triton取得了与Sep-path架构下纯硬转相当的数据包速率和带宽,但连接新建速率提升了72%,代价仅仅是2.5us的延迟。同时Triton还丰富了全链路的debug、运维工具,降低开发周期。


展望:AVS是阿里云历史最悠久的转发组件之一,在十余年来研发运维过程中,已经迭代了多个软件版本。自17年开始尝试硬件卸载加速以来,先后经历了软件卸载、硬件加速和硬件辅助三个阶段。这也是由于公有云的vSwitch需要保有编程灵活性,因而不断地权衡、折忠设计。SDN的思想提出也有十余年,如今已深入人心,阿里云也基于该设计实现了poseidon控制器,但其编排代替coding的美好愿景始终难以实现,例如今天有一个新的协议需要支持、有一种新的action需要支持,这些action甚至不需要操作、修改数据包,而是直接作用于云计算的某个对客产品。这种无法提前预测的编程要求,意味着转发组件需要足够好改,以不断新增这些业务逻辑。


就Triton的设计而言,一些早期的学者可能会觉得他很像20年前就诞生的NP(Network Processor)处理器,利用硬件辅助CPU实现数据包的处理。事实上,技术研发是螺旋上升的。这种NP处理器,在2010年以后由于CPU性能越来越强以及DPDK用户态数据包处理的涌现而被替代,这些软件转发赋予了网络处理极大的灵活性,迅速主导了数据中心网络。而后在软件转发达到天花板的百G网络时代,硬件加速/硬件转发又被重新唤起。Triton论文中的一些动机和问题对于学术界体感并不强烈,但是在技术革新方面,Triton代表了业界软硬件融合的巅峰,即在保障编程、迭代灵活性的前提下,尽可能地设计硬件卸载、硬件加速(这些深度的软硬件结合与强大的处理能力是NP时代所不具备的)。这一原则也与谷歌在falcon协议系统中所描述的“利用软硬件协同设计来实现高PPS、大带宽、低时延的网络,同时又要兼顾编程灵活性”不谋而合。


falcon博客截图


另外,就vSwitch这一组件本身而言,它既是物理网络延伸到服务器的端节点,又是用户虚拟网络的第一跳,极具业务属性。在未来虚拟网络多路径、可靠传输等需求下,将会发挥重要作用,而Triton架构则赋予了这些新需求以更高灵活性落地的可能性。


  • SIGCOMM FMANO workshop分享

在本次SIGCOMM会议的Formal Methods Aided Network Operation(形式化方法辅助网络运营)Workshop上,宋恩格博士(花名:少怀)还带来了云网络团队在形式化验证领域的探索工作。


论文题目A Hybrid Testing System on P4 Cloud Gateway


论文链接https://dl.acm.org/doi/10.1145/3672199.3673886


宋恩格博士论文分享中


摘要:P4 网关是云网络的中心,随着云流量规模的增长,必须通过测试来保证云网关的可靠性。现有的云网关测试解决方案,如符号执行和模糊测试,要么在可扩展性上不足,要么在覆盖率上表现不佳,导致在生产环境中部署时存在困难。为了平衡可扩展性和覆盖率,我们提出了一种混合测试系统,用于 P4 网关,该系统使用路径概率作为折中指标,结合了模糊测试和符号执行。此外,我们应用了图中心性策略和中间结果重用操作来提高效率,并实现了一个轻量级的插桩工具,用于测量覆盖率。我们对开源和生产规模的 P4 程序进行了评估。评估结果表明,该原型系统在大多数程序上实现了 100% 的覆盖率,并且高效性表现良好。目前,该系统仍在生产环境中进行持续测试和优化。


展望:网络研究人员、设备供应商和互联网服务提供商对应用形式化方法提升网络可用性、可靠性和性能的兴趣日益增长,涉及领域包括路由配置验证、可编程网络测试等。近年来,在顶级会议如SIGCOMM和NSDI中,网络形式化方法的论文比例持续上升(16.4% in SIGCOMM 2021、16.9% in NSDI 2020),表明该领域的关注度不断增加。云网络团队也会继续探讨如何将形式化验证等方法更好地应用于虚拟网络上,赋能虚拟网络的稳定性,为用户提供更加可靠的服务。


  • vSwitchLB论文分享

来自浙江大学的研究生尹欣在APNET’24上分享了她在云网络部门学术实习的初步成果vSwitchLB。


论文题目:vSwitchLB: Stratified Load Balancing for vSwitch Efficiency in Data Centers


论文链接https://dl.acm.org/doi/10.1145/3663408.3663422



摘要:虚拟交换机 (vSwitch) 是云网络的重要组成部分,对于本地虚拟机间以及虚拟机与外部网络要求高性能和高度隔离的转发至关重要。与其他多核系统类似,具有多个核心的虚拟交换机也面临核心负载不平衡的问题。作为主流的云提供商之一,我们确定了云中虚拟交换机面临的四种核心负载不平衡的情况,这些不均衡主要来自于虚拟队列和RSS存储桶之间的流量分配不均,以及大象流和微突发等流量类型。为了解决不同类型的负载不平衡,我们提出了vSwitchLB,一个虚拟交换机负载平衡框架。具体来说,vSwitchLB包括一个负载不平衡检测模块,和一个针对每种特定不平衡类型的技术组合解决方案。初步评估表明,vSwitchLB 可以准确地对我们云中虚拟交换机遇到的不同负载不平衡进行分类,并防止虚拟交换机的任何单个核心被负载压垮。


反响:审稿人高度赞扬了本篇论文的出发点以及给社区提供有意义的数据。有审稿人称“感谢您提出了一个新颖而有趣的虚拟交换机问题!数据包处理中的负载不平衡问题众所周知,但本文展示了许多数据中心节点在一段较长时间内的实际测量数据。动机部分中的示例和表格中的数据确定了发生拥塞的几个不同原因,非常有助于阐述问题。这是一个很好的贡献,为如何解决拥塞提供了重要线索。”


  • 总结

SIGCOMM 2024会议已经落下帷幕,但洛神云网络学术研究的步伐不会停止。希望未来与广大科研院所的专家们一起迎接新的挑战,创造新的研究成果。若您对云网络团队所发论文感兴趣或有疑问,欢迎联系alibaba_cloud_network@alibaba-inc.com

相关文章
|
1月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
134 63
|
3月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
672 146
|
1月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
61 10
|
2月前
|
canal 编解码 运维
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
59 12
|
2月前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
|
1月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
PaSa:字节跳动开源学术论文检索智能体,自动调用搜索引擎、浏览相关论文并追踪引文网络
PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体,能够自动调用搜索引擎、阅读论文并追踪引文网络,帮助用户快速获取精准的学术文献。
311 15
|
3月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
4月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
116 17
|
4月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
88 10