来源 | 阿里云基础设施微信公众号
作者 | 刘洪强
引言
5月15日国际顶级网络技术学术会议SIGCOMM'20的论文录取结果新鲜出炉。阿里云基础设施事业部以总数4篇主会论文被录取的结果再次震动了网络技术界。如果说19年阿里首次发表两篇论文是宝剑出鞘,那么今年阿里的表现可以用威震江湖来形容。作为阿里云智能-基础设施-网络研究部门的负责人,笔者想借此机会在给大家介绍阿里网络技术的最新研究结果的同时,也整体介绍一下我们目前和未来在网络技术研究上的布局。
关于SIGCOMM
SIGCOMM,全称Special Interest Group on Data Communication,是美国计算机协会(ACM)组织在通信网络领域的旗舰型会议,由ACM SIGCOMM组织举办。SIGCOMM对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM年会上发表论文是通信网络研究者的非常高的荣誉。
阿里云智能@SIGCOMM'20
今年笔者有幸被选为SIGCOMM‘20的论文评审委员会的委员参加了论文评审工作(当然基于双盲原则,评审过程中与阿里有关的任何文章的情况都不会让我知道)。这次评审秉持着兼容并包,努力发现文章亮点,努力思考文章是不是可以通过书写改进来达到要求的原则,对所有文章进行了历时4个月两轮线下评审和一轮线上讨论严密评审过程。最后,从250篇来自全世界的投稿中选出了54篇进行发表。
阿里云智能基础设施事业部 (AIS)被录取的四篇论文如下:
1. 网络形式化验证(骨干网络)-Hoyan(火眼):Accuracy, Scalability, Coverage – A Practical Configuration Verifier on a Global WAN。这是世界上一例部署在全球骨干网络上的网络配置验证系统。形式化验证概念和方法始于硬件设计,原意是将芯片设计转码成逻辑表达式,然后通过逻辑计算工具来判断这个代码是不是有设计中所要求的性质。近年来,学术界提出了网络形式化验证的概念,其初衷是将网络的架构和配置转码成逻辑表达式,然后用相同的逻辑计算工具来验证网络的性质(如某一网段的连通性)是否符合预期。然而,虽然概念上非常诱人,但是火眼上线之前,网络形式化验证并没有得到广泛应用。火眼之所以能够成功大规模部署和使用是因为我们在形式化验证中的两个关键技术突破:形式化验证工具准确性的自动校准和计算速度的几个数量级的提速。
2、网络可视化(数据中心网络)-NetSeer:Flow Event Telemetry on Programmable Data Plane。NetSeer提出了流事件遥测Flow Event Telemetry (FET)的概念。这个概念是说,网络应该有吐出所有流所经历的所有关键事件的能力。换句话说,对于任何一个流,运维同学都应该可以查询它在网络里所经历的关键事件(如丢包,拥塞,换路和PFC暂停等等)。这些事件是一切网络和性能稳定性问题的直接原因,也是所有故障定位和快速恢复的基础数据。那么如何实现FET呢?其实在可编程交换芯片中我们可以利用交换芯片的定制逻辑来实现流事件的发现,压缩和上报,由于每个事件本身携带很少数据量,所以FET引入的额外监控数据仅仅是原始流数据的0.01%。
3、可编程网络(数据中心网络)-Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs。我们真的准备好迎接可编程网络时代了吗?当我们近距离观察现在的情况,我们就知道答案是没有,因为我们在网络编程方面还处在汇编语言时代。目前业界编写网络程序的方法是极其原始和低效的:语言是跟具体芯片紧密相关的底层语言,极易出错。另外,由于程序和具体硬件的绑定,在更换芯片型号或者网络架构后,同样的功能要重新适配一遍;另外,功能扩容也极其困难,不同功能相互共存也是一个需要人去花费大量精力来解的问题。打个比方,现在网络编程的状态就如同我们要用汇编语言写一个Hadoop,理论上可能,但是实际上做不到。为了迎接可编程网络给我们带来的机遇和挑战,Lyra的宗旨就是给网络编程设计一个“C语言”和各个芯片平台上的编译器。Lyra语言可以让使用者忽略具体芯片的细节,只要关心核心逻辑即可。Lyra编译器可以将核心逻辑和具体下层单芯片或者多芯片环境结合起来生成P4或者NPL等“汇编语言”。这样,Lyra可以利用很多编译和优化技术来保证生成程序的正确性和高效性。
4、RFID智能物流(无线传感网络)-NFC+: Breaking NFC Networking Limits through Resonance Engineering。目前这一代RFID技术的准确率已经到达瓶颈,主要限制有两个:(1)目前普遍使用的UHF RFID技术利用电场进行通信,容易被金属液体遮挡,造成想读的标签读不到(漏读)的问题。(2)UHF RFID的信号容易形成辐射和多径,造成读到远处非读取区的物体而造成窜读。直面这些本质问题,我们决心在RFID的核心技术上寻求突破,使阿里云在新一代物流技术体系中占得先机。我们将电场转换成可以轻易穿透液体和金属的磁场,研制出了超远距离近场通信(NFC+)技术,将NFC原来的10cm左右的最大读取距离拓展到3m,实现了对生鲜物品的盘点,有液体和金属的物流盘点甚至是水下盘点。由于磁场可以稳定在空间一定区域,也避免了窜读。
结语
在阿里云基础网络的4篇论文中,既有如网络形式化验证和网络可视化这种已经在生产中落地并在不断向前演化的技术,也有如可编程网络和新一代RFID这种具有前瞻性技术探索。这些技术分布在数据中心网络,骨干网络和无线传感网络多个领域,为阿里的线上和线下的业务线打造了了世界一流的网络技术优势,也为整个网络技术领域贡献了重要的里程碑。