宝剑出鞘威震江湖 阿里云在SIGCOMM'20 拿下大四喜!

简介: 5月15日国际顶级网络技术学术会议SIGCOMM'20的论文录取结果新鲜出炉。阿里云基础设施事业部以总数4篇主会论文被录取的结果再次震动了网络技术界。如果说19年阿里首次发表两篇论文是宝剑出鞘,那么今年阿里的表现可以用威震江湖来形容。作为阿里云智能-基础设施-网络研究部门的负责人,笔者想借此机会在给大家介绍阿里网络技术的最新研究结果的同时,也整体介绍一下我们目前和未来在网络技术研究上的布局。
来源 | 阿里云基础设施微信公众号
作者 | 刘洪强

引言

5月15日国际顶级网络技术学术会议SIGCOMM'20的论文录取结果新鲜出炉。阿里云基础设施事业部以总数4篇主会论文被录取的结果再次震动了网络技术界。如果说19年阿里首次发表两篇论文是宝剑出鞘,那么今年阿里的表现可以用威震江湖来形容。作为阿里云智能-基础设施-网络研究部门的负责人,笔者想借此机会在给大家介绍阿里网络技术的最新研究结果的同时,也整体介绍一下我们目前和未来在网络技术研究上的布局。

关于SIGCOMM

image.png

SIGCOMM,全称Special Interest Group on Data Communication,是美国计算机协会(ACM)组织在通信网络领域的旗舰型会议,由ACM SIGCOMM组织举办。SIGCOMM对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,由于SIGCOMM录用的论文大多数都会被广泛引用、具有非常大的影响力,因此能在SIGCOMM年会上发表论文是通信网络研究者的非常高的荣誉。

阿里云智能@SIGCOMM'20

今年笔者有幸被选为SIGCOMM‘20的论文评审委员会的委员参加了论文评审工作(当然基于双盲原则,评审过程中与阿里有关的任何文章的情况都不会让我知道)。这次评审秉持着兼容并包,努力发现文章亮点,努力思考文章是不是可以通过书写改进来达到要求的原则,对所有文章进行了历时4个月两轮线下评审和一轮线上讨论严密评审过程。最后,从250篇来自全世界的投稿中选出了54篇进行发表。

阿里云智能基础设施事业部 (AIS)被录取的四篇论文如下:

1. 网络形式化验证(骨干网络)-Hoyan(火眼):Accuracy, Scalability, Coverage – A Practical Configuration Verifier on a Global WAN。这是世界上一例部署在全球骨干网络上的网络配置验证系统。形式化验证概念和方法始于硬件设计,原意是将芯片设计转码成逻辑表达式,然后通过逻辑计算工具来判断这个代码是不是有设计中所要求的性质。近年来,学术界提出了网络形式化验证的概念,其初衷是将网络的架构和配置转码成逻辑表达式,然后用相同的逻辑计算工具来验证网络的性质(如某一网段的连通性)是否符合预期。然而,虽然概念上非常诱人,但是火眼上线之前,网络形式化验证并没有得到广泛应用。火眼之所以能够成功大规模部署和使用是因为我们在形式化验证中的两个关键技术突破:形式化验证工具准确性的自动校准和计算速度的几个数量级的提速。

2、网络可视化(数据中心网络)-NetSeer:Flow Event Telemetry on Programmable Data Plane。NetSeer提出了流事件遥测Flow Event Telemetry (FET)的概念。这个概念是说,网络应该有吐出所有流所经历的所有关键事件的能力。换句话说,对于任何一个流,运维同学都应该可以查询它在网络里所经历的关键事件(如丢包,拥塞,换路和PFC暂停等等)。这些事件是一切网络和性能稳定性问题的直接原因,也是所有故障定位和快速恢复的基础数据。那么如何实现FET呢?其实在可编程交换芯片中我们可以利用交换芯片的定制逻辑来实现流事件的发现,压缩和上报,由于每个事件本身携带很少数据量,所以FET引入的额外监控数据仅仅是原始流数据的0.01%。

3、可编程网络(数据中心网络)-Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs。我们真的准备好迎接可编程网络时代了吗?当我们近距离观察现在的情况,我们就知道答案是没有,因为我们在网络编程方面还处在汇编语言时代。目前业界编写网络程序的方法是极其原始和低效的:语言是跟具体芯片紧密相关的底层语言,极易出错。另外,由于程序和具体硬件的绑定,在更换芯片型号或者网络架构后,同样的功能要重新适配一遍;另外,功能扩容也极其困难,不同功能相互共存也是一个需要人去花费大量精力来解的问题。打个比方,现在网络编程的状态就如同我们要用汇编语言写一个Hadoop,理论上可能,但是实际上做不到。为了迎接可编程网络给我们带来的机遇和挑战,Lyra的宗旨就是给网络编程设计一个“C语言”和各个芯片平台上的编译器。Lyra语言可以让使用者忽略具体芯片的细节,只要关心核心逻辑即可。Lyra编译器可以将核心逻辑和具体下层单芯片或者多芯片环境结合起来生成P4或者NPL等“汇编语言”。这样,Lyra可以利用很多编译和优化技术来保证生成程序的正确性和高效性。

4、RFID智能物流(无线传感网络)-NFC+: Breaking NFC Networking Limits through Resonance Engineering。目前这一代RFID技术的准确率已经到达瓶颈,主要限制有两个:(1)目前普遍使用的UHF RFID技术利用电场进行通信,容易被金属液体遮挡,造成想读的标签读不到(漏读)的问题。(2)UHF RFID的信号容易形成辐射和多径,造成读到远处非读取区的物体而造成窜读。直面这些本质问题,我们决心在RFID的核心技术上寻求突破,使阿里云在新一代物流技术体系中占得先机。我们将电场转换成可以轻易穿透液体和金属的磁场,研制出了超远距离近场通信(NFC+)技术,将NFC原来的10cm左右的最大读取距离拓展到3m,实现了对生鲜物品的盘点,有液体和金属的物流盘点甚至是水下盘点。由于磁场可以稳定在空间一定区域,也避免了窜读。

结语

在阿里云基础网络的4篇论文中,既有如网络形式化验证和网络可视化这种已经在生产中落地并在不断向前演化的技术,也有如可编程网络和新一代RFID这种具有前瞻性技术探索。这些技术分布在数据中心网络,骨干网络和无线传感网络多个领域,为阿里的线上和线下的业务线打造了了世界一流的网络技术优势,也为整个网络技术领域贡献了重要的里程碑。

相关文章
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
如何进行有效的业务影响分析(BIA)?
如何进行有效的业务影响分析(BIA)?
835 1
|
9月前
|
canal 编解码 运维
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
317 12
|
9月前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
202 3
|
分布式计算 自然语言处理 知识图谱
形式化定理证明新突破:SubgoalXL框架让大模型在Isabelle中性能暴涨
【10月更文挑战第22天】该方法通过结合子目标导向的证明策略和专家学习,显著提升了大型语言模型(LLMs)在Isabelle环境中的形式化定理证明能力。SubgoalXL优化了数据效率,从有限的证明数据中提取丰富信息,并充分利用Isabelle的子目标管理功能,显著提高了模型的多步骤推理能力。实验结果显示,SubgoalXL在miniF2F数据集上取得了56.1%的准确率,比之前最佳方法提高了4.9%。这一成果为形式化定理证明领域带来了新的机遇和挑战。
226 3
|
安全 开发者 流计算
python中的deque详解
`deque`是Python中功能强大且灵活的双端队列,提供了高效的双端操作,适用于多种实际应用场景。通过详细了解 `deque`的基本特性和常见操作,开发者可以更好地利用这一数据结构来提高代码的性能和可读性。希望本文对你在Python编程中使用 `deque`有所帮助。
711 0
|
机器学习/深度学习 编解码 算法
【前沿解读】17篇2023淘天业务技术A类顶会论文(上)
【前沿解读】17篇2023淘天业务技术A类顶会论文(上)
514 2
|
弹性计算 安全 中间件
阿里云飞天洛神云网络论文又~双~叒入选 SIGCOMM主会
阿里云飞天洛神云网络与浙江大学合作的学术论文《Achelous: Enabling Programmability, Elasticity, and Reliability in Hyperscale Cloud Networks》被SIGCOMM'23主会录用
1313 0
|
人工智能 运维 监控
全面推进运维智能化分论坛回顾来啦 | 2023龙蜥操作系统大会
运维联盟的故障演练系统及运维联盟官网上线,欢迎登录测试。
|
存储 网络协议 算法
一文看懂两篇SIGCOMM论文!被顶会点赞的“可预期高性能网络”是什么?
一文看懂两篇SIGCOMM论文!被顶会点赞的“可预期高性能网络”是什么?
2529 0