阿里基础设施技术亮相SIGCOMM 2018

简介: 阿里巴巴在会上首次从多个维度分享了网络技术远景和开创性进展,获得了参会各方的高度认可。

image.png

8月21日,一场在匈牙利举办的关于未来网络技术走向的SIGCOMM 2018学术顶级会议获得了来自亚洲、北美和欧洲科技界人士密切关注。阿里巴巴在会上首次从多个维度分享了网络技术远景和开创性进展,获得了参会各方的高度认可。

SIGCOMM是网络领域的顶级学术会议

三十多年来世界顶尖的大学和科技公司在SIGCOMM上发表的论文奠定了人们对最先进的网络技术的认知。SIGCOMM对论文的质量要求极高,必须具有基础性贡献、前瞻性影响和坚实的系统实现,每年只录用30篇左右。由于SIGCOMM的论文往往会被广泛引用,并具有极大的影响力,因此能在SIGCOMM上发表论文是所有网络研究人员孜孜以求的荣誉。

这届SIGCOMM,阿里巴巴是唯一拥有技术专家参与论文评审和方向制定的中国公司

image.png

此外,阿里巴巴还在会议的第一天举办了阿里之夜活动,与来自亚洲、北美和欧洲的知名学府包括麻省理工学院、斯坦福、卡内基梅隆、加州大学伯克利分校、普林斯顿大学在内的大学教授和博士生们分享了阿里面向未来网络技术的愿景和挑战。

美国工程院院士、SIGCOMM终身成就奖得主Jennifer Rexford教授、清华大学长江特聘教授毕军老师、卡内基梅隆大学Justin Sherry教授、康奈尔大学Rachit Agarwal教授参加了活动并做了分享。

image.png

技术分享回顾

阿里巴巴的网络软硬件技术栈

“在当前网络的规模快速增长,以及上层应用对网络性能、稳定性和成本的要求不断提高的背景下,未来网络技术亟待突破的三大方向包括可编程/定制化硬件(如SmartNIC,programmable ASIC),软硬件一体化的设计(如RDMA,kernel bypassing),以及智能化网络运维(如AIOps,intent-based networking)。”

——阿里巴巴研究员张铭

目前,阿里在这几个关键的方向上,已经系统性的开展了前瞻性的基础研究,并有多项最新研究成果已经或正在阿里现网上落地和规模化部署。

image.png

阿里巴巴“Hyper-scale Edge Network”愿景

阿里巴巴基础设施首席网络架构师蔡德忠分享了阿里基础网络的整体演进构想,展示了阿里在基础网络方面行业领先的包括网络可视化,全球流量调度等前沿研发成果,并首次对外分享了阿里巴巴 “Hyper-scale Edge Network” 的愿景。

“从基础网络的角度看,云计算的第一阶段完成了支持百万级服务器的数据中心网络,接下来云计算会更加靠近用户,向边缘部署以提供更好的用户体验和支持更多的应用场景,比如物联网,支持百万级服务器、分散部署在成千上万个边缘节点的超大规模边缘网络 “Hyper-scale Edge Network” 将是网络要实现的下一个重要场景,关系到云计算在未来的核心竞争力。“Hyper-scale Edge Network” 必须解决三大核心问题包括:高效的自动化运维体系,智能化流量调度和多层次安全防御。”

——阿里巴巴基础设施首席网络架构师蔡德忠

image.png

智能化运维中“网络层次化模型”

随着互联网经济的飞速发展,互联网公司的网络规模和复杂度已达到了前所未有的高度,并且还在快速增长。如何高效的管理大规模网络以实现高性能、高稳定和低成本的网络服务,一直以来是网络研究界的一项核心难题。

在今年的SIGCOMM会议上,在由美国工程院院士,普林斯顿大学教授Jennifer Rexford主办的Self-Driving Networks Workshop中,阿里巴巴发表论文《Automatic Life Cycle Management of Network Configurations》,创新性提出了“网络层次化模型”的概念,并且在阿里的全球网络中首次证明了通过这样一个统一的网络模型,可以实现网络配置的整个生命周期(包括配置生成,配置验证,和配置变更)的全自动化,将网络智能化的水平提升到前所未有的高度。

这表明阿里巴巴在网络智能化运维方面已经和Google、亚马逊、Facebook、微软达到了同一高度,并且在网络形式化验证、快速故障恢复等方面开始弯道超车。

RDMA高性能网络

与传统TCP/IP网络不同,RDMA提供的低延迟高带宽能显著提高机器学习、高性能存储、大数据等应用的性能。然而RDMA在高性能的背后也存在着技术复杂性极高的难题。阿里巴巴是极少数能在生产网中大规模部署RDMA的公司之一。在今年SIGCOMM上,阿里巴巴高级技术专家刘洪强博士组织了Kernel Bypassing Networks Workshop以专门探讨RDMA和智能网络硬件技术的最新进展,并请来了Mellanox创始人Eitan Zahavi博士来做主题演讲。Mellanox是RDMA网卡的领军公司之一,阿里巴巴正在与Mellanox深度合作开发新一代RDMA硬件和流控算法。

image.png

阿里巴巴高级技术专家、计算机网络领域著名华人学者刘洪强博士主持KBNet Workshop

image.png

Mellanox联合创始人,杰出架构师Eitan Zahavi在KBNet做主题演讲

网络可视化

“阿里巴巴是网络可视化技术的先驱。在丰富的业务形态和大规模网络基础设施的驱使下,阿里近年来积极与国际顶级网络硬件厂商合作,推动产业生态和行业标准,主导设计了新一代硬件架构和接口,率先实现了网络可视化的规模化部署,并正在此基础上研究网络架构的智能化设计、网络故障的秒级恢复和下一代数据中心网络流量调度系统,以大幅度提升数据中心网络的带宽利用率和稳定性。”

——阿里高级网络架构师、数据中心网络专家曹捷

image.png

阿里在今年SIGCOMM的Industry Demo Session上展示了最新的网络可视化成果,引起了学术界、互联网公司、以及硬件厂商等的极大共鸣。

论文资料分享

《Automatic Life Cycle Management of Network Configurations》

《Elastic Sketch: Adaptive and Fast Network-Wide Measurements》

《Network Transparentization in Alibaba》

详情请查询:

https://conferences.sigcomm.org/sigcomm/2018


阿里研究员张铭博士

担任技术委员会委员负责SIGCOMM论文评审,以及主会Network Verification Session主席

阿里高级技术专家刘洪强博士

担任KBNets Workshop的技术委员会主席,负责统筹论文的审定和筛选工作

目录
相关文章
|
并行计算 Cloud Native 异构计算
用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!
云原生已经成为业内云服务的一个趋势。在云原生上支持异构计算有助于提升CPU的利用率。一文分析业内主流GPU共享方案,并告诉你阿里云cGPU牛在哪里!阿里云异构计算推出的cGPU(container GPU)容器技术,创新地提出了一种不同于以往的GPU容器方案,克服了业内主流方案的一些常见的缺陷,在保证性能的前提下,做到了容器之间的GPU显存隔离和任务隔离,为客户充分利用GPU硬件资源进行训练和推理提供的有效保障。
9903 0
用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!
|
9月前
|
网络虚拟化 数据安全/隐私保护 数据中心
以太网协议(IEEE 802.3)
本文介绍了以太网协议的基本概念和关键技术,包括协议层次(物理层、数据链路层)、以太网帧结构(前导码、MAC地址、FCS等)、MAC地址类型(单播、多播、广播)、物理层标准(如10BASE-T)、冲突管理(CSMA/CD与全双工模式)以及网络设备(Hub、Switch)。此外,还探讨了扩展功能(VLAN、PoE)、性能参数(MTU、帧长度)及高速以太网的演进(从10Mbps到100Gbps),并解答了一些典型问题。
2045 9
|
9月前
|
人工智能 网络性能优化 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。
|
11月前
|
机器学习/深度学习 人工智能 开发框架
《破局之路:跨学科协作研发AI项目的技术与理解破壁》
在AI项目研发中,跨学科协作至关重要,但也面临技术壁垒和理解差异的挑战。不同学科如计算机科学、数学、心理学等各具专长,但工具与术语的差异导致沟通障碍。为解决这些问题,需建立知识共享平台、制定通用沟通规范,并培养复合型人才。通过共同努力,打破壁垒,推动AI技术创新,助力社会发展。
370 14
|
9月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
462 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
12月前
|
canal 编解码 运维
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
飞天洛神云网络再度入选通信顶会 SIGCOMM'24
414 12
|
9月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1469 2
|
11月前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
615 6
|
C# Windows
49.c#:StatusStrip 控件
49.c#:StatusStrip 控件
469 1
49.c#:StatusStrip 控件
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第8天】 随着网络攻击的不断演变,传统的安全措施已不足以应对日益复杂的威胁。本文提出了一种基于人工智能(AI)的自适应网络安全防御系统,旨在通过实时分析网络流量和行为模式来自动调整安全策略。系统利用深度学习算法识别潜在威胁,并通过强化学习优化防御机制。初步实验表明,该系统能够有效提高检测率,减少误报,并在未知攻击面前展现出较强的适应性。
305 1