【阅读原文】戳:中国首个高通量以太网联盟诞生!阿里云等40多家企业率先加入
6月21日消息,在天津举行的“2024晶上系统生态大会”上,中国工程院院士孙凝晖公布了中国首个高通量以太网联盟的最新进展。该联盟由阿里云和中国科学院计算技术研究所联合发起,目前已有北京大学、平头哥、盛科、腾讯、字节跳动、曙光、寒武纪等40余家单位率先加入。高通量以太网联盟将在今年9月发布国内首个高通量以太网协议1.0,提出面向智算场景的网络方案解决方案,同时首次完整提出了针对集合通信的在网计算解决方案。
在AI大模型时代,单纯依赖提高芯片性能已不足以应对训练和推理过程中迅猛增长的算力需求,行业的关注点转向了在系统架构方面进行创新。2023年7月,阿里云和中国科学院计算技术研究所联合发起了高通量以太网联盟(ETH+ Consortium),希望通过开源开放的技术合作促进创新,凝聚国内网络产业链力量,帮助国内企业率先形成落地产品体系。
高通量以太网联盟下设协议标准和产业项目两大工作组,其中协议组聚焦高通量以太网协议设计,在兼容传统以太网协议的同时,重点解决其可扩展性不足、负载不均、性能欠佳等问题;产业项目工作组负责对接应用场景需求,组织产业项目实施。同时,联盟特设产业咨询会,负责跟进产业需求、拉动产业资源;设置执行委会制定技术路线图,协同推进各小组工作。
据孙院士介绍,联盟将于今年9月发布高通量以太网协议标准草案1.0版,内容包括性能提升的网络层、链路层和物理层定义,以及国内首个完整开放的在网计算方案。同时,也将发布与协议配套的开源硬件IP、商业版IP和验证原型。
据介绍,中国科学院计算技术研究所是中国第一个专门从事计算机科学技术综合性研究的学术机构,研究和开发了我国自主的曙光系列高性能计算机系统,在高性能网络领域拥有20余年的技术积累,研制了京兆系列高性能互连芯片,并将对其核心芯片设计进行开源。
据了解,阿里云在高性能网络领域已深耕多年,提出了端网融合的可预期网络技术体系,并在业界率先实践完成RDMA低延时网络、智算集群网络架构HPN 7.0等先进网络技术的大规模实践。其中,HPN 7.0架构即面向AI时代对网络高性能需求而研发,针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2 Tbps单芯片以太网交换机和400 G高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。
阿里巴巴曾获评权威机构AMiner全球十大最具影响力的网络研究机构。不久前,阿里云成功入选超以太网联盟(UEC)技术咨询委员会,成为唯一的中国公司成员,与微软、Meta、AMD、博通等,共同推进开放网络系统及核心技术的研发及标准制定。同时,阿里云也是开放网络SONiC社区7个发起成员之一和技术委员会副主席单位。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~