阿里云迎来AI网络领域两大重要突破

简介: 阿里云迎来AI网络领域两大重要突破


今日,阿里云成功入选超以太网联盟(UEC)技术咨询委员会,成为唯一的中国公司成员,将与微软、Meta、AMD、博通等其他12名成员,共同推进开放网络系统及核心技术的研发及标准制定,打造下一代AI网络基础设施。


此外,网络通信领域国际顶会SIGCOMM2024近期确定收录论文名单,阿里云6篇论文入选。其中,介绍阿里云最新一代的智算集群网络架构HPN 7.0的成果论文成为SIGCOMM历史上在AI智算集群网络架构领域的首篇论文,专家认为是继谷歌Jupiter经典网络之后的AI网络架构新范式



新晋入选UEC技术委员会,

牵头制定下一代AI网络架构标准



超以太网联盟UEC (Ultra Ethernet Consortium)是Linux基金会于2023年7月发起发起成立开源组织,致力于打造面向AI时代的超大规模新型网络技术及系统。成立不到一年,UEC已成为当下全球AI基础设施领域最受人关注、发展最迅速的技术联盟。



当前,UEC联盟建立了物理层、链路层、传输层、软件层等8个工作组,推进新兴网络技术研究;同时,UEC联盟特设技术咨询委员会,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。


UEC技术委员会是联盟中最核心的技术决策中心,只有技术实力过硬、对开源社区贡献大的会员机构才能入选。微软、Meta、AMD、Intel、博通、思科等10名UEC发起成员,与最新投票选出的阿里云、Enfabrica、Marvell等3名成员,共同组成了新一届UEC技术委员会。


UEC联盟主席梅茨欢迎阿里云等3位技术委员会新成员,他在邮件中表示,在技术委员会的推动和全体成员的努力下,UEC联盟将很快迎来第一个里程碑。


在UEC联盟中,阿里云正牵头推进面向AI需求的网络性能提升项目等技术草案,并持续向成员分享阿里云最新的技术积累和实践。



HPN7.0入选顶会SIGCOMM

AI高性能网络迎来架构新范式



为AI智算集群重新设计的网络架构HPN7.0,即是阿里云在AI高性能网络领域的创新和实践。相关成果论文已被SIGCOMM2024接收录用,成为该国际网络通信顶会历史上首篇关于AI网络架构的论文。


0e1756609178f6af04002a3ab6a736e9.png


HPN 7.0针对大模型训练场景下规模大、大流多、突发强烈、稳定性需求高的特点,创新性地设计了“双上联+多轨+双平面”的网络架构,并配合最新一代的51.2Tbps单芯片以太网交换机和400G 高性能网卡,自研Solar-RDMA和ACCL通信库,实现了单层千卡、两层万卡的高性能和高稳定互联。


从2023年9 月开始,HPN7.0在阿里云展开大规模部署,大模型训练性能较上一代架构在典型场景下提升14.9%,且大幅提高了智算网络整体稳定性。前不久阿里云发布通义千问2.5版本大模型,中文性能全面赶超GPT-4Turbo,就是基于HPN7.0高性能网络集群训练而成。


阿里云基础设施网络负责人蔡德忠介绍称:“阿里云从2017年开始探索端网融合的可预期网络,HPN7.0更进一步,把端网融合的体系结构从网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的全新网络集群架构创新。”



阿里云在高性能网络领域已深耕多年,提出了端网融合的可预期网络技术体系,并在业界率先完成RDMA低延时网络、智算集群网络架构HPN 7.0等先进技术的大规模实践。除UEC技术委员会成员身份外,阿里云也是开放网络SONiC社区7个发起成员之一和技术委员会副主席单位。同时阿里巴巴还曾获评AMiner全球十大网络研究机构,是榜单中唯一的中国科技企业。


/ END /

目录
相关文章
|
9天前
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
7天前
|
存储 人工智能 安全
AI时代的网络安全:传统技术的落寞与新机遇
在AI时代,网络安全正经历深刻变革。传统技术如多因素身份认证、防火墙和基于密码的系统逐渐失效,难以应对新型攻击。然而,AI带来了新机遇:智能化威胁检测、优化安全流程、生物特征加密及漏洞管理等。AI赋能的安全解决方案大幅提升防护能力,但也面临数据隐私和技能短缺等挑战。企业需制定清晰AI政策,强化人机协作,推动行业持续发展。
39 16
|
12天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
103 21
|
4天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
38 10
|
6天前
|
SQL 人工智能 关系型数据库
【PG锦囊】阿里云 RDS PostgreSQL 版插件—AI 插件(rds_ai)
本文介绍了AI 插件(rds_ai)的核心优势、适用场景等,帮助您更好地了解 rds_ai 插件。想了解更多 RDS 插件信息和讨论交流,欢迎加入 RDS PG 插件用户专项服务群(103525002795)
|
14天前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
14天前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
|
14天前
|
人工智能 供应链 安全
阿里云 Confidential AI 最佳实践
本次分享的主题是阿里云 Confidential AI 最佳实践,由阿里云飞天实验室操作系统安全团队工程师张佳分享。主要分为三个部分: 1. Confidential AI 技术背景与挑战 2. Confidential AI 技术架构与应用场景 3. Confidential AI 技术实践与未来展望
|
13天前
|
人工智能 Java API
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
本次分享的主题是阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手,由阿里云两位工程师分享。
阿里云工程师跟通义灵码结伴编程, 用Spring AI Alibaba来开发 AI 答疑助手
|
机器学习/深度学习 人工智能 自然语言处理
AI和机器学习时代 如何对抗新的网络威胁
需要渗透测试服务出现了一个世纪以来时,在系统的攻击变得频繁。许多公司开始丢失其敏感数据,从而以最坏的方式影响了客户。敏感数据的丢失恰恰是我们何时(以及为什么)看到另一个技术行业兴起的时候。
514 0
AI和机器学习时代 如何对抗新的网络威胁