超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖

简介: 阿里云携手浙江大学、上海交大联合攻坚的超大规模云网络技术及应用成果,斩获中国自动化学会(CAA)科技进步奖一等奖。该成果实现了超大规模云网络调控技术的高性能突破,将十万级任务配置下发提升至秒级的超高水平,填补了该项技术的国内空白。

【阅读原文】戳:超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖

中国自动化学会近日公布了2023年度科学技术奖获奖名单,阿里云携手浙江大学、上海交大联合攻坚的超大规模云网络技术及应用成果,斩获中国自动化学会(CAA)科技进步奖一等奖。该成果实现了超大规模云网络调控技术的高性能突破,将十万级任务配置下发提升至秒级的超高水平,填补了该项技术的国内空白。由院士和专家组成的科技成果鉴定委员会评价本技术:该项目技术复杂,研制难度大,技术创新性强,是我国在云计算网络领域赶超世界先进水平、构建自主生态的成功实践和重大成果。

 

图|阿里云斩获中国自动化学会(CAA)科技进步奖一等奖

 

 

 

奖项介绍

 

 

中国自动化学会(CAA)是中国最早成立的国家一级学术群众团体之一,于1961年由著名航天科学家,中国科学院、中国工程院资深院士钱学森创立,每年评选一次CAA科学技术奖,包括科技进步奖、自然科学奖和技术发明奖等,其中优秀成果可进一步推荐进入国家科技进步奖评审,奖项意义重大。其中,CAA科技进步奖需满足技术创新性突出、经济效益或者社会效益显著、推动行业科技进步作用明显等条件,是我国自动化领域最权威的奖项之一。

 

 

研究背景

 

 

随着大模型的出现,AI技术迎来了新的一轮爆发,随之而来的是AI技术“三要素”算法、算力以及数据的激增。相比传统应用,AI技术从模型训练到实时推理都会带来海量的数据流动,而如何确保这些数据在网络中高效高质按需的传输,需要一套超大规模超高性能的网络控制技术。然而,网络控制技术,尤其是大规模云计算网络控制的关键技术,早期由国外高校及企业提出,并长期由国外厂商和机构垄断。为此,阿里云联合浙江大学以及上海交通大学历经10余年,打造了超大规模云网络新型超高性能调控关键技术,并且在阿里云大规模部署应用,相关成果发表在国际网络领域旗舰会议NSDI(Networked Systems Design and Implementation)上,打破了该领域在学术界以及工业界的垄断。

 

 

技术突破

 

 

针对AI训练高吞吐、AI推理高实时以及AI应用迭代快的要求,本项目以智能动态为核心指导思想,针对性地开展超高性能云计算网络调控系统及应用研究。

 

1. 创新提出海量网络数据管理平台,可实现网络数据高性能写入、存储以及查询,大幅提升系统决策效率;

 

2. 设计毫秒级高性能配置演算引擎,实现动态复杂网络配置的实时演算;

 

3. 提出大规模高可靠配置下发技术,大幅提升十万级大规模任务配置效率,做到秒级下发、分钟级校验;

 

4. 引入多模态网络异常检测机制,首次实现零侵入的应用层网络异常在线诊断,配置自愈大幅提升至分钟级。

 

图|超大规模云网络调控关键技术架构

 

 

 

“网络是数字经济的高速公路,网络技术的每一次突破都带动了数字社会的前进。从十年前的云计算兴起,到如今的人工智能爆发,我们始终专注在云计算网络,并且联合国内外顶尖学者研究研制新型技术,最终打造出了洛神云网络技术体系。此次获奖,不仅是洛神针对AI场景下大吞吐高实时网络控制的应对之道,也是洛神自身数字化智能化的践行之路。面向未来,洛神将继续突破创新,打造简单易用的智能云网络服务,支撑全球数字化转型,加速推进AI时代到来。”阿里巴巴研究员、阿里云智能云网络负责人祝顺民说。

 

 

总结

 

 

本次获奖是阿里云洛神云网络继2021年浙江省技术发明一等奖、2021年CCF技术发明一等奖以及2023年CCF技术发明二等奖后第四次荣获高水平奖项。作为阿里云飞天操作系统的核心子系统,洛神云网络支撑了阿里巴巴集团核心业务,并成功服务全球400万+客户,覆盖在线教育、金融、零售、制造业等众多行业,在超高性能网络转发、超大规模网络控制、超高精度网络观测等核心方向均取得了突破。近几年,洛神的相关工作发表在SIGCOMM、NSDI、INFOCOM、MobiCom等国外顶级会议上。自2020年以来,阿里云在SIGCOMM/NSDI两大通信领域顶会已累计发表论文数十篇,并在2022年权威机构AMiner公布的AI 2000人工智能最具影响力榜单中,跻身全球十大计算机网络研究机构。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
3天前
|
Kubernetes 监控 安全
Kubernetes实战:集群管理与自动化技术详解
【6月更文挑战第27天】Kubernetes实战聚焦集群自动化管理,涵盖核心概念如主从架构、API Server及工作节点,强调自动扩缩容、RBAC安全控制与日志监控。通过IaC工具如Helm实现配置自动化,结合Prometheus等进行持续监控,强调安全策略与资源优化,展现K8s在现代应用管理中的威力。
|
2天前
|
JSON 数据可视化 API
技术心得:如何用Python和API收集与分析网络数据?
技术心得:如何用Python和API收集与分析网络数据?
10 2
|
2天前
程序技术好文:计算机网络(九)——STP原理
程序技术好文:计算机网络(九)——STP原理
|
3天前
|
机器学习/深度学习 安全 网络安全
云计算与网络安全:技术融合下的安全挑战与对策
在数字化浪潮的推动下,云计算服务已成为企业和个人存储、处理数据的优选方案。然而,随着云服务的普及,网络安全问题也愈发凸显。本文将深入探讨云计算环境下的网络安全挑战,并基于最新的科学研究和统计数据,分析信息安全领域的应对策略。文章旨在为读者提供一套科学严谨、数据支撑的安全框架,以保障云计算环境中的数据安全。
|
1天前
|
机器学习/深度学习 人工智能 监控
探索自动化测试的前沿技术与实践
在软件开发周期中,自动化测试已成为确保软件质量和效率的关键因素。本文旨在探讨自动化测试的最新技术和实践方法,通过分析当前行业内的最佳实践和面临的挑战,提供一系列针对性的策略和建议。我们将深入讨论如何有效集成自动化工具、优化测试流程、以及提升测试覆盖率和精确度。文章结合了权威的数据支持和技术分析,旨在为读者提供实用的指导和见解,帮助他们在不断变化的技术环境中保持竞争力。
8 0
|
1天前
|
存储 安全 网络安全
云计算与网络安全:技术融合与信息保障
随着信息技术的快速发展,云计算作为一种革命性的计算模式已经深入各行各业。然而,云计算的普及也带来了网络安全的挑战,如何在信息共享和隐私保护之间找到平衡成为了云计算发展的关键问题。本文探讨了云服务的技术特点、网络安全的挑战及其解决方案,以及信息安全在这一背景下的重要性和实施策略。
9 0
|
3天前
|
程序员 API 计算机视觉
技术经验解读:【python自动化】02.pywin32库自动操作键鼠(保姆级代码注释)
技术经验解读:【python自动化】02.pywin32库自动操作键鼠(保姆级代码注释)
|
3天前
|
机器学习/深度学习 并行计算 算法
技术经验解读:《人工神经网络》第9章遗传算法原理
技术经验解读:《人工神经网络》第9章遗传算法原理
|
3天前
|
机器学习/深度学习 网络协议 C语言
程序技术好文:网络编程中的SIGPIPE信号
程序技术好文:网络编程中的SIGPIPE信号
|
3天前
|
存储 缓存 网络协议
技术笔记:socket网络实现
技术笔记:socket网络实现

热门文章

最新文章