云服务运行安全创新标杆:阿里云飞天洛神云网络子系统“齐天”再次斩获奖项

简介: 阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。

【阅读原文】戳:云服务运行安全创新标杆:阿里云云网络子系统“齐天”再次斩获奖项

引言

 

为认真落实工信部《工业和信息化部办公厅关于印发信息通信网络运行安全管理年实施方案的通知》,2025 年 5 月 30 日中国信息通信研究院于浙江杭州举办了“云服务运行安全高质量发展交流会”,推动正向引导,巩固云服务安全专项治理成果。会上,阿里云“超大规模云计算网络一体化运行管理平台——齐天系统”凭借卓越的技术创新与实践成果,荣获“云服务运行安全创新成果奖”,同时,齐天团队负责人吕彪获评“全栈型”专家认证。此次双料荣誉标志着洛神在我国运行安全领域的技术实力与行业贡献获得权威认可。

 

image.png

 

国家“十四五”规划明确提出了“上云用数赋智”行动,数字经济的转型需要加速上云,而云网络则是支撑普惠上云,实现万物互联的关键。在过去十年间,云网络高速增长,企业上云规模的高速增长给云厂商带来高收益的同时,也对云厂商的技术能力提出了全新的挑战。阿里云云网络团队经过“十年磨一利剑”实现了全面自研的云网络操作系统-洛神,满足了“大规模、多租户、高弹性”的网络性能需求。

 

在满足网络性能需求的同时,云网络的运行管理面临着百万级设备规模、秒级故障发现以及异构设备应急等现实挑战。为此,云网络历经十年,将数据存储、分析处理、建模推理三大网络数据管理技术融合,对设备变更、网络监控以及故障处置三大运行管理场景进行一体化建设,突破了大规模云网络运行管理的四大核心技术,研制了超大规模云计算网络一体化运行管理平台一齐天。本文将为您揭秘洛神云网络的核心子系统-齐天,介绍其是如何保障超大规模云网络的运行安全。

 

 

核心挑战

 

云网络作为云上万物互联的基础底座,为了确保云网络的安全运行,云网络需要一套大规模运行管理系统。整套系统由三大核心运行管理场景以及一套网络数据系统组成,其中三大核心运行管理场景包括设备变更、网络监控以及故障处置,而网络数据系统为三大场景提供了运行管理决策所需要的数据。

 

image.png

图 1 | 大规模云网络运维系统面临的挑战

 

随着“万物上云”时代的到来,云网络的运行管理面临了以下四个方面的核心挑战:

 

1. 管理决策对海量数据的要求与成本控制之间的矛盾。

 

超大规模的云网络设备产生了海量的运行数据,一方面管理决策需要精细数据支撑,另一方面细粒度的数据带来的极高的计算、存储以及查询成本,如何兼顾决策的诉求以及数据的成本是大规模云网络运行管理需要克服的第一个挑战。

 

2. 百万级的设备规模与有限人力间的矛盾。

 

随着云网络规模的发展,网络设备从十万级上升到百万级,租户实例从百万级上升到千万级,带来了极大的人力开销,且在数字化转型过程中会进一步加剧。

 

3. 高动态的网络拓扑与高实时监控要求间的矛盾。

 

云网络是一张高动态的网络,租户通过 OpenAPI 进行每小时近百万次的网络修改,现有网络监控技术的监控策略难以匹配这种超高频的变化,导致监控结果迟滞。

 

4. 强异构多平面的设备形态与高效率全链路的异常检测及恢复间的矛盾。

 

云网络内部由大量形态异构、功能异构的设备组成,运行过程中出现异常严重依赖不同设备的专家工程师人工排查及处置,排查效率低故障恢复慢。

 

 

关键技术

 

为了解决这些挑战,齐天采用“数智融合,运维一体”的思路,通过将数据存储、分析处理、建模推理三大数据管理技术融合;升级维护、网络监控、故障应急三大运维场景一体建设的方式研制了数智融合的一体化大规模云网络运维系统,系统整体架构如图 2 所示。

 

image.png

图 2 | 数智融合的一体化大规模云网络运维系统

 

 

系统整体包含数据管理、升级维护、网络监控以及故障应急四个核心模块,其中数据管理模块是运维系统的核心数据底座,支撑上面的不同运维场景;升级维护虽然是网络运维中的常规动作,受益于洛神云网络的 SDN 架构以及租户对于云网络功能需求的日益增加,云网络软硬件设备经常处于高频的升级变更过程中,因此齐天研发了无人值守的变更框架来解决云网络高频变更过程中的各类挑战;网络变更完成后,网络监控模块需要对变更后的云网络进行全面的监控来发现网络可能的异常状态;当监控系统发现异常后,为了尽可能降低租户受到网络异常的影响,齐天研发了全链路网络自愈技术来进行快速的故障应急。下面将分小节对每个核心技术模块进行深度介绍。

 

1. 数智融合的高性能网络运维数据管理技术

 

针对管理决策对海量数据的要求与成本控制间的矛盾,齐天通过数智融合的高性能网络运维数据管理技术,将海量多模态的网络数据统一存储,基于云原生的无状态分析引擎进行高性能处理,从时空多维度进行网络知识建模,实现了 PB 级海量多模态网络数据的高效率存储,千万级虚拟网络资源的批量建模以及毫秒级高性能网络数据分析。

 

基于该技术,齐天针对网络运维数据的查询性能提升 50% 以上、单平台数据存放规模可达 PB 级、无状态分析引擎每秒实现 300 万条流式数据处理、网络对象知识节点数超 1000 万个,为各种运行管理决策提供了基础知识模型。

 

2. 多租户动态编排的无人值守网络变更技术

 

针对百万级的设备规模与有限的人力间的矛盾,齐天设计并研发多租户动态编排的无人值守网络变更技术,通过面向多租户的超高维度动态任务编排、基于微集群高速缓存的高性能任务下发以及主被协同的多指标结果评估算法来实现百万级网络设备的无人化零损变更,极大地提升了管理效率,降低了人力投入。

 

image.png

图 3 | CloudPlanner: Minimizing Upgrade Risk of Virtual Network Devices for Large-Scale Cloud Networks(IEEE INFOCOM 2024)

 

通过无人值守网络变更技术,齐天实现了全网千万级的租户维度指标预测及拟合建模,变更影响范围相比之前缩小 90%,变更触发网络故障减少 50%,变更异常的影响时长缩短 45%。

 

3. 意图感知的自适应高精度网络监控技术

 

针对高动态的网络资源与高实时的状态监控间的矛盾,齐天提出了以基于用户意图的虚拟网络测量技术为基础,通过机器学习对网络测量数据进行智能预测,从而实现高敏高精网络预警的能力,将网络的监控精度提升到报文级,时间精度提升到毫秒级,流量监控提升到实例级,预警精度提升到用户级,克服了由于多租户高动态给监控的精度和准确性带来的挑战。

 

image.png

图 4 | Zoonet: A Proactive Telemetry System for Large-Scale Cloud Networks(ACM CoNEXT 2022)

 

基于高精度网络监控技术,齐天覆盖率全网千万级的访问路径,采集精度提升到毫秒级,算法召回率达 93%,大幅提升阿里云网络预警能力。

 

4. 基于多平面异常检测的全链路自愈技术

 

针对强异构的网络设备与高效率的异常检测及恢复间的矛盾,齐天创新性地提出了基于多平面异常检测的全链路自愈能力,综合利用形式化验证以及可视化诊断来实现网络异常的全链路检测,通过对检测结果训练建设网络异常库,从而实现异常的快速分类和定位。针对大流量异常,采用可编程网卡辅助的流量反压实现快速自愈;针对分布式设备异常,采用软件调控流量调度的方式进行快速逃逸。

 

image.png

图 5 | CloudSentry: Two-Stage Heavy Hitter Detection for Cloud-Scale Gateway Overload Protection(IEEE TPDS 2023)

 

全链路自愈技术覆盖了物理层、虚拟层、租户层三个网络平面,异常误报率下降 90%,故障处理时长缩短至分钟级,大幅提升了网络异常的决策和处置效果。

 

 

总结展望

 

经过近十年的发展,齐天已经在阿里云大规模商业化应用,管理着千万级的网络实例,为阿里云数百万客户提供了高质量的网络服务,护航了二十大会议、建党 100 周年、巴黎奥运等国内外重大活动。齐天自主研发的数智融合的高性能网络运维数据管理技术、多租户动态编排的无人值守网络变更技术、意图感知的自适应高精度网络监控技术、基于多平面异常检测的全链路自愈技术等整套成果获得授权发明专利 40 余项,发表国际高水平论文 20 余篇。经国际权威评测机构 Gartner 2021 年评测,基于齐天构建的 NIS 产品是全球唯一获得网络性能可视化能力评分的云网络产品。

 

面向未来,齐天将持续深化"数智融合、运维一体"战略布局,以构建新一代智能云网络为目标,通过 AI 与网络运维的深度协同,聚焦自进化网络架构与意图网络引擎等领域,力争打破传统被动响应模式,打造具备闭环自治能力的智能网络体系,实现全网状态实时感知与动态调优,让用户业务需求到网络策略能够智能转化,最终形成从环境感知、故障预判到策略生成、自主执行的完整决策闭环。

 

齐天矢志成为智能时代的网络基础设施革命者,让每一比特数据流动皆创造价值。我们将持续践行“让网络更简单”的使命,推动云网络运维技术的创新发展,追求更高的网络稳定性、更好的用户体验、更低的运维成本。



 


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
5月前
|
供应链 安全 网络协议
|
5月前
|
边缘计算 安全 算法
阿里云CDN:构建全球化智能加速网络的数字高速公路
阿里云CDN构建全球化智能加速网络,拥有2800多个边缘节点覆盖67个国家,实现毫秒级网络延迟。其三级节点拓扑结构与智能路由系统,结合流量预测模型,确保高命中率。全栈式加速技术包括QUIC协议优化和Brotli压缩算法,保障安全与性能。五层防御机制有效抵御攻击,行业解决方案涵盖视频、物联网及游戏等领域,支持新兴AR/VR与元宇宙需求,持续推动数字内容分发技术边界。
360 13
|
4月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
150 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
6月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
224 63
|
4月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
696 2
|
6月前
|
存储 人工智能 运维
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
超大规模云网络技术新突破!阿里云斩获中国自动化学会科技进步一等奖
262 60
|
5月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
223 6
|
6月前
|
弹性计算 运维 监控
阿里云操作系统控制台解决网络故障
阿里云操作系统控制台是一款功能强大、操作便捷的云服务器管理平台,专为用户提供高效、智能的运维体验。它不仅支持服务器的创建、配置和监控,还集成了智能诊断、自动化运维和资源优化等高级功能,让云服务器管理变得更加轻松高效。通过直观的界面和丰富的工具,用户可以便捷地管理多台云服务器,实时监控系统性能,并快速定位和解决故障。例如,控制台的智能诊断功能能够自动分析系统异常,并提供优化建议,帮助用户迅速恢复服务。除此之外,控制台还支持批量操作、权限管理和日志分析,充分满足企业级用户的需求。无论是个人开发者还是大型企业,都可以借助阿里云操作系统控制台提升运维效率,降低管理成本,确保业务稳定运行。接下来就让我们
238 17
|
6月前
|
缓存 边缘计算 安全
阿里云CDN:全球加速网络的实践创新与价值解析
在数字化浪潮下,用户体验成为企业竞争力的核心。阿里云CDN凭借技术创新与全球化布局,提供高效稳定的加速解决方案。其三层优化体系(智能调度、缓存策略、安全防护)确保低延迟和高命中率,覆盖2800+全球节点,支持电商、教育、游戏等行业,帮助企业节省带宽成本,提升加载速度和安全性。未来,阿里云CDN将继续引领内容分发的行业标准。
381 7

热门文章

最新文章