阿里巴巴未来数据中心网络揭秘

简介: 在2018杭州云栖未来网络专场上,阿里巴巴网络资深架构师团队和一线研发的资深专家们分享了网络最前沿技术在阿里巴巴网络中的部署和应用。 斯坦福大学教授,三院院士 Nick McKeown 先生,作为大会特邀嘉宾,给大会带来了“可编程转发平面”的精彩分享。

网络是阿里巴巴集团基础设施的核心组成部分,承载了整个集团的各项业务。为了满足了业务的多样性,复杂性,业务需求的弹性和敏捷性,以及快速增长等,网络无论对规模、性能、成本,还是对稳定性和智能化运营都有着极高要求。经过过去几年的快速发展,通过引入最新技术和架构的快速迭代,阿里巴巴数据中心网络如今已站在时代之巅,正在引领未来网络技术的发展。

在2018杭州云栖未来网络专场上,阿里巴巴网络资深架构师团队和一线研发的资深专家们分享了网络最前沿技术在阿里巴巴网络中的部署和应用。 斯坦福大学教授,三院院士 Nick McKeown 先生,作为大会特邀嘉宾,给大会带来了“可编程转发平面”的精彩分享。

阿里巴巴高性能智能化数据中心网络

演进之路

阿里巴巴基础设施首席网络架构师蔡德忠

在过去的5-6 年里,阿里巴巴数据中心网络快速完成了标准化和规模化改造,并从一个典型的企业数据中心网络逐渐发展成为单集群5-10万台服务器规模,总带宽达到 PB 级别的超大规模云计算数据中心网络,从软件定义网络逐渐发展成为今天的软硬件一体化的高性能网络,从传统运维发展成以数据和机器学习为核心的自动化智能化运营体系。

image.png

在网络带宽方面,阿里巴巴是中国首家大规模部署 25G数据中心网络的互联网公司,为了支持高性能AI计算和云存储等业务,持续保持业界领先,阿里巴巴数据中心网络在 2018 年已经快速迭代到 100G 服务器接入的网络架构,并开始批量部署。400G 网络目前也已经处在实验室测试阶段,并作为未来网络技术的引领者,阿里巴巴领导行业生态推出 400G QSFP-DD行业标准,受到了生态的广泛支持。

蔡德忠强调,超大规模,高带宽,低延时和成本优化的数据中心网络这些今天的领先优势,将会变成明天大型云计算服务商的基本门槛。真正的核心竞争力将来自于对高性能和智能化两个方面的持续演进和极致追求。在高性能方面,他认为必须通过对数据中心网络软硬件全栈的自主掌控,通过软件和可编程芯片的软硬件一体化,才能真正达到性能的极致,才能做到网络和上层业务的有效适配从而达到更高的业务性能。

image.png

自 2017年以来,阿里巴巴数据中心网络开始全面部署了 25G 和100G自研光模块,基于开源 SONIC 和可编程芯片的自研交换机已经小规模上线运行,和网卡厂商共同研发的流控增强机制已经开始支持大规模 RDMA 的部署。在智能化方面,蔡德忠也分享了阿里巴巴的最新研究和部署成果,包括管理平面,控制平面和转发平面的多维度网络可视化,最新的可编程芯片提供的网络可视化功能,高效的数据获取和本地化的分布式数据处理,以及通过机器学习对故障的自动化发现和定位,通过数据绘制实时的网络流量热力图,从而动态调度业务的流量来提示数据中心网络的总体利用率等。

可编程转发平面

斯坦福大学教授Nick McKeown

Nick McKeown,斯坦福大学教授,美国国家工程院,美国艺术与科学学院、英国皇家工程院 三院院士、开放网络实验室(Open Networking Lab)创始人之一,曾获得英国计算机学会Lovelace Medal奖,IEEE Kobayashi计算机与通讯奖,ACM Sigcomm终身成就奖和IEEE Rice通讯理论奖,同时还有ETH荣誉博士学位。SDN 和 可编程语言P4 的核心发明人之一。

image.png

Nick 教授在大会上做了“Programmable Forwarding Planes are Here to Stay” 的精彩演讲,系统阐述了网络发展的历程,如何从厂商封闭系统,一步步发照到 SDN 软件定义的网络。他强调网络下一阶段发展的重点是采用可编程芯片来支持可编程转发平面,他预计未来5年数据中心交换机芯片都会支持可编程,这是一个必然的趋势。网络必须由终端客户根据自己的业务需要,通过软件编程来灵活控制,而不是通过设备厂商来控制,只有这样才可以达到快速部署,快速迭代的目的,从而增强业务竞争力。

超低延时网络-RDMA 技术

在阿里巴巴的大规模部署

阿里巴巴高级专家,RDMA研发团队负责人唐陵波

阿里巴巴高级专家,RDMA 研发团队负责人唐陵波分享了 RDMA技术以及阿里巴巴 RDMA 的大规模部署经验。

现在,数据中心的AI 应用、高性能计算和云计算的分布式应用对低时延的网络技术和CPU卸载等特性有强烈的需求。RDMA技术可以极大降低网络传输的延迟和CPU负载,能够满足业务应用的需求。RDMA技术最先在Infiniband网络中实现,在以太网中应用RDMA 技术需要引入很多新技术,这些新技术虽然在实验环境有了广泛研究,但是因为技术自身的限制较多,对大规模部署和运维都带来了很大挑战,因此现在业界还少有成功部署大规模RDMA网络的先例。

image.png

阿里巴巴网络研发事业部早在2016年就开始投入到 RDMA的技术研究,从网络架构、研发和运营的角度加以优化,和相关技术团队一起进行技术攻关,保证了大规模RDMA集群的部署和稳定运营。到目前为止,阿里巴巴已经在数据中心网络中大规模部署了RDMA, 成为RDMA技术在互联网应用领域的领头羊。

基于结构化配置与状态描述的

阿里巴巴自动化管控系统

阿里巴巴资深技术专家 林涛

阿里巴巴物理网络拥有数量相当大的传统网络设备。这些设备是采购自多个设备厂商,经过多年积累下来的。当这些设备的规模达到几万台的情况下,通过传统的CLI进行高稳定性和可用性的动态管控和快速调度就成了一个非常大的挑战。稍有不慎,就可能引发大批量阿里巴巴客户都可感知到的重大故障。

image.png

阿里巴巴的基于结构化配置和状态描述的管控就是要帮助运维团队,在管控角度,进一步高效率得提升在动态调度或排障管控下阿里巴巴网络的稳定性和可用性。

通过推进统一的设备管控模式以及管理语言,封装厂商设备型号角色等差异性,从而降低设备管控复杂维度。在这个降维的基础之上,建立一个计算机可见的全网全局视野,然后实现基于意向、模型驱动的管控系统。通过实现在传统网络设备管控上的“软件定义网络”(SDN),使得阿里巴巴网络管控可以与各种现代计算机理论以及应用相结合,最终提升管控的质量和阿里巴巴用户的体验。

机器智能在网络稳定性提升中的应用

阿里巴巴资深数据专家 周宝方

阿里巴巴资深数据专家周宝方在大会上分享了阿里巴巴基于”探测-分析定位-自动修复”三大能力为支撑的网络自愈体系。

image.png

阿里巴巴庞大经济体都是运行在阿里巴巴数据中心网络之上,网络的稳定性至关重要,是多个 “0” 之前的 “1”,靠传统手工人肉方式来运营这张庞大的网络已经不可能,靠基本的自动化脚本来运营也是难以为继。多年来,阿里巴巴一直用大数据思路和实践来有效地管理网络,通过底层芯片迭代、以及机器学习进行有效的数据分析和关联,从而自动发现故障,并精准定位和隔离。这套基于大数据和机器学习的自动化故障发现,定位和恢复系统保障了网络的稳定性,为阿里云客户提供了更高的网络 SLA,也保障了集团双十一等活动。

阿里云网络引擎“洛神”系统揭秘

阿里云高级技术专家孙成浩

阿里云高级技术专家孙成浩在大会上向大家揭秘了阿里云“洛神”系统,洛神是阿里云飞天中负责虚拟网络的系统,它为阿里云客户提供了丰富的网络产品,如VPC、SLB、CEN、智能接入网络等。同时,它也是ECS,RDS,OSS,NAS等100多个云产品的网络基础设施。它还支撑了阿里巴巴集团和蚂蚁金服集团众多业务,如电商、支付、物流等。

image.png

洛神主要经历了四个发展阶段。首先是经典网络阶段,在这个阶段,网络只有一个概念,就是公网带宽,但用户无法自定义网络拓扑。为了解决这个问题, 洛神演进到了vpc阶段。洛神在每个地域虚拟了数百万张网络,并且用户可以完全自定义这张网络。随着网络规模越来越大,洛神也从region网络进入到全球网络的阶段,在这个阶段,洛神主要解决如何更好的管理超大规模网络的问题,云企业网和云接入网构成了第三代洛神的两个主要特性。满足了这些客户的需求之后,洛神也开始思考如何提高用户体验。洛神希望网络对用户是不可见的,洛神的发展,是一个从0到1,到100,再回到0的演进过程,大繁至简,这是我们努力的方向。

image.png

洛神的使命是让网络更简单,洛神以networkless的理念作为设计目标,我们希望用户不再去关心网络拓扑,网络带宽,网络地址,网络在用户感受里面不存在。networkless首先是通过不断的提高弹性和网络的可靠性来达到的,除此之外的关键特性就是NAAS化,让用户只关心网络通,而不需要去关心网络各种组件。

在这次的云栖未来网络专场上,除了有前沿网络技术的介绍,阿里巴巴也透过真实案例的分享,展现阿里巴巴在网络的自主研发方向、过程与研究成果,希望也能藉此发挥阿里巴巴强大的平台引领与生态系统整合力量。

目录
相关文章
|
2月前
|
移动开发 网络协议 测试技术
Mininet多数据中心网络拓扑流量带宽实验
Mininet多数据中心网络拓扑流量带宽实验
61 0
|
4月前
|
边缘计算 负载均衡 5G
边缘计算问题之数据中心内部和外部网络如何解决
边缘计算问题之数据中心内部和外部网络如何解决
32 1
|
5月前
|
运维 负载均衡 监控
|
4月前
|
存储 人工智能 运维
深度解析 | 什么是超融合数据中心网络?
深度解析 | 什么是超融合数据中心网络?
5037 1
|
7月前
|
数据中心 网络架构 Python
【计算巢】数据中心的网络架构设计原则
【5月更文挑战第31天】探讨数据中心网络架构设计原则:稳定性是基础,需抵御各种挑战;强调扩展性,适应业务发展;追求高效,确保数据传输速度;注重灵活性,灵活应对变化。简单Python代码示例展示网络节点连接。设计时需具备长远眼光,综合考虑技术方案,以构建坚固高效的信息桥梁。同学们,要持续学习和探索,为信息世界贡献力量!
94 2
|
7月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化数据中心能效的研究数字堡垒的构建者:网络安全与信息安全的深层探索
【5月更文挑战第29天】在云计算和大数据时代,数据中心的能效问题成为关键挑战之一。本文通过集成机器学习技术与现有数据中心管理策略,提出了一种新型的智能优化框架。该框架能够实时分析数据中心的能耗模式,并自动调整资源分配,以达到降低能耗的目的。研究结果表明,应用机器学习算法可以显著提升数据中心的能源使用效率,同时保持服务质量。
|
7月前
|
人工智能 安全 网络安全
网络安全与信息安全:防护之道探索现代数据中心的能效优化策略
【5月更文挑战第29天】 在数字化时代,网络安全与信息安全已成为我们不可忽视的问题。本文将深入探讨网络安全漏洞的成因,加密技术的应用,以及提升安全意识的重要性。我们将了解到,网络安全并非只是技术问题,更是一种全民参与的过程。 【5月更文挑战第29天】 在数字化转型的浪潮中,数据中心作为信息处理和存储的核心枢纽,其能源效率已成为衡量其可持续性的关键指标。本文将深入探讨现代数据中心实现能效优化的策略与实践,从硬件选择、冷却系统创新、能源管理软件到人工智能辅助决策,揭示如何通过综合手段提升数据中心运行效率,同时减少环境影响。
|
7月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
4月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
7月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。