阿里巴巴未来数据中心网络揭秘-阿里云开发者社区

阿里巴巴未来数据中心网络揭秘

2019-07-31 4147

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在2018杭州云栖未来网络专场上，阿里巴巴网络资深架构师团队和一线研发的资深专家们分享了网络最前沿技术在阿里巴巴网络中的部署和应用。斯坦福大学教授，三院院士 Nick McKeown 先生，作为大会特邀嘉宾，给大会带来了“可编程转发平面”的精彩分享。

网络是阿里巴巴集团基础设施的核心组成部分，承载了整个集团的各项业务。为了满足了业务的多样性，复杂性，业务需求的弹性和敏捷性，以及快速增长等，网络无论对规模、性能、成本，还是对稳定性和智能化运营都有着极高要求。经过过去几年的快速发展，通过引入最新技术和架构的快速迭代，阿里巴巴数据中心网络如今已站在时代之巅，正在引领未来网络技术的发展。

在2018杭州云栖未来网络专场上，阿里巴巴网络资深架构师团队和一线研发的资深专家们分享了网络最前沿技术在阿里巴巴网络中的部署和应用。斯坦福大学教授，三院院士 Nick McKeown 先生，作为大会特邀嘉宾，给大会带来了“可编程转发平面”的精彩分享。

阿里巴巴高性能智能化数据中心网络

演进之路

阿里巴巴基础设施首席网络架构师蔡德忠

在过去的5-6 年里，阿里巴巴数据中心网络快速完成了标准化和规模化改造，并从一个典型的企业数据中心网络逐渐发展成为单集群5-10万台服务器规模，总带宽达到 PB 级别的超大规模云计算数据中心网络，从软件定义网络逐渐发展成为今天的软硬件一体化的高性能网络，从传统运维发展成以数据和机器学习为核心的自动化智能化运营体系。

在网络带宽方面，阿里巴巴是中国首家大规模部署 25G数据中心网络的互联网公司，为了支持高性能AI计算和云存储等业务，持续保持业界领先，阿里巴巴数据中心网络在 2018 年已经快速迭代到 100G 服务器接入的网络架构，并开始批量部署。400G 网络目前也已经处在实验室测试阶段，并作为未来网络技术的引领者，阿里巴巴领导行业生态推出 400G QSFP-DD行业标准，受到了生态的广泛支持。

蔡德忠强调，超大规模，高带宽，低延时和成本优化的数据中心网络这些今天的领先优势，将会变成明天大型云计算服务商的基本门槛。真正的核心竞争力将来自于对高性能和智能化两个方面的持续演进和极致追求。在高性能方面，他认为必须通过对数据中心网络软硬件全栈的自主掌控，通过软件和可编程芯片的软硬件一体化，才能真正达到性能的极致，才能做到网络和上层业务的有效适配从而达到更高的业务性能。

自 2017年以来，阿里巴巴数据中心网络开始全面部署了 25G 和100G自研光模块，基于开源 SONIC 和可编程芯片的自研交换机已经小规模上线运行，和网卡厂商共同研发的流控增强机制已经开始支持大规模 RDMA 的部署。在智能化方面，蔡德忠也分享了阿里巴巴的最新研究和部署成果，包括管理平面，控制平面和转发平面的多维度网络可视化，最新的可编程芯片提供的网络可视化功能，高效的数据获取和本地化的分布式数据处理，以及通过机器学习对故障的自动化发现和定位，通过数据绘制实时的网络流量热力图，从而动态调度业务的流量来提示数据中心网络的总体利用率等。

可编程转发平面

斯坦福大学教授Nick McKeown

Nick McKeown，斯坦福大学教授，美国国家工程院，美国艺术与科学学院、英国皇家工程院三院院士、开放网络实验室（Open Networking Lab）创始人之一，曾获得英国计算机学会Lovelace Medal奖，IEEE Kobayashi计算机与通讯奖，ACM Sigcomm终身成就奖和IEEE Rice通讯理论奖，同时还有ETH荣誉博士学位。SDN 和可编程语言P4 的核心发明人之一。

Nick 教授在大会上做了“Programmable Forwarding Planes are Here to Stay” 的精彩演讲，系统阐述了网络发展的历程，如何从厂商封闭系统，一步步发照到 SDN 软件定义的网络。他强调网络下一阶段发展的重点是采用可编程芯片来支持可编程转发平面，他预计未来5年数据中心交换机芯片都会支持可编程，这是一个必然的趋势。网络必须由终端客户根据自己的业务需要，通过软件编程来灵活控制，而不是通过设备厂商来控制，只有这样才可以达到快速部署，快速迭代的目的，从而增强业务竞争力。

超低延时网络-RDMA 技术

在阿里巴巴的大规模部署

阿里巴巴高级专家，RDMA研发团队负责人唐陵波

阿里巴巴高级专家，RDMA 研发团队负责人唐陵波分享了 RDMA技术以及阿里巴巴 RDMA 的大规模部署经验。

现在，数据中心的AI 应用、高性能计算和云计算的分布式应用对低时延的网络技术和CPU卸载等特性有强烈的需求。RDMA技术可以极大降低网络传输的延迟和CPU负载，能够满足业务应用的需求。RDMA技术最先在Infiniband网络中实现，在以太网中应用RDMA 技术需要引入很多新技术，这些新技术虽然在实验环境有了广泛研究，但是因为技术自身的限制较多，对大规模部署和运维都带来了很大挑战，因此现在业界还少有成功部署大规模RDMA网络的先例。

阿里巴巴网络研发事业部早在2016年就开始投入到 RDMA的技术研究，从网络架构、研发和运营的角度加以优化，和相关技术团队一起进行技术攻关，保证了大规模RDMA集群的部署和稳定运营。到目前为止，阿里巴巴已经在数据中心网络中大规模部署了RDMA，成为RDMA技术在互联网应用领域的领头羊。

基于结构化配置与状态描述的

阿里巴巴自动化管控系统

阿里巴巴资深技术专家林涛

阿里巴巴物理网络拥有数量相当大的传统网络设备。这些设备是采购自多个设备厂商，经过多年积累下来的。当这些设备的规模达到几万台的情况下，通过传统的CLI进行高稳定性和可用性的动态管控和快速调度就成了一个非常大的挑战。稍有不慎，就可能引发大批量阿里巴巴客户都可感知到的重大故障。

阿里巴巴的基于结构化配置和状态描述的管控就是要帮助运维团队，在管控角度，进一步高效率得提升在动态调度或排障管控下阿里巴巴网络的稳定性和可用性。

通过推进统一的设备管控模式以及管理语言，封装厂商设备型号角色等差异性，从而降低设备管控复杂维度。在这个降维的基础之上，建立一个计算机可见的全网全局视野，然后实现基于意向、模型驱动的管控系统。通过实现在传统网络设备管控上的“软件定义网络”（SDN），使得阿里巴巴网络管控可以与各种现代计算机理论以及应用相结合，最终提升管控的质量和阿里巴巴用户的体验。

机器智能在网络稳定性提升中的应用

阿里巴巴资深数据专家周宝方

阿里巴巴资深数据专家周宝方在大会上分享了阿里巴巴基于”探测-分析定位-自动修复”三大能力为支撑的网络自愈体系。

阿里巴巴庞大经济体都是运行在阿里巴巴数据中心网络之上，网络的稳定性至关重要，是多个 “0” 之前的 “1”，靠传统手工人肉方式来运营这张庞大的网络已经不可能，靠基本的自动化脚本来运营也是难以为继。多年来，阿里巴巴一直用大数据思路和实践来有效地管理网络，通过底层芯片迭代、以及机器学习进行有效的数据分析和关联，从而自动发现故障，并精准定位和隔离。这套基于大数据和机器学习的自动化故障发现，定位和恢复系统保障了网络的稳定性，为阿里云客户提供了更高的网络 SLA，也保障了集团双十一等活动。

阿里云网络引擎“洛神”系统揭秘

阿里云高级技术专家孙成浩

阿里云高级技术专家孙成浩在大会上向大家揭秘了阿里云“洛神”系统，洛神是阿里云飞天中负责虚拟网络的系统，它为阿里云客户提供了丰富的网络产品，如VPC、SLB、CEN、智能接入网络等。同时，它也是ECS，RDS，OSS，NAS等100多个云产品的网络基础设施。它还支撑了阿里巴巴集团和蚂蚁金服集团众多业务，如电商、支付、物流等。

洛神主要经历了四个发展阶段。首先是经典网络阶段，在这个阶段，网络只有一个概念，就是公网带宽，但用户无法自定义网络拓扑。为了解决这个问题，洛神演进到了vpc阶段。洛神在每个地域虚拟了数百万张网络，并且用户可以完全自定义这张网络。随着网络规模越来越大，洛神也从region网络进入到全球网络的阶段，在这个阶段，洛神主要解决如何更好的管理超大规模网络的问题，云企业网和云接入网构成了第三代洛神的两个主要特性。满足了这些客户的需求之后，洛神也开始思考如何提高用户体验。洛神希望网络对用户是不可见的，洛神的发展，是一个从0到1，到100，再回到0的演进过程，大繁至简，这是我们努力的方向。

洛神的使命是让网络更简单，洛神以networkless的理念作为设计目标，我们希望用户不再去关心网络拓扑，网络带宽，网络地址，网络在用户感受里面不存在。networkless首先是通过不断的提高弹性和网络的可靠性来达到的，除此之外的关键特性就是NAAS化，让用户只关心网络通，而不需要去关心网络各种组件。

在这次的云栖未来网络专场上，除了有前沿网络技术的介绍，阿里巴巴也透过真实案例的分享，展现阿里巴巴在网络的自主研发方向、过程与研究成果，希望也能藉此发挥阿里巴巴强大的平台引领与生态系统整合力量。