大道至简,提升企业上云的网络体验 | 2023阿里云峰会·粤港澳大湾区

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
私网连接 PrivateLink,5万GB流量 1.5万小时实例时长
全球加速 GA,每月750个小时 15CU
简介: 6月1日,阿里云峰会·粤港澳大湾区在广州召开,在企业上云与飞天云上创新分论坛,云网络产品线产品总监孙成浩就云网络发展以及阿里云飞天洛神云网络产品体系创新和思考进行了详细阐述

历经十多年的发展,云网络越来越呈现两面性,产品功能越来越丰富的同时,使用管理越来越复杂;如今需要回归云网络技术的初心,满足企业上云对云网络的最本质和最基本的需求

6月1日,阿里云峰会·粤港澳大湾区在广州召开,在企业上云与飞天云上创新分论坛,云网络产品线产品总监孙成浩就云网络发展以及阿里云飞天洛神云网络产品体系创新和思考进行了详细阐述

JAK03893-opq455029022.jpg

孙成浩认为,云网络历经十数年的演进和发展,如今需要回归云网络技术的初心,满足企业上云对云网络的最本质和最基本的需求,即让网络更简单,包括

  • 自适应弹性:云网络产品服务需要更加智能的适配企业业务发展变化,减少架构变更;而建立在阿里云飞天洛神云网络极致性能基础之上的自适应弹性,为客户提供全托管的极致网络体验,助力客户更从容应对诸如互联网应用、云原生应用以及物联网应用的快速业务变化。
  • 深度可观测:云网络产品和服务需要提供更加系统化和数字化的管理工具,简化客户对于云上网络的管理,通过可持续的“观测 -> 判断 -> 优化-> 再观测”,把云网络的黑盒一点点打开,让云上的虚拟网络运维管理更加简单和高效。
  • 全面自服务:借助飞天洛神云网络自动化、智能化等原生能力,简化复杂组网和全球化组网效率,同时不断收敛产商品模型,简化云网络使用,让复杂的建网-用网-管网都能实现部分自动化,让云上网络的全面自服务成为可能。

三七游戏网络架构负责人吴进阳先生受邀参加,分享三七游戏在业务高速发展以及全球化布局过程中,全球云网络的建设实践经验以及自身的思考。

JAK03946-opq455074690.jpg

三七游戏隶属于三七互娱,是全球领先的游戏研发机构和业内创新型游戏研发标杆,国内游戏出海的先锋企业,在SLG、MMORPG、卡牌三条赛道形成专业化布局,并发布一系列令人瞩目的精品游戏;为支撑公司全球化的业务布局,三七游戏致力于建立一张更加稳定,弹性,简单,可视的覆盖全球的游戏业务内网。√ 借助阿里云网络的转发路由器(TR)和云企业网(CEN),三七游戏实现了分钟级建网的能力。√ 基于数据处理(DP/LCU)模型的弹性应用型负载均衡(ALB),三七游戏可以快速开展海外展业。

√ 通过跨域云数据传输(CDT)的按量计费能力,跨域成本相比按带宽的方式,降低了30%以上。

吴进阳认为,三七和阿里云网络过去两年多的合作历程是一个双向奔赴的过程:一方面,阿里云网络为三七的业务保障和高速增长提供了必要支持和可靠的承诺;另一方面,三七的高速发展和复杂的业务挑战也给阿里云网络的产品服务带来了很好的创新契机。比如转发路由器(TR)和应用型负载均衡(ALB)等,可以提供灵活的全球大规模组网,大规格的SSL证书的卸载,以及和高防包配合按需按量使用,这些都可以极大的助力三七业务的快速发展。


以下为孙成浩演讲实录精简,约7000字(全文读完约15分钟):

大家好,我是阿里云网络的产品经理孙成浩,很高兴再次来到广州,和大家分享一下洛神云网络一年来的变化和思考。我们这次峰会的主题叫为创新提速,我也深以为然。我们做云网络也有十多年了,华南的客户一直是伴随着我们云网络的创新和成长,包括很多新产品的创新孵化

我今天的分享主题叫做“大道至简,提升企业上云的网络体验“,我想不去着重介绍我们的这些产品的创新,而是为大家分享一下,这一年来我们产品设计思路上的一个比较大的变化,以及变化背后的思考。

                                  始终围绕企业上云,云网络不断发展演进

首先,我还是想先整体回顾一下云网络的发展历史,其实飞天洛神云网络的发展历史,也适用于几乎所有做云计算和做云网络的厂商。

image.png

我们认为,云网络主要经历了三个阶段:云网络的1.0、2.0、3.0。云网络1.0,这个阶段完成了客户上云对于云网络最基础的需求,即最基本的连通性,包括应用交付,网络隔离,网络可管理,网络可以访问互联网以及网络可以构建混合云等。这个阶段里面,云网络中出现了vpc,eip,slb,ec这几个最核心的产品,当前我们单Region可以容纳超百万VPC,全球也已经服务超千万VPC实例规模接下来伴随着全球化的趋势,企业应用的全球化把云网络推进到了2.0阶段,这个阶段里面,云网络从局部区域的客户网络向全球互联的客户网络演进,这个阶段中的产品以云企业网和GA为核心,同时也出现了跨地域门店互联的SDWAN类产品。

云网络3.0,衍生于新的技术趋势,例如云原生和物联网。万物互联也带来了对云网络的新的挑战,除了连接的类型和性能的挑战,还有管理复杂度的挑战。这个阶段里面出现了新的负载均衡的类型,比如应用型负载均衡(ALB)和网络型负载均衡(NLB);出现了各种不同连接类型的产品,连接物联网终端云连接器(CC,连接SAAS应用的私网连接(PrivateLink),以及连接丰富三方网元的转发路由器(TR)等。

回过头来,我们看到十年里面,云网络从一个非常简单的VPC变成了现在十几个以上的产品,云网络在不断满足客户上云需求的同时,变得越来越复杂,产商品数量越来越多,产品使用条件也越来越多,这里我把它叫做云网络发展的两面性;个很有意思的比喻,就像机房里面的网线,随着机房使用时间越来越长,网线连接变得越来越复杂,卷在一起分不清楚。因此,我们觉得,到了回归本心的时候了,我们需要通过产品的演进,回归到简单易用的智能云网络的本心。

                              极简云网络服务,打造上云企业极致网络体验

我们在想,云网络它本身追求的应该是什么?其实在开始做云网络的时候,我们就有一个原则,或者说一个愿景“让网络更简单”但是回顾发现这么多复杂的产品,可能会产生一个疑问,就是我们距离这个愿景看似越来越远,这就是我接下来想为大家重点分享的思考;我们在云网络的3.0阶段里面重点去打造的简单易用的智能云网络的这套产品技术体系。

image.png

左下角是洛神云网络的产品体系的大图和主要产品,实际上也是几乎所有做云网络的厂商都在构建的一套产品体系:从云上的网络能力,到云间的网络互联能力,到上云的网络能力。在云网络3.0中,我们在原有的产品体系的基础上,通过自适应弹性,深度可观测和全面自服务三个维度来实现云网络服务的简单易用,优化客户的上云体验。

首先,在这套网络能力的基础产品上面,去构建一个自适应的弹性,以面向serverless应用范式的演进趋势这里面有两个关键点:第一个关键点是性能,高性能,大规模等要逐步的升级,高并发要逐步的提高;另外一个就是要把性能赋能给我们的每一个客户,这代表了相当的技术门槛。

其次,面向云边端一体的整套全球化的网络体系,如何去思考和构建它的可观测性?刚才存储的分享中讲了一个关键的容灾能力,其中提到了当发生网络故障时容灾很重要,其实网络故障基本上是所有故障里面首先会去质疑的关键点;比如说办公这个投屏,如果说出现了质量差或者中断的时候,下面可能都会弹出一行小字,提示这个网络出了问题。所以可观测是我们去解决这些相应问题的关键的手段,这里面也有两个部分,第一个部分是相当于在原有的传统的网络监控的基础之上,我们提供更深一步的观测能力。另外一个就是在网络产生的丰富的数据的基础之上,我们提供深度的分析,以及直接给到用户的诊断能力,以帮助用户更方便的去提升网络运维的效率。

最后,我们还有一个比较长远的目标,就是提升网络的自服务能力全面自服务其实意味着:第一,整个网络的产商品要足够的简单,所以简化和收敛网络的产商品模型是我们要做的第一步,也是最为基础的一步。我们推出了两个或者叫两类非常关键的商品模型,一个就是云数据传输(CDT),另外一个是网元的计量模型数据处理(DP);第二,我们会把网络里面最难的或者是最复杂的网络的配置,给它做一个简化我们认为在网络里面最难和最复杂的就是全球化的网络构建,而这一块一直是阿里云网络非常领先的地方。17年我们发布了云企业网(CEN), 在去年对它进行了全新的升级,给它赋予了更强大的自动化组网的能力。

接下来我会围绕这三个点:自适应弹性、深度可观测以及全面自服务来进行展开。

01

自适应弹性,简化网络架构,减少规格调整

关于这个,我想先分享一个小故事,有一次我们在举办一个沙龙的时候,和同事一起到附近的餐馆就餐,同事推荐说旁边这个菜馆非常不错,上菜也快,不会耽误行程,然后我们就去了,结果上菜时间让我们等了很久。那为什么没有那么快呢?我们分析了一下,其实原因也非常简单。因为他昨天吃饭是3个人,而且是非就餐高峰期,但我们今天去了8个人,店内也已经有一些就餐者,这背后的差异实际上代表的就是弹性,也代表了到底有没有可能用一个低成本的方式来实现这样的弹性。

image.png

那弹性讲的是什么呢?其实核心也是一个简字,简化客户对于网络的使用,让客户的网络架构不需要因为业务的变化而去频繁的调整。

| 飞天洛神云网络极致产品性能,释放给客户极致体验

第一,我们认为它有一个重要的基础,就是网络的极致性能,其实云网络几年里面一直持续的围绕着应用的演进去优化我们的性能。像全球化的趋势,实际上使得网络的这个规模要有一个非常大的变化。比如说全球你到底能支持多少个网络来做一个互联。云原生的网络实际上带来了网络满足海量新建访问的需求,物联网有海量的并发设备;所以其实大家看到客户的需求在应用的具体的场景下面,带来的是产品的一个个的非常高性能、高并发的创新,如千级别的vpc互连规模,百万级别的请求处理,亿级别的并发连接而在这些产品能力指标的背后,是整个飞天洛神技术栈所积累的技术能力,包括软硬一体的SDN技术, 弹性灵活的NFV网元技术,以及基于海量网络数据的智能云网络运维系统。整套技术体系支撑了我们的高性能,能够让客户享受到这些应对峰值的能力,可以比较安全的迁到云上来。

| 全面支持按量弹性,支撑应用serverless化

第二,是能否给每个客户极致的性能,也就是自适应弹性其实自适应弹性并不是网络的一个特定能力,它应该是整个云计算的一个能力。因为本身客户的业务一定是有波峰和波谷的,但是传统在使用网络或者说我们在线下使用网络的时候,我们购买带宽,购买设备,在云上对应的就是带宽和规格。但在这种使用方式下,很容易出现成本的浪费和业务的受损。

image.png

我们再看一下在云网络里面提供的自适应弹性的能力,实际上就是我们按流量和CU(Capacity Unit)提供的,也就是我们的DP模型,这个模型和客户的业务是完全拟合的。这样的话,针对客户应用的任何变化都不需要再去关心网络资源是否足够。近几年我们在云上看到了非常多的客户,就是因为网络规格打满的影响,最后对业务产生一个比较大的伤害。比如我们有一个客户是做网约车的业务,刚好是在一个周五的下午,下班高峰期,然后又刚好碰到了下雨,订单量暴涨,用户使用的一个网络产品的规格很快打满,而打满后没有得到及时的调整(其实没有预测到这样的一个意外的峰值变化),最终导致可能不仅仅是用户的损失,也是对客户品牌心智的影响。

回过头看一下,我们释放了什么样的能力?

从我们的底层的流量相关的产品,CDT, 我们的跨域、公网、出云;以及在这基础之上的网元类型的产品,NAT、LB、TR、GA等都全面支持按量的能力。我们把自适应的弹性释放到我们的所有的产品实例里,这意味着即使一个小用户也可以从我们的产品里面获取和大客户一样的能力,比如从我们的ALB产品上面获取到百万QPS的能力,这个是我们想在自适应弹性,在支持serverless化这样的一个逻辑里面重点去给大家分享的。

image.png

助力映云打造全球物联平台,支持超一亿设备并发上云映云科技EMQ,致力于提供从边缘到云端的一站式物联网方案,连接和处理数以亿计的物联网设备,并通过SaaS化的MQTT平台为中国和海外的客户服务,可以支持一亿级别以上的并发设备的连接和上云。同时面向物联网场景的高并发和低成本的弹性挑战下我们还提供了按量付费(根据实时的连接数付费)的能力,因此很多映云的客户物联网设备在离线的时候,实际上不会在云上产生任何的费用,相对于传统集群部署,客户整体的成本优化40%以上。


02

打造全局的云网络可观测性,简化网络管理

接下来是深度可观测,深度可观测的关键也是一个简字,简化网络管理。管理大师德鲁克有一句话很经典,无法衡量就无法优化,这个放到云网络也是一样的。只有把网络的全方位的数据做到可观测,才能不断地优化-验证-再优化,才能把网络这个黑盒子一点一点打开,最终简化网络管理

也是为了达到这个目标,洛神云网络在去年推出了网络智能服务NIS这个产品,并且根据客户需求不断优化产品能力,接下里我会用具体操作录屏的方式来给大家分享在深度可观测角度洛神云网络构建的能力。

image.png

NIS这套可观测体系,源自于我们在维护洛神云网络服务十多年里,沉淀下来的产品技术和实践经验。以前在讲双11的时候,我们宣传过一个概念叫做“1-5-10”,这个可能做运维的同学应该非常了解,就是1分钟发现、5分钟定位、10分钟恢复。我们在考虑可观测性整体构建的时候,也是去参考了相应的一个逻辑。

我们期望的是从发现问题到定位问题到诊断问题,都能够提供相应的工具,让用户可以更简单的使用和管理网络

首先,在监控网络的角度,我们提供一个全网质量的监控我们期望用户通过质量大盘快速获取到云内和边界的网络延时信息。例如,用户可以通过NIS控制台的区域内质量大盘,获取到同一AZ内和AZ间的实时延迟和历史延时曲线,也可以通过区域间质量大盘获取区域间同样的信息:通过选取多个区域,获取fullmesh的区域间延时信息用户也可以通过公网大盘,获取到某个区域的互联网接入覆盖全球的延时等,帮助大家去做源站的选址规划。

其次,在监控之外,我们还提供一个增强能力,叫事件通知中心。因为整个网络的接入实际上还是非常复杂的,尤其是在全球化的网络接入里面,中间可能会经历过非常多的运营商,所以我们提供了事件的主动通知的能力,把这些我们能够捕捉到的包括我们的事件,以及运营商相应的事件,主动通知客户,这样的话客户可以对事件做应急处理。用户的网络事件我们简单分成了两类,一类是问题,这代表了事件已经影响了用户的业务,比如业务超限等;一类是风险,这代表当前事件还未影响业务,但未来长期可能成为问题。用户可以简单的通过事件中心的问题和风险详情,获取到事件的详细信息

| 深度流量分析结合主动实例诊断,加速网络异常定位和恢复

有了监控之后,就可以做一些对于网络数据的分析,我们也提供了一个深度的流量分析的能力。深度流量分析解决什么问题呢?

image.png

深度流量分析可以告诉你,在你的这个账号下面的所有相关的网络路径(公网,专线的,跨地域)里面到底是哪些IP在跑,以发现流量中的使用大户(我们称为“流量刺客”),一方面可以帮你解决网络里面可能的一些故障,另一方面可以帮你优化你的网络流量模型;例如,在NIS的流量分析的选项里面,客户可以选择公网流量,既可以从实例,来源到五元组逐级下钻分析流量多少,也可以直接对客户的所有五元组排序,获取分析信息。

再往下是一个主动的故障诊断的能力大家可以把一个网络实例ID输入进去,然后就类似于我们在桌面上的健康诊断的能力,就可以获取到我们一条一条的逐项的诊断项,并且会把异常报给你。比如说你输入一个负载均衡,你还可以下探到这个负载均衡后端挂载的服务器的健康情况,这样的话就可以帮助大家加速诊断的过程。

这样,结合了观测,诊断和恢复的能力,我们期望可以极大简化用户管理网络的成本。

image.png

                            助力某跨国零售集团打造高效的全球网络运维平台

我们有一个跨国的零售客户,它在全球非常多的国家都有分支,所以它的背后有一张很大规模的网络。它在管理这种规模网络的时候,实际上就有很多痛点,因此它构建了内部的运维系统。通过集成NIS的内置API, 可以方便的掌握全球网络的状况,同时基于NIS提供的故障定位功能,定位时长缩短了95%。

03

打造云网络的全面自服务,让云上网络简单易用

最后回到我们的本心,全面自服务。全面自服务也是突出一个简字,只有云上网络服务足够的简单易用,才能让全面自服务成为可能。包括2个点:第一,整个网络产商品的模型,我们去做简化和收敛。第二个点的话就是在全球化的组网里面,我们去进行相应的一些自动化的优化。

image.png

| 产商品足够简单,降低用户理解网络产品的成本

云网络虽然产品非常多,但其实我们可以把它分为两大类:一类是流量,一类是网络功能,或者叫网元。

针对流量,我们看到像EIP、SLB、共享带宽,以及ECS等其它云产品的上面都会有流量的概念。同时像TR、VPC Peering、GA上面都会有跨域流量的概念。但是在我们原有的产商品的模型里面,是每一个商品上面都会有一个相应的带宽或者流量的模型,非常复杂。这一次我们就用CDT这样的产品(它分为两个:公网CDT,跨域CDT)来收编相应的产品上面的公网和跨域的产品能力,这样客户只需要理解一个CDT就足够了。同时,CDT还支持阶梯计费的能力,达量即可降价,进一步降低客户的使用成本。我们目前也是国内的厂商里面唯一一家支持跨域按量付费的厂商,让大家对跨域这一块有一个非常低门槛的使用成本。下一步,为了鼓励开发者上云,CDT会推出每月前10G流量永久免费的能力

针对网元,虽然网元的类型比较多,但是网元里面的计量的原子能力反而是比较单一的,比如说处理了多少流量,多少并发连接,有多少新建连接等。所以我们抽象了DP这个数据处理的计量模型,用CU这样的一个计量单位收编网元上面所有的商业的计量的模式,将SLB、NAT、TR、GA等网元统一使用DP来售卖并且,各种网元接下来也会陆续支持Saving Plan和阶梯计费,进一步降低用户使用网元的成本。

| 全球化云网络快速构建,灵活调度,深度管理

简化产商品之外,回到易用的角度,快速构建全球化云网络一直是我们的演进思路

image.png

第一个是我们传统所最擅长的能力,是我们的云企业网。通过云企业网可以不需要对路由做非常复杂的配置,就可以自动帮助用户一键的构建一张全球的云上网络。但是也有很多用户希望可以更灵活的去调度流量,我们为此在CEN2.0里面提供了网络自定义编排的能力,通过自定义的多路由表的配置,可以把传统的三方网元也引入到我们这张网络里面来,把线下的这个网络架构完全搬到云上来。最后,云企业网代表了用户跨域的流量,我们在整体的模型里面也提供了深度的可观测性的能力,实现了云企业网的流日志功能,同时还可以和SLS进行配合,获取到更深度的流量的分析能力。

                                            让云网络更简单易用

最后总结一下,我今天没有去重点讲性能,弹性,或者丰富的特性。而是主要分享简单易用在整体云网络产品能力里面的重点呈现,即自适应弹性、深度可观测和全面自服务。

image.png

我们认为这三点是用户所最能感知到的,也是最能够让用户体会到云网络简单的三个关键点。虽然冰山上的部分非常小,但在冰山上露出来的这一点下面,实际上是整个飞天洛神十数年的对于稳定、性能、成本、安全等维度的技术构建和沉淀,是我们的护城河,也是我们接下来持续构建竞争力的方向。

感谢大家,也欢迎大家继续关注阿里云其它产品的主题分享!

相关文章
|
运维 负载均衡 监控
大道至简,提升企业上云的网络体验 | 2023阿里云峰会·粤港澳大湾区
大道至简,提升企业上云的网络体验 | 2023阿里云峰会·粤港澳大湾区
429 0
|
弹性计算 运维 Cloud Native
“云赋新生,优创未来” 企业云优化治理系列沙龙成功举办
“云赋新生,优创未来” 企业云优化治理系列沙龙成功举办,本期沙龙,阿里云计算有限公司和汇量科技共同出席,就云成本优化实践发表演讲。
“云赋新生,优创未来” 企业云优化治理系列沙龙成功举办
|
弹性计算 运维 Kubernetes
阿里云受邀参加第二届中国云网络峰会丨祝顺民:生而为云,连接增长
12月1日,第二届中国云网络峰会在线上举办,阿里云受邀出席。阿里云智能 云网络产品线总经理&达摩院XG实验室负责人 祝顺民在主论坛做了《云网络:生而为云,连接增长》的主题演讲,与相关产业机构及业内厂商共同探索云网络产业发展方向,分享阿里云网络十余年的实践经验。
343 0
阿里云受邀参加第二届中国云网络峰会丨祝顺民:生而为云,连接增长
|
数据采集 人工智能 运维
【邀您参会】数智创新行·智能运维专场(北京场)
数智时代,企业业务创新加速,日益复杂的架构以及庞大的数据量,对企业的日常运维工作提出了更高的要求
1105 0
【邀您参会】数智创新行·智能运维专场(北京场)
|
人工智能 Cloud Native 大数据
阿里云人工智能+大数据的实践与应用 — 阿里云开发者DevUP 沙龙·厦门站
现场邀请了4位阿里云专家为大家分享云计算行业人工智能+大数据的实践与应用,期待您的参与。
13265 0
阿里云人工智能+大数据的实践与应用 — 阿里云开发者DevUP 沙龙·厦门站
|
云栖大会
2016杭州云栖大会全程直播,全球科技共振,共享创新盛宴!
10月13日至16日,2016杭州云栖大会将在云栖小镇国际会议中心举行。13日开幕,盛况迎接全球朋友!
15229 0
【云栖号案例 | 教育与科研机构】云网络CEN助力10万留澳学生 停课不停学
疫情影响10万留学生无法进校上课。传统网络无法满足时延、稳定性等要求。云网络CEN快速建立跨地域、高质量、低时延连接,使学生和老师可在线教学。
|
新零售 运维 物联网
锌财经3月科技主题沙龙丨袋鼠云-云掣CEO徐进挺(丁原)受邀探讨“未来智能时代下的行业生存机会”
3月30日下午,锌财经在杭州·梦想E站创客之家举行”未来智能时代下的行业生存机会“的主题沙龙。 图为袋鼠云-云掣科技CEO丁原分享 智能化是科技领域的一个重要研究方向,未来更多的人工智能产品(智能体)将会走向各行各业。
2977 0
|
关系型数据库 Linux API
【云服务月刊】2018年第9期:百位云计算专家齐聚湖畔大学 阿里云MVP全球闭门会聚焦数字化转型
本期头条 百位云计算专家齐聚湖畔大学阿里云MVP全球闭门会聚焦数字化转型 小桥流水、小亭古乐,阿里云MVP全球闭门会在充满国风韵味的湖畔大学开始。湖畔大学名称源于阿里巴巴创业所在地杭州湖畔花园小区,目前已经成为培养新一代企业家的重要基地。