回归网络本质需求,提供普惠连接价值 持续打造简单易用的智能云网络

本文涉及的产品
公网NAT网关,每月750个小时 15CU
简介: 2023年11月25日,北京,在第六届SD-WAN&SASE大会暨云网络大会上,阿里云资深产品总监、阿里云网络产品管理负责人孙成浩受邀做了《打造简单易用的智能云网络——云网络持续演进之路》的主题分享,回顾云网络产业发展,阐释云网络未来演进方向,以及阿里云网络产品服务今年的能力演进。

2023年11月25日北京,在第六届SD-WAN&SASE大会暨云网络大会上,阿里云资深产品总监、阿里云网络产品管理负责人孙成浩受邀做了《打造简单易用的智能云网络——云网络持续演进之路》的主题分享,回顾云网络产业发展,阐释云网络未来演进方向,以及阿里云网络产品服务今年的能力演进。


孙成浩认为回顾初心,简单易用是云计算用户对于网络的普遍而又朴素的需求,因为更加简单易用的云网络可以让用户有更多的精力去投入到自身应用和商业的创新中,而一张 “业务无感知”的云网络可以让用户在上云-用云-管云的过程更加便捷高效,为此云计算和云网络的技术架构需要从稳定、安全、性能、弹性、可观测和自服务6个维度不断的进阶,主动释放云计算的技术和规模红利,普惠更多的云计算用户:

  1. 稳定:云网络要在构筑多层次高可用架构,不断夯实稳定性的基础上,提供主动性的容灾演练能力;包括不断提升公网和跨域网络可靠性,以及基于算力构建高SLA网元等;并且更进一步,支持客户主动容灾演练,和客户一起主动提升应用可靠性;
  2. 安全:云网络要在夯实云网络安全的基础上,提供在云网络之上的丰富安全生态;安全是云网络生命线,需要持续强化云上私网和网络边界安全,包括加固私网访问对象存储安全,以及混合云边界支持网络加密等;并且更进一步,联合更多业界主流三方安全伙伴,构筑完善的网络安全生态,提供企业级整体网络安全方案;
  3. 性能:从提供极致的高性能,到提供面向所有用户的普惠高性能;包括提升单VPC默认容纳IP数量,提升ENI插拔速率等,以更好的支撑高性能ECS集群和高密度容器;并且更进一步,可以支撑高性能AI算力集群的接入,这背后是阿里云网络全栈自研的软硬一体化网络转发技术的领先性;
  4. 弹性:提供确定性的弹性能力;阿里云网络借助动态感知的自适应弹性技术,提供即开即用的自适应弹性能力,并且更进一步,提供全面支持按量付费的自适应弹性;
  5. 可观测:是用户上云-用云-管云周期中管理的先决条件,对上云全生命周期的深度观测能力支撑用户应用卓越运营的关键技术;云网络提供深度可观测的工具集,为业务持续卓越运营助力,提供云网络可观测数据集,助力客户网络架构不断优化;并且更进一步,所有可观测核心功能均支持通过OpenAPI简单集成到用户自己的运营平台;
  6. 自服务:以提升自服务能力为目标,支撑用户应用高效运营;云网络要提供更多运维工具和产品,高效管理网络;覆盖更多诊断场景的精准故障诊断,助力客户高效排障;加强IaC健壮性,支撑用云卓越架构,提升运营效率


1. 云网络产品体系发展之路


先回顾一下整个云网络发展的历史,如果我们把AWS在2006年发布第一个云服务S3作为整个云计算发布元年的话,云网络发展到现在已经有接近20年了,在这20年时间里,云网络的发展可细分为三个阶段

第一个阶段:在整个云计算发展的早期,云网络主要解决的是如何更好的巩固企业上云信心的问题在这个阶段云网络主要提供了一张多租户的隔离网络,包括我们最常见的云网络相关产品开始出现,如VPC、EIP、负载均衡以及连接混合云的一些产品。

第二个阶段:随着企业对云计算的接受程度越来越高,更多的大规模企业开始上云,全球化的企业开始上云这些企业上云之后,对云网络提出了需求希望云网络要足够的全球化,能够承接全球用户的访问,并且要提供一个足够高性能的网络。

第三个阶段:我们看到越来越多的企业开始原生在云上,默认生长在云上,因此云原生的应用也成为在云上应用最主要应用范式有更多丰富的应用类型开始出现,物联网应用,容器,包括从去年开始大火的大模型我们认为第三个阶段云网络应该一张应用连接的云网络,面对的是企业需要连接更多丰富的应用类型的需求


回顾云网络的三个阶段,一个层面上,它支撑了更多的应用上云另外一个变得越来越复杂,因此我们认为云网络的发展也到了一个回归初心的时候,我们叫做Back to Basic,这里包括两层含义:

1.云网络相比传统网络一个非常大的区别——云网络更简单。

2.需要让云网络更好的去回归客户的普惠价值在云网络发展近20年时间里,所构建的能力是否可以更好的契合客户的普适需求。

这也是今天我想跟大家分享的主题,就是我们要回归初心,去为客户构造一张简单易用的云网络。首先,我们看下云网络的整体的体系化的架构


云网络历经20发展,已经发展得越来越具备体系化,在这点上,国内外的云厂商的理解和体系也都是类似的,在整个云网络的底层实际上是云网络最基础的两个计量计费的单元,云网络里面最常见的两个商品,一个是流量,一个是网络功能。在基础商品之上,我们一般将云网络层分为三层:

第一层,解决的是用户的应用在云上托管的问题,叫做应用交付的网络支撑应用交付网络的是一套弹性NFV的架构。

在应用交付网络一层,解决的是用户在云上的组网、隔离、自治等问题我们把这个网络叫做数据中心网络,在这个网络下面就是我们去构建混合云的网络以及多区域的云网络,叫做全球化网络

另外,随着云网络的不断发展,有一层新的横向的贯穿着三个网络层的新体系出现,叫做云网络的运维管理层。这一层主要解决两类问题,一个是给客户提供更高效的运维工具,另外一个是给客户提供更高效的管理工具。


2.  面向简单易用,云网络不断进阶

面对这样一个体系庞大且有着众多产品服务的云网络,又如何实现简单易用呢?我将从6个方面去阐释,这6个方面又归结为三类:

第一类是网络的可靠和安全可靠和安全是基本盘,我们把可靠和安全做得越来越好,避免出现故障或者安全问题,业务就可以做到无感知,用户也越能感觉到这张网络简单易用。

第二类是网络的性能和弹性,这个一般也是捉对出现,这是用户最能直接接触和使用到的云的核心能力。

第三类是云网络相对传统网络最大的两个差异化,深度可观测和自服务。通过这两个能力,云网络可以支撑客户应用构建更高效的卓越架构。


2.1 云网络要构筑多层次高可用架构 不断夯实稳定性  

接下来我们从云网络的视角,逐一解读这三类6个部分的变化和演进

第一,稳定, 我觉得无需多言,肯定是第一位要考虑的;云网络从第一天开始就把稳定作为一个最核心的能力来进行构建,云网络构建了一张多层次的高可用的架构,这张架构不仅出现在数据中心的网络里面,也出现在混合云的接入,公网的接入架构中。



一般情况下,我们会把云网络可靠分成网络级的可靠和网元级的可靠,而随着全球化和大规模企业上云,对于网络级的可靠性和网元级的可靠性都提出了更高的要求。举个例子,当网元越来越多的基于云的算力来进行构建的时候,如何基于算力去提供一张足够高性能,同时又具备可靠性的网络,是一个非常核心要去解决的问题。

阿里云网络也是不断的去优化互联网跨区域覆盖的质量,不断的去优化跨地域网络连接的能力和可靠性同时把基于NFV的网元的SLA也进行了优化和提升。但是这是否就够了呢?从云网络的角度来看,我认为这一定是不够的。大家知道类似阿里每年的11这样的活动,肯定是需要人力去做保障的,我们在支撑11的时候有一个非常核心的动作,就是演练,提前预演当天可能发生的洪峰等问题,以提前识别风险,做好预案。这也就引出了阿里云网络一直在思考的另一个问题,如何去帮助用户构建一个更高的可靠性。从这个角度来看,我们认为演练能力必不可少的,也是云网络厂商需要去提供的一个能力。从去年开始,阿里云网络的诸多产品已陆续支持了相应的主动容灾演练的能力,我们希望提供给用户一些原子的能力,这样用户可以通过对我们的产品进行相应的中断、恢复等操作来进行容灾演练;同时我们提供一些辅助的工具,用户可以通过演练去发现自己整个应用架构里面底层基础设施这一侧的一些短板、问题、架构的缺陷,然后去修复掉,整体再把应用的可靠性给提升上来。


2.2 夯实基础安全,繁荣在云网络之上的安全生态  

第二,安全 稳定之后紧接着就是要考虑安全,这也是难以绕开的一个话题,尤其是面对部分对于安全有特殊要求的客户(比如说金融的客户),安全是一个必选项,同时还是安全合规的必备要求。和稳定性一样,云网络从诞生的第一天开始就以解决安全问题作为它的主要职责,实际上最早VPC的出现就是为了给用户在云上提供一张相互隔离的私有网络。


我们怎么去解决安全性的问题,从云网络的角度会有两个视角:

第一个视角,我们给用户提供云上的这张虚拟网络是不是足够安全的,这个是私网网络的安全。

第二个视角,在云网络和现在还未云化网络的这张混合云网络的连接边界是不是足够安全的,这个是网络连接边界安全。

在私网安全里面,阿里云网络持续构建安全组、私网ACL等相应的能力,但是我们也发现在整个私网里面,除了计算节点之外,我们非常容易忽略云服务的节点安全,所以最近几年我们持续地在去提升计算节点到访问私网的云服务节点的安全性;在今年我们支持了通过私网连接(Privatelink)去访问云上的最大的对象存储服务——OSS,通过私网连接,可以对ECS到OSS的连接去做源/目的的鉴权,加固安全访问。

边界安全上面,我们也发现,很多客户他其实需要的不仅仅是一根内网的专线,需要更高的安全性,在去年下半年我们也结合了私网的VPN网关和转发路由器,去支持了通过VPN对这根专线上的流量进行加密的能力,这样就提供了更高的安全性。

做好了私网安全、边界安全是否就够了呢?我们觉得这个也还是不够的,因为安全是一个非常大的体系,我们也看到了在安全里面很多客户提出了个性化的需求,它们需要丰富多样的三方安全厂商来提供服务。所以从今年上半年开始,我们和很多的安全厂商,像Palo alto、Aruba等都进行了合作这里值得一提的是我们和Fortinet在阿里云的云市场上面构建了Pay-go的能力,这个和阿里云一方产品的按量付费的能力其实是类似的,用户在云上可以按量付费的去使用Fortinet的安全产品。


2.3 提供面向所有用户的普惠高性能  

第三,性能,也是云网络要考虑的核心要素。当然对于性能的要求一定还是从互联网公司大规模上云开始比如说双11对于底层基础设施就是一个非常高的性能要求。例如近期我们也看到虽然受到了疫情各行各业都有不同程度的影响,但是广告行业的增长还是非常快的,它们对于网络性能,以及对于云网络产品服务等都提出了很高的要求。


性能也是一个很老生常谈的话题,是所有云厂商都一直在构建的能力,在过去几年里面,阿里云网络构建更高的公网接入的能力,更强的负载均衡的能力,和更宽的混合云接入的带宽等极致性能。

我们也在想这个是不是够了,是不是所有的客户都可以享受到极致性能从普惠的角度来看,我们认为还是不够的,云网络的产品服务仍需要去进阶,我们要把传统的给普通大客户所提供的性能做能力释放,更好的去普惠到所有云网络用户。

之前,在云网络领域我们经常会去讲在云上的一张内网到底能够覆盖多少的内网节点、IP地址,而各厂商也一直在围绕着这些指标不断地竞争优化前进,从50万到100万、130万、300万。这个能力的提升,其实还不能够满足云原生化越来越普遍的需求。当云原生成为一个真正的大家所公认的应用开发范式的时候,我们需要给云上所有的用户更大的云上VPC容量,这样让云原生的应用可以非常流畅地、不受阻碍地在云上进行部署和开发。当然云原生ENI的拔插速率,同时也会影响到容器的启停速度,这个也是我们所致力于给用户释放出来的一个普惠的方向。

在我们提供的这些极致的高性能背后,也涉及到相应的一些关键性技术突破,比如软硬件深度协同高性能转发技术,还有基于VPC高性能高密度的容器网络技术,以及基于VPC多路径转发和弹性拥塞控制的AI网络技术,都支撑了我们不断地去给用户提供普惠的高性能,满足各种应用负载的高性能接入。


2.4 全面支持按量付费的自适应弹性,自动适应业务负载  

第四,弹性性能是相伴而生的以往整个云网络服务领域,尤其是中国的云网络厂商,对于性能会讲的比较多,因为我们需要用性能去解决类似于秒杀这样的场景,而对于弹性的能力定义和解读一直是比较模糊的;但从客户的视角来看,他们更关注弹性,对弹性的需求也更旺盛和迫切,他们希望不受任何限制地去发布自己的应用,也不用去考虑应用发布之后给整个工作负载带来的影响,这对用户的体验来讲是最简单的,但这种自适应的弹性能力,是一个长期被忽视了的需求。


那么怎么去理解自适应弹性,为什么会需要自适应弹性?对于工作负载来讲,要去预测工作负载、业务负载,实际上对客户来讲是一个非常难以完成的任务如果你预测少了,有可能会出现故障,这个时候你就依赖于你是不是可以足够敏捷地去调整;如果你预测多了,对于用户来讲又是成本浪费。因此,我们认为传统的需要提前去预置和预测规格的逻辑不是一个真正的弹性,只有这个弹性能够做到自适应业务,根据业务的负载动态地去伸缩,即开即用,无需人为干预的时候,才是一个真正的弹性。


怎么去定义自适应弹性?首先,我们认为自适应弹性实际上也无法解决所有的问题,像这种有非常剧烈的上升趋势,但是又具备一定预测性的场景——比如说我计划在某个时间去搞一个秒杀,这个时候我们认为最好的情况是要靠性能来进行化解,因为这个时候用户访问的突增实际上是非常短的,我们期望的自适应弹性是为了去解决绝大多数无法预测的业务场景的弹性需求。


对于云网络来讲,提供确定性的自适应弹性也需要是一个进阶的能力。我们目前提供了一个分钟级的自适应业务负载的弹性能力,比如说我们的负载均衡,网络型负载均衡(NLB),提供30分钟以内可以弹到亿级的并发和T级别的处理带宽的能力;而应用型负载均衡(ALB)提供在15分钟以内可以弹到50万QPS(固定IP模式下)的能力,我们认为这样的能力对于绝大多数的弹性场景是足够的。从另外一个视角来说,弹性能力如果无法去支持按量付费,这个弹性能力我们也认为是假的,它需要用户付出高额的成本去做资源的准备、预定等相应的一些动作。所以,从去年开始,基本上所有的阿里云网络的网元和带宽产品,都支持了按量付费的能力,我们希望这个能力最终普惠所有客户;当一个用户从原本的规格(当它使用量比较小的时候)切换到按量的时候,它会获得一个非常大的成本节约。


阿里云网络自适应弹性背后的关键技术突破。在自适应弹性的背后,实际上也包含了我们5年以上的技术积累,我们从2016年、2017年就去做NFV相应的能力,主要解决了三类我们认为在弹性里面非常关键的难题:

第一类,流量的微毛刺,负载的微毛刺问题,实际上会长尾客户的体验产生很大的影响。

第二类,真正的流量业务负载的弹性伸缩,在这个角度上面需要对于底层各种参数进行多维度的实时感知,并且去做资源池的实时伸缩。

第三类,当业务规模越来越大的时候,在背后支撑网络功能的算力资源池规模越来越大,如何让这个算力资源池始终处在一个非常好的、非常适合的,并且能够任意分配算力资源的状态,在背后我们还需要有一套自适应的全局水位的均衡技术,让我们的状态可以变得更好,可以更好的去满足用户的弹性需求。


2.5 深度可观测&全面自服务,助力用户卓越运营  

深度可观测和全面自服务是云网络相对于传统网络两个比较大的优势,这两个优势的构建将非常助益于云上的应用卓越架构的构建。首先,深度可观测,可以帮我们的网络运维可以更快地摆脱需要为业务故障背锅的状态,这也是为什么我们看到很多客户运维视角对云网络提出新的需求,但是我们怎么去思考这个问题?


实际上我们看到了整个云上的应用在去构建的时候需要的相应能力;比如在原本的像选址规划、配置运行、故障诊断等用云的场景里面,当没有可观测的时候,用户需要通过各种人肉操作完成相应的动作。但是有了可观测之后,基于云网络所提供的各种丰富的可观测能力,就可以帮助用户去更好的运营这张网络架构。举个例子,在原来的网络架构中,如果你的流量被打爆了,你要通过使用各种各样的手段,才能知道到底谁是打爆这张网络的罪魁祸首,或者你发现你的账单金额发生了很大的变化,你也要花很大的精力才能定位到底是谁在大量使用网络资源


基于云网络可观测能力用户的运维管理平台可以通过OpenAPI获取到到底哪一个流量在你的管道里面是消费大头;而我们认为,可观测能力是否具备OpenAPI,能够直接集成到客户的运维系统,也是衡量可观测能力的一个关键点。只有把相应的能力通过OpenAPI和客户的业务运维系统做一个紧密的绑定,才能更好的去服务客户,让客户的架构做到更卓越的运营。阿里云网络在深度的观测和主动预警方面,这两年提供了很丰富的工具集,这些都可以通过OpenAPI去做相应的集成和调用。


自服务,实际上在服务众多海外企业时,尤其是海外企业GoChina过程中,他们提出了很多做应用架构集成自动化的需求。在迁移上云的过程里面,当涉及到多团队、多项目的时候,他们一般情况下需要用云网络去打通,申请各种各样的能力等,然后通过一个多云的内部的运营平台,隔离掉底层的各种云厂商所提供的能力差异,同时还希望网络能够帮助他们的业务去做自动化的部署;所以能否提供健壮的SDKopenAPI,Terraform等能力就变得非常关键,这也是阿里云网络去提升全面自服务能力背后的思考。


我们认为如果想要更好的去支撑用户卓越的用云架构,需要从三个维度上面提升:

第一个维度,提供云更高效的管理能力,这里面包含强有力的工具包括云自动的构建能力。

第二个维度,在用云的过程,难以避免地会出现各种各样的问题,云网络需要去提供更强的故障诊断的能力,这个故障诊断能力需要做得相当精准,这样可以让用户整体的应用可以更好的去做自动的优化。

第三个维度,IaC的能力,我认为这也是一个必备项,是否足够的健壮,用户拿来是不是可以直接使用,文档接口是不是足够的严谨,也是一个非常核心的能力。

今年上半年,我们发布了IP地址的管理工具——IPAM,在年底之前我们会发布一个更高效的专线接入产品ECR,极大地简化混合云专线接入。从去年开始我们也构建了丰富的故障诊断能力,目前整个阿里云云网络的核心产品也已经100%接入Terraform,欢迎大家试用。


3. 总结:持续打造简单易用的智能云网络  

我们说云网络的未来演进之路就是持续打造更加简单易用的智能云网络,我今天从6个维度去阐释了如何更好的打造简单易用的能力。稳定,传统的持续做深云网络产品的稳定性,我们认为是不够的,我们需要去提供更强的、更进阶的能力,和客户一同去提升应用稳定性的能力。


安全,也毫无疑问是一个必备项,传统上我们会着力去强化云网络的内网安全和边界安全,我们认为也是不够的我们需要和更多的安全厂商一起去服务客户,提升客户云上架构的安全性。


性能,一直以来都是我们所要追求也非常容易量化的目标。但我觉得到现在为止,我们需要让性能更普惠,任意一个客户到云上来,都可以获取到的性能才是真性能。


弹性,是我们长期以来非常容易忽略的话题,自适应弹性我认为是接下来站在云厂商的角度,要去提供确定性服务的能力,要去把这个能力讲清楚。


深度可观测和自服务,是应用的发展里面对于云网络所产生的必然的要求,云网络只有把自己做得越来越透明,同时云网络需要把自己做得越来越容易被应用集成,这个才是云网络最终能够在应用里面达成简单易用的必经方向。


从2017年开始,阿里云网络就确立了“让网络更简单的目标,持续围绕着这个目标构建我们的技术架构,通过这个过程我们也获得了产业界广泛认可,同时也得到了全球用户的信赖。接下来我们会更加围绕着让网络更简单的目标,去构建更加简单易用的网络,让用户在使用网络的时候,感知不到我们这张云网络的存在。

相关文章
|
5天前
|
运维 安全 Cloud Native
安全访问服务边缘(SASE):网络新时代的安全与连接解决方案
SASE(安全访问服务边缘)是一种云基安全模型,结合了网络功能和安全策略,由Gartner在2019年提出。它强调身份驱动的私有网络、云原生架构和全面边缘支持,旨在解决传统WAN和安全方案的局限性,如高延迟和分散管理。SASE通过降低IT成本、提升安全响应和网络性能,应对数据分散、风险控制和访问速度等问题,适用于移动办公、多分支办公等场景。随着网络安全挑战的增加,SASE将在企业的数字化转型中扮演关键角色。
|
21天前
|
Ubuntu
虚拟机Ubuntu连接不了网络的解决方法
虚拟机Ubuntu连接不了网络的解决方法
|
24天前
|
缓存 网络协议 数据库连接
【底层服务/编程功底系列】「网络通信体系」深入探索和分析TCP协议的运输连接管理的核心原理和技术要点
【底层服务/编程功底系列】「网络通信体系」深入探索和分析TCP协议的运输连接管理的核心原理和技术要点
22 0
|
28天前
|
机器学习/深度学习 自然语言处理 PyTorch
【PyTorch实战演练】基于全连接网络构建RNN并生成人名
【PyTorch实战演练】基于全连接网络构建RNN并生成人名
23 0
|
1月前
|
Shell Linux C语言
【Shell 命令集合 网络通讯 】Linux 关闭PPP(Point-to-Point Protocol)连接 ppp-off命令 使用指南
【Shell 命令集合 网络通讯 】Linux 关闭PPP(Point-to-Point Protocol)连接 ppp-off命令 使用指南
41 1
|
1月前
|
监控 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
58 1
|
1月前
|
监控 Shell Linux
【Shell 命令集合 网络通讯 】Linux 拨号连接 dip命令 使用指南
【Shell 命令集合 网络通讯 】Linux 拨号连接 dip命令 使用指南
37 0
|
1月前
|
Shell Linux C语言
【Shell 命令集合 网络通讯 】Linux 建立串行连接 cu命令 使用指南
【Shell 命令集合 网络通讯 】Linux 建立串行连接 cu命令 使用指南
28 0
|
1月前
|
安全 关系型数据库 应用服务中间件
连接rds设置网络权限
连接阿里云RDS需关注:1) 设置白名单,允许特定IP访问;2) 选择合适网络类型,如VPC或经典网络;3) 确保VPC内路由与安全组规则正确;4) 同VPC内可使用内网地址连接;5) 可启用SSL/TLS加密增强安全性。记得遵循最小权限原则,确保数据库安全。不同服务商操作可能有差异,但基本流程相似。
22 9
|
1月前
|
网络协议 Python
Python网络编程实现TCP和UDP连接
Python网络编程实现TCP和UDP连接
27 0