一、全球互联网络简介
1.全球互联网络是做什么的:
我们最核心的一个场景是帮助客户构建一个客户自己的全球的互联网网络,包括帮客户去连接云上的多地域的VPC,包括去连接分支机构。由这几个产品来组成:首先是云企业网,云企业网是一个多地域的企业专属的一个互关网。第二个是转发路由器,对于每一个地域我们会有一个核心的路由器来帮助客户汇聚收敛整个的这个网络拓扑,然后剩下的三个产品包括高速通道,包括VPN网关以及SD-Wan,是应用于不同场景下的上云,那高通道呢是用于IDC专线互联,而VPN网关和SD-Wan分别是两种不同的分支机构接入的产品能力。
2.应用的全球化发展引发网络架构变革
我们的全球互联网络已经服务于非常多的客户。过去客户企业构建这个云上多地域网络的时候,以前是以IDC为核心,把所有的云包括分支机构连接到IDC上,从IDC再自建自己的骨干网络。现在已经有越来越多的客户选择使用阿里云来构建核心的骨干网络,在这个过程中,我们实现了帮助客户敏捷全球化、助力客户出海的业务目标,我们可以看到在互联网、游戏、传媒等等领域,我们已经服务了大量的客户,已经连接了全球150万的网络的,同时又联合了我们90家的网络专线机构的合作伙伴NSP,来一起服务客户快速的上云。
二、全球互联网络产品升级
1.AI时代企业构建全球互联网络的挑战
在AI的时代,我们看到了有很多新的一些应用的趋势,这些应用的趋势会对我们的全球互联网络,对客户构建的这张骨干网产生更大的压力。主要的挑战分为四个方面,第一个方面就是规模的压力。有很多客户我们也知道算力现在其实分布是不均匀的,而我们的数据又是在另外一个地域,所以这个时候经常会产生跨地域大带宽的这种带宽的需求或者带宽的压力,这对于我们现有的这些的网络可能会需要一些带宽的升级和改造。那第二个呢就是对于超低的时延。
在这种微服务的时代,每一个应用上的一个transaction,或者应用上的一个事物都会有大量的应用之间的交互来进行互访来构成,所以说这个时候一个应用它就会来多次的访问,那我们每增加一个毫秒的时延,它就会导致客户感受到几十个毫秒甚至几秒的一个放大,所以现在应用对于的时延的要求是越来越极致。第三个是极致的稳定,之前也提到过,我们如果有多余的线路,一个线路断了,切换到另外一个线路,这个是我们以前的要求,现在的要求是我们这个线路如果抖动了十秒,抖动了五秒这个时候的业务很可能就产生大量的报错,就已经不可忍受了。最后一个是全面可观测。
对于我们网工可能经常会看到一个问题是应用发生了一次拥塞抖动,最后导致应用的一个小的波动,但是现场已经没有了什么也查不到了,那这个时候怎么去观测到这样的应用?所以全面的可观测是对于在越来越复杂的网络的环境下的一个重要的挑战。
2.超大规模:转发路由器组网规模持续升级
首先对于规模方面,AI的时代算力的增长还是非常剧烈的,相比于去年我们发布的转发路由器TR的单attachment的带宽是100个G,今年我们又继续增加了带宽的上限,提升到了单attachment的500个G的带宽。第二个是我们TR上单路由表的规模也从去年的2000个提升到了1万条,相比去年是五倍的提升。
3.超低时延:基于时延的流量调度
在我们看到的一些常见的客户场景里,大部分的时延敏感的客户对于时延的要求,混合云时延的要求是在两毫秒以下,这对于一些比如说大数据的场景,以及包括一些游戏的场景是一个基本的入门门槛。但是我们有很多客户其实在按照这个专线机构的标准架构或者高可用的推荐架构的接入的时候,是按照双接入点双专线的接入,但这个时候势必会带来跨接入点之间的一个流量的绕行,那这个时候是可靠性和性能的冲突,很高兴的告诉大家,我们今年发布了ECR的就近转发模式,可以实现对于不同的专线接入点,我们可以探测每一个AZ到不同专线接入点的时延,最终实现我们只选择最近的接入点去进行流量的发送,最终实现端到端的时间可以到达两毫秒以内。这里放了一个案例,可能大家也非常熟悉,很多人应该也玩过魔兽世界,但这次在这个国服的上线过程当中,实际上我们也用到了这个产品,它最终来解决的是游戏服之间以及游戏服和中心服之间的互访,降低了这部分的时延,最终给玩家带来了一个端到端的一个极致体验。
4.稳定可靠:为应用提供确定性网络
在稳定性方面,我们看到稳定性其实不光是刚才提到的责任共担模型,阿里云来负责最稳定的基础网络设施的稳定性,而在业务网络方面,客户也需要按照一个比较好的业务网络架构来进行部署,这样可以最终的来支撑我们应用的稳定。
(1)深挖技术,夯实网络基础设施稳定性
在基础网络设施的部分,我们之前多次提到ZooRoute技术,我们把网络的收敛从十秒以上的时间缩短到1秒以内,那我们来看一下为什么说传统的网络链路的故障会产生比较长的时延,比较长的收敛时间,这个收敛时间代表什么?一般网络设备在部署网络的时候,它观测的是一个链路故障之后我们直连的路由器,其实一到两秒内绝对能发现了,但是网络是一个非常复杂的、层层递进的组网,所以最终到了端到端的应用感知已经5~10秒以上了。而对于虚拟网络,通过ZooRoute技术通过高频探测,相当于阿里云自己就是一个业务,我们通过这样的方式来自动的进行选择,相当于打破了这个OSI七层的这个模型,直接在应用层感知链路的故障,然后来进行选录,最终我们对于应用的感知可以做到一秒以内的端到端的这个切换。 一个典型的例子:在奥运直播的环境下,我们之前在压测期间经常看到一些视频的抖动视频的卡顿,但是用了这个技术后,在整个奥运期间,观测到有36次的长途传输的中断,整体的卡顿的时长呢缩短了70%。
(2)提前演练上云专线故障,提升业务网络确定性
刚才是阿里云的底层的线路方面,我们提升了稳定性,而我们建议客户在部署自己的业务网络方面,也是需要进行设计一个面向故障场景的业务网络架构来最终支撑业务的稳定运行。我这里举一个非常血淋淋的例子,我之前有一个互联网的客户,那当时也是按照一个非常最佳实践啊,就是双接入点双专线接入连上阿里云,但是在当时觉得自己这个线路接入PBD、EFD什么都配了,觉得自己万无一失,但是没有想到他们在底层的发布路由的时候,两边的线路发布的路由是不一致的,当一条线路中断之后,发现一部分业务是不可用的,这就给我们带来一个启示,这些细节非常的繁多,那到底我们怎么能够确保我们线路能够倒换,能够收敛,能够稳定性的提升呢?所以去年做了专线故障倒换验证的能力,但是我们去年发布的是一个物理端口直接down掉,然后来进行验证。那我们也看到很多客户说,我一个专线上跑了很多个业务,那这个时候就会需要基于不同的力度,比如说BGDP或者是基于这个VBR的力度来选择性的down掉一部分链路进行一个业务的收敛,一个业务的演练,不要影响另外一个业务。
(3)多业务争抢专线带宽,保障重要业务优先转发
另外帮助降低故障情况下的业务影响的功能,也是这个专线的Qos。我们知道不可能因为一个业务就拉一组专线,一个业务就拉一组专线,我们的专线一定都是混合跑的,这个时候当我们出现带宽不够用的情况,其实刚才像小红书就在用这个功能,当我们带宽出现比如说中断导致的不够用,或者业务突发导致的不够用的时候,我们就可以使用专线的这个Qos的能力,我们保障优先级高的业务优先转发,优先级低的业务可以损失,这样可以端到端的保证业务的这个可靠性。
(4)可观测:查看全部组网链路流量明细
经常看到一些流量的刺客,流量刺客背刺了一下之后就消失的无影无踪,根本不知道当时比如说流量的一个burst打爆了所有链路,影响了业务之后,我们抓不到现场,分析不到到底是什么原因,那刚才提到的这个Qos,其实也有很多客户说我不知道该配什么规则,来防止我的哪些业务是重要的,那么我们通过这个其实也是一个配套的能力,将我们各个链路的各种链路类型的FlowLog进行详细的抓取,FlowLog就是抓取详细的五元组,之前已经支持了不同地域之间的TR支持不同地域之间的这个流量的就是FlowLog,今年增加了TR到VPC之间,然后TR到VPN之间以及TR到专线之间,这个时候我们相当于可以覆盖到整个组网里边儿的所有链路都可以把这些流量全都抓出来,而且同时支持按需的开启,那也可以节省成本。以上就是一些产品能力的提升。
三、持续普惠地全球互联网络
1.持续降价:降低数据与算力连接成本
最后呢我们来讲一下降价。我们国内的跨地域的按流量的单价下降20%。这个其实已经提前提到过了,所以我简单的介绍一下,回顾一下降价的历史以及我的思考。在2022年的时候,我们其实全面支持了按量计费,那按量计费的一个好处呢就是零门槛,放着闲置不用也是可以进行组网,直到有用的时候才进行计费,那这样其实上促进了很多的客户快速的进行上云和构建全球的网络。第二是在去年的时候,我们看到了企业出海、外企入华这样的趋势,那么适时的将跨境按流量计费的价格下降了56%,今年看到了AI的趋势,看到了数据在一个地域而算力在另外一个地域的这样一个趋势,因此我们着重来降低这个数据算力连接的成本,将国内跨地域的流量单价降低了20%。