构建超大带宽、超高性能及稳定可观测的全球互联网络

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
应用实时监控服务-应用监控,每月50GB免费额度
简介: 本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。

一、全球互联网络简介

1.全球互联网络是做什么的:

我们最核心的一个场景是帮助客户构建一个客户自己的全球的互联网网络,包括帮客户去连接云上的多地域的VPC,包括去连接分支机构。由这几个产品来组成:首先是云企业网,云企业网是一个多地域的企业专属的一个互关网。第二个是转发路由器,对于每一个地域我们会有一个核心的路由器来帮助客户汇聚收敛整个的这个网络拓扑,然后剩下的三个产品包括高速通道,包括VPN网关以及SD-Wan,是应用于不同场景下的上云,那高通道呢是用于IDC专线互联,而VPN网关和SD-Wan分别是两种不同的分支机构接入的产品能力。


2.应用的全球化发展引发网络架构变革

我们的全球互联网络已经服务于非常多的客户。过去客户企业构建这个云上多地域网络的时候,以前是以IDC为核心,把所有的云包括分支机构连接到IDC上,从IDC再自建自己的骨干网络。现在已经有越来越多的客户选择使用阿里云来构建核心的骨干网络,在这个过程中,我们实现了帮助客户敏捷全球化、助力客户出海的业务目标,我们可以看到在互联网、游戏、传媒等等领域,我们已经服务了大量的客户,已经连接了全球150万的网络的,同时又联合了我们90家的网络专线机构的合作伙伴NSP,来一起服务客户快速的上云。

 

二、全球互联网络产品升级

1.AI时代企业构建全球互联网络的挑战

在AI的时代,我们看到了有很多新的一些应用的趋势,这些应用的趋势会对我们的全球互联网络,对客户构建的这张骨干网产生更大的压力。主要的挑战分为四个方面,第一个方面就是规模的压力。有很多客户我们也知道算力现在其实分布是不均匀的,而我们的数据又是在另外一个地域,所以这个时候经常会产生跨地域大带宽的这种带宽的需求或者带宽的压力,这对于我们现有的这些的网络可能会需要一些带宽的升级和改造。那第二个呢就是对于超低的时延。


在这种微服务的时代,每一个应用上的一个transaction,或者应用上的一个事物都会有大量的应用之间的交互来进行互访来构成,所以说这个时候一个应用它就会来多次的访问,那我们每增加一个毫秒的时延,它就会导致客户感受到几十个毫秒甚至几秒的一个放大,所以现在应用对于的时延的要求是越来越极致。第三个是极致的稳定,之前也提到过,我们如果有多余的线路,一个线路断了,切换到另外一个线路,这个是我们以前的要求,现在的要求是我们这个线路如果抖动了十秒,抖动了五秒这个时候的业务很可能就产生大量的报错,就已经不可忍受了。最后一个是全面可观测。


对于我们网工可能经常会看到一个问题是应用发生了一次拥塞抖动,最后导致应用的一个小的波动,但是现场已经没有了什么也查不到了,那这个时候怎么去观测到这样的应用?所以全面的可观测是对于在越来越复杂的网络的环境下的一个重要的挑战。


2.超大规模:转发路由器组网规模持续升级

首先对于规模方面,AI的时代算力的增长还是非常剧烈的,相比于去年我们发布的转发路由器TR的单attachment的带宽是100G,今年我们又继续增加了带宽的上限,提升到了单attachment的500个G的带宽。第二个是我们TR上单路由表的规模也从去年的2000个提升到了1万条,相比去年是五倍的提升。


3.超低时延:基于时延的流量调度

在我们看到的一些常见的客户场景里,大部分的时延敏感的客户对于时延的要求,混合云时延的要求是在两毫秒以下,这对于一些比如说大数据的场景,以及包括一些游戏的场景是一个基本的入门门槛。但是我们有很多客户其实在按照这个专线机构的标准架构或者高可用的推荐架构的接入的时候,是按照双接入点双专线的接入,但这个时候势必会带来跨接入点之间的一个流量的绕行,那这个时候是可靠性和性能的冲突,很高兴的告诉大家,我们今年发布了ECR的就近转发模式,可以实现对于不同的专线接入点,我们可以探测每一个AZ到不同专线接入点的时延,最终实现我们只选择最近的接入点去进行流量的发送,最终实现端到端的时间可以到达两毫秒以内。这里放了一个案例,可能大家也非常熟悉,很多人应该也玩过魔兽世界,但这次在这个国服的上线过程当中,实际上我们也用到了这个产品,它最终来解决的是游戏服之间以及游戏服和中心服之间的互访,降低了这部分的时延,最终给玩家带来了一个端到端的一个极致体验。


4.稳定可靠:为应用提供确定性网络

在稳定性方面,我们看到稳定性其实不光是刚才提到的责任共担模型,阿里云来负责最稳定的基础网络设施的稳定性,而在业务网络方面,客户也需要按照一个比较好的业务网络架构来进行部署,这样可以最终的来支撑我们应用的稳定。


(1)深挖技术,夯实网络基础设施稳定性

在基础网络设施的部分,我们之前多次提到ZooRoute技术,我们把网络的收敛从十秒以上的时间缩短到1秒以内,那我们来看一下为什么说传统的网络链路的故障会产生比较长的时延,比较长的收敛时间,这个收敛时间代表什么?一般网络设备在部署网络的时候,它观测的是一个链路故障之后我们直连的路由器,其实一到两秒内绝对能发现了,但是网络是一个非常复杂的、层层递进的组网,所以最终到了端到端的应用感知已经5~10秒以上了。而对于虚拟网络,通过ZooRoute技术通过高频探测,相当于阿里云自己就是一个业务,我们通过这样的方式来自动的进行选择,相当于打破了这个OSI七层的这个模型,直接在应用层感知链路的故障,然后来进行选录,最终我们对于应用的感知可以做到一秒以内的端到端的这个切换。 一个典型的例子:在奥运直播的环境下,我们之前在压测期间经常看到一些视频的抖动视频的卡顿,但是用了这个技术后,在整个奥运期间,观测到有36次的长途传输的中断,整体的卡顿的时长呢缩短了70%。


(2)提前演练上云专线故障,提升业务网络确定性

刚才是阿里云的底层的线路方面,我们提升了稳定性,而我们建议客户在部署自己的业务网络方面,也是需要进行设计一个面向故障场景的业务网络架构来最终支撑业务的稳定运行。我这里举一个非常血淋淋的例子,我之前有一个互联网的客户,那当时也是按照一个非常最佳实践啊,就是双接入点双专线接入连上阿里云,但是在当时觉得自己这个线路接入PBDEFD什么都配了,觉得自己万无一失,但是没有想到他们在底层的发布路由的时候,两边的线路发布的路由是不一致的,当一条线路中断之后,发现一部分业务是不可用的,这就给我们带来一个启示,这些细节非常的繁多,那到底我们怎么能够确保我们线路能够倒换,能够收敛,能够稳定性的提升呢?所以去年做了专线故障倒换验证的能力,但是我们去年发布的是一个物理端口直接down掉,然后来进行验证。那我们也看到很多客户说,我一个专线上跑了很多个业务,那这个时候就会需要基于不同的力度,比如说BGDP或者是基于这个VBR的力度来选择性的down掉一部分链路进行一个业务的收敛,一个业务的演练,不要影响另外一个业务。


(3)多业务争抢专线带宽,保障重要业务优先转发

另外帮助降低故障情况下的业务影响的功能,也是这个专线的Qos。我们知道不可能因为一个业务就拉一组专线,一个业务就拉一组专线,我们的专线一定都是混合跑的,这个时候当我们出现带宽不够用的情况,其实刚才像小红书就在用这个功能,当我们带宽出现比如说中断导致的不够用,或者业务突发导致的不够用的时候,我们就可以使用专线的这个Qos的能力,我们保障优先级高的业务优先转发,优先级低的业务可以损失,这样可以端到端的保证业务的这个可靠性。


(4)可观测:查看全部组网链路流量明细

经常看到一些流量的刺客,流量刺客背刺了一下之后就消失的无影无踪,根本不知道当时比如说流量的一个burst打爆了所有链路,影响了业务之后,我们抓不到现场,分析不到到底是什么原因,那刚才提到的这个Qos,其实也有很多客户说我不知道该配什么规则,来防止我的哪些业务是重要的,那么我们通过这个其实也是一个配套的能力,将我们各个链路的各种链路类型的FlowLog进行详细的抓取,FlowLog就是抓取详细的五元组,之前已经支持了不同地域之间的TR支持不同地域之间的这个流量的就是FlowLog,今年增加了TR到VPC之间,然后TR到VPN之间以及TR到专线之间,这个时候我们相当于可以覆盖到整个组网里边儿的所有链路都可以把这些流量全都抓出来,而且同时支持按需的开启,那也可以节省成本。以上就是一些产品能力的提升。

 

三、持续普惠地全球互联网络

1.持续降价:降低数据与算力连接成本

最后呢我们来讲一下降价。我们国内的跨地域的按流量的单价下降20%。这个其实已经提前提到过了,所以我简单的介绍一下,回顾一下降价的历史以及我的思考。在2022年的时候,我们其实全面支持了按量计费,那按量计费的一个好处呢就是零门槛,放着闲置不用也是可以进行组网,直到有用的时候才进行计费,那这样其实上促进了很多的客户快速的进行上云和构建全球的网络。第二是在去年的时候,我们看到了企业出海、外企入华这样的趋势,那么适时的将跨境按流量计费的价格下降了56%,今年看到了AI的趋势,看到了数据在一个地域而算力在另外一个地域的这样一个趋势,因此我们着重来降低这个数据算力连接的成本,将国内跨地域的流量单价降低了20%。

相关文章
|
2月前
|
前端开发 JavaScript 开发者
JavaScript:构建动态网络的引擎
JavaScript:构建动态网络的引擎
|
4月前
|
机器学习/深度学习 算法 量子技术
GQNN框架:让Python开发者轻松构建量子神经网络
为降低量子神经网络的研发门槛并提升其实用性,本文介绍一个名为GQNN(Generalized Quantum Neural Network)的Python开发框架。
105 4
GQNN框架:让Python开发者轻松构建量子神经网络
|
2月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
1月前
|
机器学习/深度学习 分布式计算 Java
Java与图神经网络:构建企业级知识图谱与智能推理系统
图神经网络(GNN)作为处理非欧几里得数据的前沿技术,正成为企业知识管理和智能推理的核心引擎。本文深入探讨如何在Java生态中构建基于GNN的知识图谱系统,涵盖从图数据建模、GNN模型集成、分布式图计算到实时推理的全流程。通过具体的代码实现和架构设计,展示如何将先进的图神经网络技术融入传统Java企业应用,为构建下一代智能决策系统提供完整解决方案。
267 0
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从零开始构建图注意力网络:GAT算法原理与数值实现详解
本文详细解析了图注意力网络(GAT)的算法原理和实现过程。GAT通过引入注意力机制解决了图卷积网络(GCN)中所有邻居节点贡献相等的局限性,让模型能够自动学习不同邻居的重要性权重。
414 0
从零开始构建图注意力网络:GAT算法原理与数值实现详解
|
4月前
|
监控 安全 Go
使用Go语言构建网络IP层安全防护
在Go语言中构建网络IP层安全防护是一项需求明确的任务,考虑到高性能、并发和跨平台的优势,Go是构建此类安全系统的合适选择。通过紧密遵循上述步骤并结合最佳实践,可以构建一个强大的网络防护系统,以保障数字环境的安全完整。
124 12
|
5月前
|
JSON 编解码 API
Go语言网络编程:使用 net/http 构建 RESTful API
本章介绍如何使用 Go 语言的 `net/http` 标准库构建 RESTful API。内容涵盖 RESTful API 的基本概念及规范,包括 GET、POST、PUT 和 DELETE 方法的实现。通过定义用户数据结构和模拟数据库,逐步实现获取用户列表、创建用户、更新用户、删除用户的 HTTP 路由处理函数。同时提供辅助函数用于路径参数解析,并展示如何设置路由器启动服务。最后通过 curl 或 Postman 测试接口功能。章节总结了路由分发、JSON 编解码、方法区分、并发安全管理和路径参数解析等关键点,为更复杂需求推荐第三方框架如 Gin、Echo 和 Chi。
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
259 17
|
11月前
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
218 10
|
11月前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。