应用部署架构:如何降低云网络时延?

本文涉及的产品
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
简介: 什么是时延?在电信系统中,不同应用对时延的要求是怎样的?如何通过部署架构降低网络传输时延?本文通过介绍云网络时延的构成,并对其进行量化分析,分享在不同云网络时延要求下,不同应用对应的部署架构,并简单分析了5G时代对应用部署架构的影响和度量云网络时延的工具。

image.png

作者 | 秋光
来源 | 阿里技术公众号

在讨论云网络时延这个看起来比较专业的话题前,先看几个比较有意思的问题:

  • 人的最快反应速度是多少毫秒?
  • 机器人最快反应速度是多少毫秒?

这样能在介绍云网络时延时让大家有一个时间量级上的感知。

一 什么是时延

1 人体能感知的时延量级

  • 抢红包时,为什么总是别人能抢到?
  • 抢爆品好货时,为什么别人扣的1总在你前面?
  • 游戏对战时,为什么总感觉比对手慢了半拍?

这些是人能明显感知到的时延,这些时延量级在毫秒级(1秒=1000毫秒)。

应激反应

确切的说是人接受到外部刺激而做出反应,这个时延一般公认的极限是100ms。

image.png

大家可以在humanbenchmark这个网站测试一下自己的反应时间是多少ms,快的能到200ms左右,慢一点的就到三四百毫秒了。

image.png

机械反应

人体连续机械反应的极限,一般公认的极限是50ms。

游戏玩家“高桥名人”一秒点击按键16次,是当前无法超越的奇迹,折合每次反应的平均时间是62.5毫秒。中国玩家熟悉的冒险岛游戏的主角就是高桥名人。

image.png

2 机器能感知的时延量级

自动驾驶

特斯拉的完全自动驾驶芯片,每秒可完成144万亿次的计算,能同时处理每秒2,300帧的图像,结合本地的车载的神经网络系统,发现异常并处理的时延可以做在0.5ms左右,是人类识别外界异常并做出反应的速度的200倍。

image.png

工业制造

对于纯机械的反应,机器的速度就更快了,ABB的机器人在50秒以内可以装配出一量有5千多个零部件的汽车,是100年前福特流水线手工装配速度的1000倍。

image.png

整体上看,在机器的世界里时延和速度的单位是零点几毫秒,在人的世界里时延和速度的单位是零点几秒。

二 不同应用对时延的要求

1 面向用户的应用时延

下面这个表是电信系统中对不同应用业务的分类以及不同应用对时延和丢包的需求。

image.png

总结下来:

  • 实时竞技类游戏的时延要求是50ms
  • 实时交互类游戏的时延要求是100ms
  • 实时交互语音类的时延要求是100ms
  • 实时交互视频类的时延要求是150ms
  • 非实时大部分互联网应用时延要求是300ms

上面的标准是优秀的标准,如果时延增加50ms,则是及格线。

2 面向机器的应用的时延

5G场景下有对超低时延应用场景的划分。5G的超低时延场景,主要是面向车联网,物联网和工业互联网。

  • 工业自动化控制的时延要求是小于10ms
  • 远程/遥控驾驶的时延要求是小于10ms
  • 远程超声波检测的时延要求是小于10ms

整体上看,如果满足面向机器的超低时延应用,需要将双向时延控制在10ms以内。

对于仅涉及到数据中心内部或数据中心间的机器之间的通信,比证券和期货行业的高频交易,这种网络延迟甚至要求小于1ms。

三 端到端的时延构成

上面提到的不同应用的时延要求都是端到端的双向时延,根据应用的不同这个端到端可能是用户端和服务器端,也可能是用户端和用户端之间。

端到端的时延包括应用处理时延和网络传输时延。

1 网络层传输时延

网络层传输时延指的是数据包的传输时延,比如数据包从手机发出到服务器接收,再从服务器发送到被终端接收。

网络传输时延包括网络接入时延、固网传输时延和数据中心内部网络时延。

对于用户从家庭宽带的固定网络访问云端的应用来说,整个端到端的时延构成如下:

image.png

  • 用户终端接入到家庭路由器,如果通过WiFi方式,在WiFi接入用户较少,轻负载的情况下时延一般在5-15ms左右,通过网线方式一般小于1ms。
  • 家庭路由器的WAN口连接到运营商的本地固网,从本地固网到运营商骨干网再到阿里云数据中心,视距离的长短,国内的网络时延在1到100ms不等。
  • 到阿里云数据中心后,数据中心内部的时延一般小于2ms。

如果用户的终端通过4G或5G接入网络,整个端到端的时延构成会稍微复杂一些。

image.png

  • 4G的终端到基站的空口时延一般在10到20ms左右。
  • 5G的终端到基站的空口时延降低到了1ms。
  • 基站到核心网的时延和物理距离强相关,时延在1到15ms不等。
  • 核心网的互联网出口会连接到本地固网。
  • 从本地固网到运营商骨干网再到阿里云数据中心,视距离的长短,网络时延在1到100ms不等。
  • 到阿里云数据中心后,数据中心内部的时延一般小于2ms。

2 应用层处理时延

应用层时延包含用户前端的终端上的应用处理时延和后端的服务器上的应用处理时延。

应用层处理时延根据不同的应用差异比较大,有的在10ms以内,有的则大于100 ms。
比如说抢红包,买商品之类的简单交互类应用,主要是一些数据包的交互,这种的应用层处理时延先对较少,很多在10ms以内。

  • 对于工业互联网类的应用,主要也时控制类的报文的交互,应用层处理时延会更小,很多在5ms以内。
  • 对于游戏类的应用,主要是终端向游戏服务器发送各种指令,另外一个方向是终端收到服务的数据后展示给用户。这种类型的应用的应用层处理时间比较适中,一般在30ms以内。终端发送指令时延很短,很多时候可以小于1ms,在服务器侧的游戏处理逻辑情况下也很快,一般在5ms内都能处理完,用户终端收到游戏服务器的数据后通过渲染将画面呈现给用户,这个应用层的渲染过程会稍微耗时一些,根据用户终端的处理性能,游戏的炫酷程度,处理时延在5到30ms之间不等。整体上游戏场景下的应用层处理时延在10到30ms。
  • 而涉及到音视频领域的应用层处理时延一般会比较高,主要是涉及到外设的音视频采集,音视频编解码,降噪和渲染等信号处理。业界比较成熟的音视频平台的应用层端到端时延一般可以控制在100ms以内。

四 从时延角度看应用部署架构

1 工业互联网类的应用部署架构

工业互联网类的应用的实时性要求一般都比较高,很多要求端到端时延在10ms左右。

image.png

减去应用层的5ms左右的处理时延,留给网络层的处理时延也就5ms了。

前面提到了网络层的时延包括网络接入时延、固网传输时延和数据中心内部网络时延:

  • 4G网络的网络接入时延一般在20ms左右,这种显然满足不了工业互联网的需求。
  • 固网网线接入时延一般小于1ms,所以很多工业互联网场景的设备时通过固网网线连接的。在5G时代,网络接入时延可以在1ms以内,可以把之前固定的设备无线化。
  • 对于数据中心内部处理时延,一般小型数据中心内部时延都小于1ms,超大型数据中心内部会大于1ms,但一般也会小于2ms。

如果按网络接入时延1ms,数据中心内部时延1ms,留给固网传输时延就3ms了。固网的1ms双向传输时延,代表光纤距离是100km。

这就要求在工业互联网场景下云数据中心要尽可能的靠近工业园区,基本上不能跨城。

在这种场景下用户可以选择的应用部署架构包括阿里云云盒本地部署,阿里云混合云本地部署。

2 实时音视频类应用部署架构

实时音视频类应用的特点是应用层处理时延较多,业界先进的音视频平台可以做到100ms以内。

实时音视频类的端到端的时延如前文所述端到端时延最好能控制在150ms以内,如果是在200ms以内也可以接受。

此时留给网络层的时延最多也就100ms。

而实时音视频应用的特点是两个用户终端通信,在这种场景下实际上是两个用户的流量是通过音视频服务器连接起来的,所以实际路径是:用户1 <—> 音视频服务器 <-> 用户2。

image.png

所以在音视频场景下,服务器到用户的网络传输时延应该控制在50ms以内。

音视频场景下大部分用户都使用移动端,对于4G网络网络接入时延一般在20ms左右。此时留给固网传输时延的时间在30ms以内。

下面是阿里云不同地域服务器到覆国内不同省份的固网时延图。

image.png

北京BGP EIP到不同省份时延数据

image.png

上海BGP EIP到不同省份时延数据

image.png

深圳BGP EIP到不同省份时延数据

image.png

成都BGP EIP到不同省份时延数据

在音视频场景下,在4G时代,要想给用户提供很好的用户体验,要考虑音视频服务器多地域部署。比如用阿里云北京Region覆盖京津冀经济区,用阿里云上海Region覆盖长三角地区,用阿里云深圳Region覆盖珠三角经济区,用阿里云成都Region覆盖西三角经济区。

在5G场景下,可以将网络接入时延从20ms降低到1ms。此时留给固网的传输时延可以从30ms变为50ms。这将很大程度上简化应用的部署架构,从理论上可以实现音视频服务器从多地域部署变为单地域部署。

image.png

3 实时竞技游戏类应用部署架构

实时竞技类游戏的端到端时延最好能控制在50ms以内,如果是在100ms以内也可以接受。

如果按端到端时延100ms来考虑,给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了50ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在50ms以内。

image.png

考虑到当前4G场景下,网络接入时延约20ms,此时留给固网传输时延的时间在30ms以内。在这种场景下和上面的实时音视频的应用部署架构要求基本一致了。

所以在4G场景下,对于实时竞技类游戏,需要多地域部署。可以考虑用阿里云北京Region覆盖京津冀经济区,用阿里云上海Region覆盖长三角地区,用阿里云深圳Region覆盖珠三角经济区,用阿里云成都Region覆盖西三角经济区。

在5G大规模部署的场景下,可以考虑单个地域部署。

4 实时交互类应用部署架构

实时竞技类游戏的端到端时延最好能控制在100ms以内,如果是在150ms以内也可以接受。

如果按端到端时延150ms来考虑,给游戏的前端和后端的应用层时延分配50ms。此时留给网络层的时延也变成了100ms。游戏场景下主要是用户和游戏服务器进行交互。此时要求游戏服务器到用户的网络层时延在100ms以内。

100ms的网络层传输时延是一个很宽松的要求,基本上用阿里云一个地域的服务器即可达到很好的覆盖效果。

image.png

所以对于实时交互类游戏应用,选择阿里云的一个地域部署应用即可。

5 电商类应用部署架构

电商类的应用的实时交互相对来讲不是太多,对端到端的时延能控制在300ms以内就能满足要求了。而电商应用后端和前端处理逻辑也相对来讲时延消耗也不是太多,给应用层处理时延分配100ms的话,网络层的时延还有200ms。

200ms的网络层传输时延是一个更宽松的指标。

image.png

所以对于电商类的应用,单纯从时延的角度考虑,选择阿里云的一个地域部署应用即可。不过电商类的应用一般情况下对可靠性要求都比较高,综合考虑容灾和高可靠,还是建议多地域高靠部署。

五 如何度量时延

时延是一个影响用户体验的关键指标,在一定程度上也能比较好的反应网络质量,如何有效的度量时延也变得很关键。

下面简单介绍几种比较有效的度量时延的工具和产品。

1 Ping

如果想进行点到点的时延测量,那么最简单最使用的就是ICMP Ping了。

image.png

通过ICMP Ping可以获取点到点的双向时延数据。

如果要想进行点到多点的时延测量,这种业界一般叫网络拨测。对于网络拨测阿里云也有比较成熟的产品化工具。

2 实时拨测

当前阿里云比较好用的网络实时拨测工具的链接如下:
https://zijian.aliyun.com/detect/ping

当前这个拨测工具是免费的。

image.png

通过阿里云的实时拨测工具,只需要输入IP或域名,就可以直接发起全国的探针对目标域名或IP的实时探测,2分钟就会出现全量的结果并以图形化方式呈现。

3 持续拨测

如果希望对应用持续进行网络质量的监控,如果出现故障后能否发送告警到具体的负责人,这种场景下阿里云对应的工具是云监控的站点监控,地址:
https://cloudmonitor.console.aliyun.com/index.htm#/newSite/list/

image.png

站点监控支持自定义探针和告警规则。

当前站点监控的探针基本上已经覆盖了中国内地的90%以上的省份和运营商。

告警规则的定义也比较灵活,而且可以将告警以邮件,电话,短信,钉钉机器人的方式发送。

image.png

六 总结

  • 不同的应用对于端到端的时延要求不同,对应的应用的部署架构也不一样。
  • 端到端的时延包含应用层处理时延和网络层传输时延。
  • 应用层处理时延一般情况下不太好优化,网络层传输时延可以通过部署架构优化的方式降低。
  • 网络层传输时延包括网络接入时延、固网传输时延和云数据中心内网络时延。
  • 通过将应用部署到靠近用户的位置,可以有效的降低固网传输时延。
  • 5G主要优化的是网络接入时延,在5G普及后对实时音视频、实时竞技游戏类应用部署架构的简化会比较有帮助。
  • 度量固网传输时延可以使用比较成熟的实时拨测和持续拨测工具。
相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
6天前
|
网络协议 安全 物联网
探索未来网络:IPv6的演进与应用
本文深入探讨了互联网协议第6版(IPv6)的发展历程、技术特点以及在各领域的应用前景。通过对IPv4面临的问题进行分析,阐明了IPv6出现的必要性及其在地址空间扩展、安全性提升和自动配置等方面的显著优势。结合当前技术趋势和应用案例,展望了IPv6在未来网络中的发展潜力,为相关领域的研究和实践提供了参考。
|
6天前
|
并行计算 安全 网络协议
探索未来网络:量子互联网的原理与应用
本文深入探讨了量子互联网的基本概念、技术原理及其潜在应用。通过对量子纠缠、量子叠加和量子隐形传态等核心概念的解释,文章展示了量子互联网如何利用量子力学特性来实现超高速、超高安全性的通信。此外,还讨论了量子互联网在金融、医疗、国防等领域的应用前景,以及当前面临的技术挑战和未来的发展方向。
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
36 1
|
6天前
|
网络协议 物联网 5G
探索未来网络:IPv6的演进与应用
本文深入探讨了互联网协议第六版(IPv6)的发展背景、技术特性及其在现代网络中的应用。通过分析IPv4面临的地址枯竭问题,阐述了IPv6作为解决方案的重要性和紧迫性。文章详细介绍了IPv6相较于IPv4的改进之处,如更大的地址空间、简化的包头格式、增强的组播支持等,并探讨了IPv6在实际部署中遇到的挑战及应对策略。通过对IPv6过渡技术和双栈技术的讨论,揭示了其在促进下一代互联网发展中的关键作用。此外,文章还展望了IPv6在未来网络安全、物联网整合以及新兴技术中的应用前景,强调了掌握IPv6技术对于把握未来互联网发展趋势的重要性。
|
6天前
|
Kubernetes Cloud Native 持续交付
探索云原生架构:打造弹性可扩展的应用
【9月更文挑战第29天】在云计算的浪潮中,云原生架构成为企业追求高效、灵活和可靠服务的关键。本文将深入解析云原生的概念,探讨如何利用容器化、微服务和持续集成/持续部署(CI/CD)等技术构建现代化应用。我们将通过一个简易的代码示例,展示如何在Kubernetes集群上部署一个基于Node.js的应用,从而揭示云原生技术的强大能力和潜在价值。
19 6
|
7天前
|
监控 Cloud Native 持续交付
云原生架构:构建弹性与高效的现代应用##
随着云计算技术的不断成熟,云原生架构逐渐成为企业技术转型的重要方向。本文将深入探讨云原生的核心概念、主要技术和典型应用场景,以及如何通过云原生架构实现高可用性、弹性扩展和快速迭代,助力企业在数字化转型中保持竞争优势。 ##
25 6
|
8天前
|
运维 Cloud Native 持续交付
云原生架构:构建未来应用的基石
本文将深入探讨云原生架构的核心概念、主要优势以及实际应用案例,揭示其在现代IT领域的重要性。通过详细解析云原生技术的各个方面,帮助读者更好地理解和应用这一前沿技术。
|
4天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【9月更文挑战第31天】本文旨在通过浅显易懂的语言和直观的比喻,为初学者揭开深度学习中卷积神经网络(CNN)的神秘面纱。我们将从CNN的基本原理出发,逐步深入到其在图像识别领域的实际应用,并通过一个简单的代码示例,展示如何利用CNN进行图像分类。无论你是编程新手还是深度学习的初学者,这篇文章都将为你打开一扇通往人工智能世界的大门。
|
5天前
|
SQL 安全 算法
网络安全的盾牌与剑:漏洞防御与加密技术的实战应用
【9月更文挑战第30天】在数字时代的浪潮中,网络安全成为守护信息资产的关键防线。本文深入浅出地探讨了网络安全中的两大核心议题——安全漏洞与加密技术,并辅以实例和代码演示,旨在提升公众的安全意识和技术防护能力。
|
6天前
|
机器学习/深度学习 算法 搜索推荐
图神经网络综述:模型与应用
图神经网络综述:模型与应用
下一篇
无影云桌面