算力包括以超算为代表的超算中心、以 CPU 为代表的数据中心以及以 NPU、GPU 和 FPGA 等为代表的计算中心。
去年年底的数据表明,美国占据全球算力的31%,中国占27%,位居全球第二。国家自前年开始推动东数西算,部署了八大算力枢纽、十大算力集群。当前,中国超算数量占全球超算 500 强的34.6%。
按照工信部预计,截至2023 年,国家八大枢纽将占据全国70%的算力。
东数西算依赖于东西之间的通信网络,算力对通信网有着很高要求,可以归纳为弹性、高效、感知、安全、经济以及低碳。
弹性:计算任务有潮汐效应,因此通讯网络也需要相应的弹性能力进行支撑。
高效:通信网络有较高的可靠性要求,因此不可避免会存在计算浪费。有实验表明,0.1%的丢包率会使算力效率损失50%。
感知:需要感知不同类型的计算需求。IO 密集型和 CPU 密集型的任务对通信网络有不同的需求。
安全:数据的接入硬件对于安全性有极高要求,尤其是算力节点服务于多个客户,多个客户之间需要进行隔离,同时要防止外部的入侵。
经济、低碳:对于算力,还需考虑成本、经济性以及如何降低能耗,鼓励使用绿色能源。
算力不仅包括数据中心内部的计算,还需要进行跨数据中心的调度、虚拟机的迁移,以及需要通过多个数据中心协同,才能保证算力利用率的提高,获得集约化的效益。
因此,我们需要有感知算力的能力。
首先,感知数据中心的算力。不同的计算类型任务对纯算的架构要求有所不一。例如I/O密集任务与CPU密集任务适于采用不同的架构;存算比过低即存储能力不足也会影响算力的发挥。
其次,计算时需要调度算法,而算法本身会根据不同的任务使用不同的软件,互相之间存在关联。因此,通过计算任务调优来适应软件的需求,也是感知能力的要求之一。
此外,要感知数据中心内部与数据中心之间光互联传输系统的实时性能,还需考虑成本、远近和数据安全等因素。
数据中心的业主不同,运营者也不同,算力与网络可能不属于同一运营主体,难有统一的操作系统。此时需要利用数据面的能力,即利用 IPv6 来实时感知算和网需要的资源和能力,实现算网的协同优化。
IPv6的前身是 IPv4, IPv4只有源地址和目的地址,只能根据两个地址来决定选路,并不清楚 IP 流承载的业务对通信网络的需求。而IPv6 拥有丰富的地址,可以利用 IPv6 地址的可扩展报头128 个比特的前 80 个比特来标注用户的身份、App 的身份以及服务质量的等级要求,用后 40 个比特来定义 IP 流承载的业务对信道的带宽、抖动、时延、丢包率的要求。网络根据 IPv6 地址即可识别 IP 流对信道的QoS 要求。
根据以上能力可对路由选择进行优化,比如企业内部的敏感数据在企业内部,不敏感的数据可以发送到外部。在 VR、AR 以及游戏元宇宙等场景,一种业务应用会有多个视频输入,但并不意味着每一个视频输入都对算力和网络有同样的带宽、时延、抖动的要求。根据 IPv6 扩展地址报头里对信道性能的定义,可以分别对不同业务选择不同的信道。
在 IPv6 的扩展地址报头里可以加入数据属性的指示,便于对数据流动的管理。特别是在跨境数据流动时,敏感数据可以根据 IPv6 扩展地址报头里的指示判断是否可批准、是否可以跨境,从而更好地把握数据类型。
传统互联网场景下,同一个业务流前后的 IP 包即使来自同一个源或到同一个目的地,中间的路由也不尽相同,每个 IP 包独立选路。因此,即便同源同目的地,并不意味着实际业务信道的性能一致。
而IPv6提供了随流检测技术,可以利用地址字段里的空闲比特定义一些染色比特,根据此类比特在传输路径上经历的时延、丢包率等,实时捕捉到网络的传输性能,可完全反映业务情况。如果性能不符合要求,可实时调整到另一个符合要求的信道。
随流检测能够还原出 IP 包经过的路由,可以实现路径的溯源,进行路径还原,有助于对跨境数据的管理。
互联网发展之初主要利用 TCP/IP 屏蔽底层的差异,同时也承接上层的多种服务。后随着 SDN 技术的发展引入了控制面的能力,但 SDN 依然难以跨运营商以及跨云服务商实现端到端的管理。因此在发挥 SDN 控制面能力的同时,仍然需要增强数据面的能力,比如 5G 核心网,它增加了控制面的功能,同时也强化了数据面和用户面的功能。
SDN时期,如果从 A 到 Z 选择一条路由,需要通过控制面下达到每个路由器,每个路由器接受控制面的指令来决定传输到下一个跳的路由。而现在,在源端路由器IPv6地址扩展字段嵌入由SDN下发的路由指令,沿线路由器仅需按IPv6地址来执行转发,避免了控制面的复杂性和时延。
网络故障时,通过软件定义网重新计算,而计算结果只下发到第一个路由器,如上图,计算上的第一跳仍然是N2,第二条跳到N3,第三跳到N9 ,无需在故障时重新计算路由,而是预先计算,可以实现快速倒换。
如果业务从 A 到 Z没有特殊要求,则称为缺省路径,可以任意选择一条路径。如果要求低时延,则可以选择低时延的路径;如果要求高宽带,则可以选择高宽带的路径。
利用 SRv6,可以组织切片提供符合业务需求的VPN,也可以组织组播,同时还可提供负载均衡、多路径的转发,甚至可以实现多路径冗余来保障传输的可靠性。
SRv6只涉及到源节点和终端节点,相对于IPv而言,大大简化了控制面协议,也简化了对网络管理的要求,无需涉及控制面即可执行,有利于跨运营商以及跨云服务商打通云、网、边、端的协同,实现云、网、边、端的统一承载。
IPv6另一重要特征为多归属。在 PDU会话时,可能同时有数据、视频、传感器等有不同业务,不同业务需要不同的路由,而多归属可以为同一个会话同时提供多个不同路由,适应不同业务的需要。
比如针对边缘计算,多归属可以提供基于源地址的分流作用;移动通信网络机从一个基站切换到另一个基站时,可以在不离开原有基站的同时连接到新的基站,实现先接后断,使得切换时尽可能不丢包。
通过 IPv6 的多归属可以实现 UPF的分离。比如从企业的分支机构到企业总部,有些数据需要在企业内部运行,可以通过 5G 核心网的用户面与控制面分离的特点,将用户面UPF功能下沉到企业。而 UPF 利用了IPv6 的多归属能力,可以识别 IP 流是去往企业内部还是外部,保证敏感数据不出企业,是区别网络安全管理的有效措施。
线上会议是组播形式,涉及到多个地方不同用户的接入。传统PIM(协议无关组播)N个VPN 客户且每客户有M个组播业务时,运营商核心层设备需维护N*M个组播流状态信息,网络不堪重负。
而IPv6 时代只需要源端和终端两个节点,中间的路由器只需要根据 IPv6 的地址指示进行转发,无需考虑是否为组播以及属于哪个流,大幅简化了组播的需求,实现了大容量组播。
工业应用上往往不仅要求低时延,还要求确定性的时延。而当前的互联网对时延以及确定性并没有特殊保障。如果对每个流都实现确定性,则需要变为面向连接的方式,但该方式传网效率极低。
而在面向无连接的模式下,可以在IPv6包头嵌入一个流标志字段,可以根据 IPv6 地址字段指示的业务流的需求,根据现有的网络资源来判断是否能满足需求,如果不满足则不接入,业务流可选择其他网络;如果可满足则允许业务流接入。允许业务流接入时,需要保证业务流前后的连贯 IP 包都应该走在同一个路由上,也相当于提供面向连接的通道。如果为每一个流提供确定性通道,网络效率仍然较低。
因此,我们采用了类似班车的制度。需要满足确定性时延的 IP 流到达时,进入与其时间相对应的定点班车;如果 IP 流到达前班车已经出发,则在输入的第一个点上不会引入时延;如果IP流到达时班车还未到达发车时间,则会引入时延,时延为班车的间隔时间 T 。在中间节点,如果班车有空则可插入其他源地址的 IP 流,同一个班车里存在不同来源的 IP 流时,会进行重新排位。在同一个班车里,最多引入时延为一个 T ,最终的不确定时延为两个 T,目前一个 T 为 10 微秒。最终,我们通过允许确定性时延的误差使得网络的效率得以提升。
确定性的重要保障为可靠性,因此我们将 IPv6的确定性机制设置为两路同时并发,通过二选一来更好地提供可靠性保障。
IPv6 网络层的能力还会与MAC层以及物理层相融合配套。
在 1G/2G 时代,传输话音和短信时,为了保证高效率和确定性,一般使用时分复用的方案,典型的有SDH同步数字系列、MSTP多业务传输平台。在 3G/4G 时代,主要传输互联网和视频,一般使用统计复用、分组交换的方法提高效率。同时,为了保障话音业务的服务质量,会在 IP 链的基础上做改进,变为PTN分组传送网,提供面向连接的能力。
5G 时代的业务类型更多,既有需要确保时延的业务服务,也有希望更高效率的服务,我们往往使用 SPN切片分组网。
SPN的第三层为 IP 包,包含了 MST 多协议标签交换的技术。同时,我们更希望使用 SRv6 的技术提供第三层的细颗粒性服务。第一层使用灵活的以太网来支撑大颗粒的交换,可以实现 64B/66B的大颗粒转发,降低了时延也提高了效率。对于 QoS 要求较严格的服务,通过 SPN在 FlexE 的包装下,可实现以 10 Mbps为单位的颗粒性交换。通过切片分组网,最终具备了以太网、统计复用、时分复用以及 IP 层的服用,实现了物理层的硬隔离、TDM 层的硬隔离以及第三层的远隔离。
IPv6可以很好地提供算网协同。
很多企业有工业设计、药品仿真、电网建模、动漫渲染的需求,以上需求均需要利用人工智能,使用大数据分析。但这并不意味着每个企业都需要自建算力平台,需要自己购买更多的算法软件,他们可以仅仅作为算力的消费者连接到算力调度与交易平台。
在平台的另一侧,有算力网的业务提供者,能够提供数据中心、超算中心、边缘计算等能力。在算力应用商店的指示下,通过算力网的控制面接到 IPv6 网络,然后通过 IPv6 将算力连接到 IDC 互联网数据中心。 IDC 的主体是服务器,它是工业计算机,包括存储和容量。虚拟头内提供了交换机,可实现跨服务器核跨数据中心的数据融合和调度。
IDC 是云平台里最基础IaaS部分,我们还需要有 PaaS 和 SaaS 平台来提供相应的算法。
而通过 IPv6,我们可以感知客户的需求以及判断其与算力节点的距离,同时根据用户需要的计算任务,为客户选择从距离、成本、性能上均能满足需求的算力节点。客户可通过网络向选定的算力节点发出计算请求,使用算力节点提供的付费或免费的算力、算法、数据。在算力节点上计算的结果会通过 IPv6 网络发送给客户。
IPv6在算网协同中发挥了优化调度的作用,优化了网络效率和节点资源的配置,使得算力网络成为一种在云、网、边、端间按需分配和更灵活调度计算存储网络资源的新型信息基础设施用。
企业数字化转型最简单的方案为企业配置 5G 工业模组,租用运营商的基站,利用运营商用户面功能的下沉直接上云。 IPv6 在其中能够发挥优化调度、安全保障、数据管理等作用。