云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

本文涉及的产品
性能测试 PTS,5000VUM额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

5G通信网的稳定运行是保障社会稳定运行的重要基础,而5G核心网则是5G通信网的枢纽和大脑,是整个通信网运行、维护、保障的重中之中。通过以上事件可以感知5G核心网在运行稳定性上还有待提升,另一方面现有的故障监测、快速定位、快速恢复能力存在短板。

# 5G核心网的运维困境

云杉网络通过对多个运营商的一线运维技术人员调研和交流之后,发现现阶段5G核心网的运维痛点集中在:(1)云网络“黑盒化”:(2)运维技术难度高;(3)故障定责定界难;(4)云平台面向业务的保障难。以下举几个实际例子。

例子一:当PCF出问题的时候,核心网运维可能会联系云平台“我们这里的PCF1服务不正常,看到服务器上有告警,你们赶紧处理一下”,而云平台运维可能会觉得“服务器的告警好像和PCF的服务异常没什么关系,是不是PCF软件出问题了?”

例子二:某个VNF升级之后,服务有异常,核心网运维查了半天也找不出原因,最后看到虚拟机有告警,反馈给网络云运维后,很可能得到这样的反馈“升级前后都有相同的告警,升级前没有问题,是不是你们新版本软件的原因?”

追究其原因,5G核心网和电信云是通过通用x86+云技术、容器技术,提供软硬解耦的解决方案,稳定性不确定,更多的需要依靠云、容器的动态、弹性能力提供相对的可靠性。同时,5G核心网完全承载在一个Overlay叠加Underlay的网络上,网元内部复杂的微服务通过一个Full-Mesh的网络互联,网元之间的边界不清晰、路径不清晰,网络基本处于“黑盒”状态。由此也不难看出:可观测性对5G核心网的可靠性运行非常重要!

近几年,云原生可观测性已经成为IT领域解决业务可靠性的重要理论,“可观测性=可靠性”基本成为IT运维的共同认知。所谓云原生可观测性,简单来说就是快速有效的诊断复杂业务系统内部的运行状态。经过近十年的发展,云杉网络从SDN核心技术逐步走向网络自动化和可观测性,致力解决云原生应用诊断难的核心痛点,其中DeepFlow产品在各行各业积累了大量的实战经验,成功帮助数家企业构建多维度、一体化的可观测性平台。

# DeepFlow 帮助5G核心网和电信云构建可观测性

DeepFlow是一款面向5G核心网,应对网络功能服务(NFS)解耦后的新挑战,进行网络流量采集、分发、可视化与监控保障的产品。帮助运营商在5G核心网基于服务架构中统一采集网络、系统、应用的可观测指标数据,并动态关联其资源、服务、业务、事件等属性,实现对5G核心网全景性能监控;并提供容器化后网元服务间访问调用的全栈链路追踪,帮助构建5G核心网可观测性能力,应对云原生特点,紧密结合5G服务,解决5G核心网生产中遇到的监控、运维、保障等难题。

1.多维度、深层次5G核心网全景性能监控

在5G核心网中,自身运行的网络IP节点数量已经百倍以上规模的增长,容器化微服务POD形成一个Full-Mesh的网络,网络的虚拟化、弹性变化,使得整个5G核心网的内部网络“黑盒化”。

对5G核心网来说,可以通过DeepFlow的采集器技术,实现网络+应用的全面可观测性,不用再依赖5GC开发厂商的日志输出能力、指标输出能力、用户追踪数据输出能力。同时借助DeepFlow强大的数据分析能力,可以对5G核心网网元、云平台,从宏观到微观、不同层次、不同维度的全景性能监控。

比如,云平台运维人员:可以从全网宿主机的观测视图,监测云资源池、宿主机之间的流量互访拓扑、业务访问性能;可以从单网元的宿主机观测视图,监测某个网元(比如AMF或SMF)的VNF软件内部的微服务/模块在宿主机上的分布情况,在宿主机之间的互访拓扑、互访性能,快速发现宿主机维度的异常情况。

比如,核心网运维人员:通过VNF网元的维度,观测全网VNF网元SBI口的业务互访关系和业务互访性能;通过VNF网元内部的微服务POD维度,观测VNF网元内部POD粒度的互访关系、互访性能;通过POD到POD的网络全栈链路追踪,观测任意一次客户端到服务端在云网络中的流量流转路径。

2.跨层、逐段分解网络全栈链路追踪

DeepFlow的网络全栈链路追踪,是解决5G核心网、云平台之间快速跨层故障定界的关键能力,将虚拟化所实现的逻辑通信进行逐步展开,清晰展示每段的网络状态、性能,结合知识图谱及丰富的指标数据,快速定位性能异常的问题范围边界。

对于5G核心网和电信云平台的运维人员来说,目前最头痛事情就是故障的跨层定界,通过DeepFlow跨层的网络全栈链路追踪,可以非常迅速的确定某一次业务访问是否有丢包、时延问题,并快速确定故障发生的位置,从而在云平台和软件层之间做快速的定界、定位。

3.业务访问从应用到网络端到端追踪

除了全栈链路追踪,DeepFlow对每一次业务访问的应用层实现了应用+网络的端到端追踪。运维人员可以通过系统检索、分析、追踪任意一次访问,快速洞察应用异常。“从客户端进程——>服务1进程——>服务2进程——>……——>服务n”的端到端服务调用关系,每一段服务调用的时延、异常均实现了关联分析,包括每一段服务调用的流量在云网络中的关键路径及时延指标关联分析,可以说DeepFlow实现了应用+网络统一的可观测性,并且深入且细致到每一次业务访问的粒度。

在5G核心网领域,监控、运维、保障都是新难题,作为一家IT网络解决方案厂商,云杉网络将加大创新力度,重点发展5G方面的业务,持续为中国5G高质量发展贡献力量。

相关实践学习
基于OpenTelemetry构建全链路追踪与监控
本实验将带领您快速上手可观测链路OpenTelemetry版,包括部署并接入多语言应用、体验TraceId自动注入至日志以实现调用链与日志的关联查询、以及切换调用链透传协议以满足全链路打通的需求。
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
1月前
|
28天前
|
安全 网络架构
MPLS线路构建稳定、高效网络的优选方案
【10月更文挑战第17天】MPLS线路构建稳定、高效网络的优选方案
46 5
|
8天前
|
SQL 安全 前端开发
PHP与现代Web开发:构建高效的网络应用
【10月更文挑战第37天】在数字化时代,PHP作为一门强大的服务器端脚本语言,持续影响着Web开发的面貌。本文将深入探讨PHP在现代Web开发中的角色,包括其核心优势、面临的挑战以及如何利用PHP构建高效、安全的网络应用。通过具体代码示例和最佳实践的分享,旨在为开发者提供实用指南,帮助他们在不断变化的技术环境中保持竞争力。
|
25天前
|
运维 供应链 安全
SD-WAN分布式组网:构建高效、灵活的企业网络架构
本文介绍了SD-WAN(软件定义广域网)在企业分布式组网中的应用,强调其智能化流量管理、简化的网络部署、弹性扩展能力和增强的安全性等核心优势,以及在跨国企业、多云环境、零售连锁和制造业中的典型应用场景。通过合理设计网络架构、选择合适的网络连接类型、优化应用流量优先级和定期评估网络性能等最佳实践,SD-WAN助力企业实现高效、稳定的业务连接,加速数字化转型。
SD-WAN分布式组网:构建高效、灵活的企业网络架构
|
10天前
|
传感器 自动驾驶 物联网
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
32 4
|
12天前
|
监控 安全 网络安全
企业网络安全:构建高效的信息安全管理体系
企业网络安全:构建高效的信息安全管理体系
40 5
|
11天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
30 3
|
20天前
|
边缘计算 自动驾驶 5G
|
14天前
|
监控 安全 自动驾驶
|
19天前
|
运维 安全 5G