云杉网络DeepFlow帮助5G核心网和电信云构建可观测性

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。

5G通信网的稳定运行是保障社会稳定运行的重要基础,而5G核心网则是5G通信网的枢纽和大脑,是整个通信网运行、维护、保障的重中之中。通过以上事件可以感知5G核心网在运行稳定性上还有待提升,另一方面现有的故障监测、快速定位、快速恢复能力存在短板。

# 5G核心网的运维困境

云杉网络通过对多个运营商的一线运维技术人员调研和交流之后,发现现阶段5G核心网的运维痛点集中在:(1)云网络“黑盒化”:(2)运维技术难度高;(3)故障定责定界难;(4)云平台面向业务的保障难。以下举几个实际例子。

例子一:当PCF出问题的时候,核心网运维可能会联系云平台“我们这里的PCF1服务不正常,看到服务器上有告警,你们赶紧处理一下”,而云平台运维可能会觉得“服务器的告警好像和PCF的服务异常没什么关系,是不是PCF软件出问题了?”

例子二:某个VNF升级之后,服务有异常,核心网运维查了半天也找不出原因,最后看到虚拟机有告警,反馈给网络云运维后,很可能得到这样的反馈“升级前后都有相同的告警,升级前没有问题,是不是你们新版本软件的原因?”

追究其原因,5G核心网和电信云是通过通用x86+云技术、容器技术,提供软硬解耦的解决方案,稳定性不确定,更多的需要依靠云、容器的动态、弹性能力提供相对的可靠性。同时,5G核心网完全承载在一个Overlay叠加Underlay的网络上,网元内部复杂的微服务通过一个Full-Mesh的网络互联,网元之间的边界不清晰、路径不清晰,网络基本处于“黑盒”状态。由此也不难看出:可观测性对5G核心网的可靠性运行非常重要!

近几年,云原生可观测性已经成为IT领域解决业务可靠性的重要理论,“可观测性=可靠性”基本成为IT运维的共同认知。所谓云原生可观测性,简单来说就是快速有效的诊断复杂业务系统内部的运行状态。经过近十年的发展,云杉网络从SDN核心技术逐步走向网络自动化和可观测性,致力解决云原生应用诊断难的核心痛点,其中DeepFlow产品在各行各业积累了大量的实战经验,成功帮助数家企业构建多维度、一体化的可观测性平台。

# DeepFlow 帮助5G核心网和电信云构建可观测性

DeepFlow是一款面向5G核心网,应对网络功能服务(NFS)解耦后的新挑战,进行网络流量采集、分发、可视化与监控保障的产品。帮助运营商在5G核心网基于服务架构中统一采集网络、系统、应用的可观测指标数据,并动态关联其资源、服务、业务、事件等属性,实现对5G核心网全景性能监控;并提供容器化后网元服务间访问调用的全栈链路追踪,帮助构建5G核心网可观测性能力,应对云原生特点,紧密结合5G服务,解决5G核心网生产中遇到的监控、运维、保障等难题。

1.多维度、深层次5G核心网全景性能监控

在5G核心网中,自身运行的网络IP节点数量已经百倍以上规模的增长,容器化微服务POD形成一个Full-Mesh的网络,网络的虚拟化、弹性变化,使得整个5G核心网的内部网络“黑盒化”。

对5G核心网来说,可以通过DeepFlow的采集器技术,实现网络+应用的全面可观测性,不用再依赖5GC开发厂商的日志输出能力、指标输出能力、用户追踪数据输出能力。同时借助DeepFlow强大的数据分析能力,可以对5G核心网网元、云平台,从宏观到微观、不同层次、不同维度的全景性能监控。

比如,云平台运维人员:可以从全网宿主机的观测视图,监测云资源池、宿主机之间的流量互访拓扑、业务访问性能;可以从单网元的宿主机观测视图,监测某个网元(比如AMF或SMF)的VNF软件内部的微服务/模块在宿主机上的分布情况,在宿主机之间的互访拓扑、互访性能,快速发现宿主机维度的异常情况。

比如,核心网运维人员:通过VNF网元的维度,观测全网VNF网元SBI口的业务互访关系和业务互访性能;通过VNF网元内部的微服务POD维度,观测VNF网元内部POD粒度的互访关系、互访性能;通过POD到POD的网络全栈链路追踪,观测任意一次客户端到服务端在云网络中的流量流转路径。

2.跨层、逐段分解网络全栈链路追踪

DeepFlow的网络全栈链路追踪,是解决5G核心网、云平台之间快速跨层故障定界的关键能力,将虚拟化所实现的逻辑通信进行逐步展开,清晰展示每段的网络状态、性能,结合知识图谱及丰富的指标数据,快速定位性能异常的问题范围边界。

对于5G核心网和电信云平台的运维人员来说,目前最头痛事情就是故障的跨层定界,通过DeepFlow跨层的网络全栈链路追踪,可以非常迅速的确定某一次业务访问是否有丢包、时延问题,并快速确定故障发生的位置,从而在云平台和软件层之间做快速的定界、定位。

3.业务访问从应用到网络端到端追踪

除了全栈链路追踪,DeepFlow对每一次业务访问的应用层实现了应用+网络的端到端追踪。运维人员可以通过系统检索、分析、追踪任意一次访问,快速洞察应用异常。“从客户端进程——>服务1进程——>服务2进程——>……——>服务n”的端到端服务调用关系,每一段服务调用的时延、异常均实现了关联分析,包括每一段服务调用的流量在云网络中的关键路径及时延指标关联分析,可以说DeepFlow实现了应用+网络统一的可观测性,并且深入且细致到每一次业务访问的粒度。

在5G核心网领域,监控、运维、保障都是新难题,作为一家IT网络解决方案厂商,云杉网络将加大创新力度,重点发展5G方面的业务,持续为中国5G高质量发展贡献力量。

相关实践学习
基于OpenTelemetry构建全链路追踪与监控
本实验将带领您快速上手可观测链路OpenTelemetry版,包括部署并接入多语言应用、体验TraceId自动注入至日志以实现调用链与日志的关联查询、以及切换调用链透传协议以满足全链路打通的需求。
分布式链路追踪Skywalking
Skywalking是一个基于分布式跟踪的应用程序性能监控系统,用于从服务和云原生等基础设施中收集、分析、聚合以及可视化数据,提供了一种简便的方式来清晰地观测分布式系统,具有分布式追踪、性能指标分析、应用和服务依赖分析等功能。 分布式追踪系统发展很快,种类繁多,给我们带来很大的方便。但在数据采集过程中,有时需要侵入用户代码,并且不同系统的 API 并不兼容,这就导致了如果希望切换追踪系统,往往会带来较大改动。OpenTracing为了解决不同的分布式追踪系统 API 不兼容的问题,诞生了 OpenTracing 规范。OpenTracing 是一个轻量级的标准化层,它位于应用程序/类库和追踪或日志分析程序之间。Skywalking基于OpenTracing规范开发,具有性能好,支持多语言探针,无侵入性等优势,可以帮助我们准确快速的定位到线上故障和性能瓶颈。 在本套课程中,我们将全面的讲解Skywalking相关的知识。从APM系统、分布式调用链等基础概念的学习加深对Skywalking的理解,从0开始搭建一套完整的Skywalking环境,学会对各类应用进行监控,学习Skywalking常用插件。Skywalking原理章节中,将会对Skywalking使用的agent探针技术进行深度剖析,除此之外还会对OpenTracing规范作整体上的介绍。通过对本套课程的学习,不止能学会如何使用Skywalking,还将对其底层原理和分布式架构有更深的理解。本课程由黑马程序员提供。
相关文章
|
20天前
|
存储 监控 安全
单位网络监控软件:Java 技术驱动的高效网络监管体系构建
在数字化办公时代,构建基于Java技术的单位网络监控软件至关重要。该软件能精准监管单位网络活动,保障信息安全,提升工作效率。通过网络流量监测、访问控制及连接状态监控等模块,实现高效网络监管,确保网络稳定、安全、高效运行。
46 11
|
3天前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
3天前
|
人工智能 大数据 网络性能优化
构建超大带宽、超高性能及稳定可观测的全球互联网络
本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。
|
13天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
87 13
|
27天前
|
云安全 人工智能 安全
|
1月前
|
机器学习/深度学习 人工智能 算法
深度学习入门:用Python构建你的第一个神经网络
在人工智能的海洋中,深度学习是那艘能够带你远航的船。本文将作为你的航标,引导你搭建第一个神经网络模型,让你领略深度学习的魅力。通过简单直观的语言和实例,我们将一起探索隐藏在数据背后的模式,体验从零开始创造智能系统的快感。准备好了吗?让我们启航吧!
73 3
|
2月前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
2月前
|
5G 网络架构
怎么区分5G卡片开启的网络类型是NSA(非独立组网)还是SA(独立组网)
要确定5G卡片开启的网络类型是NSA(非独立组网)还是SA(独立组网),你通常需要进行以下操作:
|
2月前
|
SQL 安全 前端开发
PHP与现代Web开发:构建高效的网络应用
【10月更文挑战第37天】在数字化时代,PHP作为一门强大的服务器端脚本语言,持续影响着Web开发的面貌。本文将深入探讨PHP在现代Web开发中的角色,包括其核心优势、面临的挑战以及如何利用PHP构建高效、安全的网络应用。通过具体代码示例和最佳实践的分享,旨在为开发者提供实用指南,帮助他们在不断变化的技术环境中保持竞争力。
|
2月前
|
传感器 自动驾驶 物联网
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
探秘 5G 核心网络之 5G RAN:开启高速通信新时代
80 4