DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。

01 | 5GC运维痛点

随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。

在实际的5GC运维过程中,已经暴露出系统“黑盒化”、运维技术难度高、故障定责定界难、面向业务保障难等一系列挑战。

正是由于NFV化带来的网络可靠性问题和运维保障困难,各大运营商在现阶段只能退而求其次,暂缓5GC三层解耦工作,只推进硬件层解耦,或者硬件层与虚拟层、网元层厂商绑定,由5GC厂商来确保网络运行可靠性,但实际工作中,5GC厂商在对现网进行运维保障时面临与运营商同样的技术挑战和跨技术部门协同的困境。

02 | DeepFlow云网络流量监控运维管理平台

DeepFlow是由云杉网络开发,面向云数据中心、用于业务可靠性保障的一款云网络流量监控运维管理平台。
DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。

image.png
图1 DeepFlow 5GC网络监控架构

03 | 方案要点

  1. 兼容性强:与各厂商5GC方案全兼容。
  2. 低资源消耗:1%的CPU资源、1%的内存资源、1‱~1%的网络带宽资源。
  3. 跨层跨域:硬件层、虚拟化层、容器层全栈流量采集和网络性能分析,准确、客观反映网元/网络状态,不依赖厂商日志。
  4. 秒级定位:智能分析、关联展现任意资源点间端到端、逐跳性能指标,实现故障秒级定界、定责、定位。
  5. 运维场景:有效支撑丢包、时延、传输层异常、应用层异常、网络风暴、信令风暴等场景的监控、运维、故障定位。

04 | 使用案例

2020年在某电信运营商网络云测试资源池进行了DeepFlow系统的部署,纳管宿主机、虚拟机、容器POD、IP,实现对5GC的纳管覆盖和可视化监测分析。

通过在网络云测试资源池的部署使用,充分证明了DeepFlow的产品能力,能够打开5GC云资源池“网络黑盒”,实现对所有5GC网元(VNF)不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5GC网元的多维度网络监测视图,建立跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决了故障快速定界、定责的难题,快速定位故障源,提升解决时效;解决业务保障、网元运维、云资源运维、网络运维的协同难题;为5GC云资源池提供针对性的安全观测手段(信令风暴、网络风暴、DDoS攻击、非法IP访问等)。

05 | 故障定位案例

场景1:网元微服务DNS异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的“DNS异常均值”超出合理范围。

image.png
图2 PCF的“DNS异常均值”超出合理范围

在DeepFlow系统中一键快速切换到PCF的容器POD视图中,发现“cse-etcd-1”的“DNS异常均值”最高,快速锁定故障源在网元容器POD-“cse-etcd-1”,指导网元运维人员介入处理故障。

image.png
图3 PCF内的某个容器POD的“DNS异常均值”超出合理范围

一键快速切换到“cse-etcd-2”的DNS日志视图,发现“cse-etcd-2”的DNS请求被DNS服务器反馈“名字错误”,快速为PCF业务运维人提供了详细DNS日志用于根因分析。

image.png
图4 “cse-etcd-2”的异常DNS日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景2:网元微服务TCP建连失败量异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的TCP建连失败远高于正常值(在5分钟内累计55.45K个)。

image.png
图5 PCF的TCP建连失败总量异常

一键快速切换到PCF的容器POD视图中,检查“建连—失败总量”排名,发现“vha-pod211-2”的容器POD异常,快速锁定故障源在网元容器POD-“vha-pod211-2”,指导PCF网元运维人员介入处理故障。

image.png
图6 PCF的vha-pod211-2容器POD建连失败总量异常

一键快速切换到“vha-pod211-2”的流日志视图,可以发现大量的“服务端直接重置”异常,快速为网元运维人提供流量日志用于根因分析。

image.png
图7 PCF的TCP建连失败流日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景3:虚拟机时延异常快速发现及快速定位

在Free5GC搭建的一套5GC环境中,使用DeepFlow云网络流量监控运维管理平台对5GC的全栈流量进行采集和可视化分析,通过模拟虚拟化层的故障,在虚拟机接口制造500ms的时延。

通过DeepFlow平台,在5GC VNF的可视化视图中,快速发现AMF->AUSF、AUSF->UDM链路出现HTTP时延峰值异常告警(图8步骤1)。

通过DeepFlow平台的全栈性能指标可视化视图,可以一键快速查阅AUSF->UDM全路径①-③、⑤-⑦接口的HTTP时延峰值、TCP建连客户端时延峰值、TCP建连客户端时延峰值,秒级锁定问题位置在接口⑤与接口⑥之间,即UDM的宿主机与虚机间的接口导致时延异常(图8步骤2)。

image.png
图8 虚拟机时延故障定位过程

*注1:①AUSF容器接口;②AUSF虚机接口;③AUSF宿主机接口;⑤UDM宿主机接口;⑥UDM虚机接口;⑦UDM容器接口
注2:步骤3-5表示HTTP时延、TCP建连客户端时延、TCP建连客户端时延的全栈指标图形化解读。*

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在虚拟机层,分钟级锁定出现问题的具体位置在某台虚拟机的某个虚接口。

05 | DeepFlow产品对5GC的价值

  1. 实现云资源池网络可视化,打开系统黑盒;
  2. 降低云资源池运维对各专业的技术挑战;
  3. 破解云资源池运维跨层定责定界、故障源定位难题;
  4. 提升业务运行可维护性、可靠性;
  5. 推进三层解耦的技术发展和实施落地。
相关文章
|
2月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
通过引入 Sidecar 容器的技术,SAE 为用户提供了更强大的自定义日志与监控解决方案,帮助用户轻松实现日志采集、监控指标收集等功能。未来,SAE 将会支持 istio 多租场景,帮助用户更高效地部署和管理服务网格。
300 51
|
1月前
|
运维 监控 中间件
Linux运维笔记 - 如何使用WGCLOUD监控交换机的流量
WGCLOUD是一款开源免费的通用主机监控工具,安装使用都非常简单,它可以监控主机、服务器的cpu、内存、磁盘、流量等数据,也可以监控数据库、中间件、网络设备
|
3月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
165 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
7月前
|
边缘计算 运维 5G
5G承载网是5G无线接入网与核心网之间的通信管道,负责高效传输数据,保障高速率、低时延和高可靠性
5G承载网是5G无线接入网与核心网之间的通信管道,负责高效传输数据,保障高速率、低时延和高可靠性。关键技术包括灵活以太网、网络切片、光传输和智能管控,支持多样化业务需求。未来将更加智能化、融合化和绿色节能,推动5G网络的快速发展。
622 4
|
2月前
|
机器学习/深度学习 人工智能 运维
AI为网络可靠性加“稳”——从断网烦恼到智能运维
AI为网络可靠性加“稳”——从断网烦恼到智能运维
131 2
|
7月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
720 3
|
3月前
|
消息中间件 运维 监控
智能运维,由你定义:SAE自定义日志与监控解决方案
SAE(Serverless应用引擎)是阿里云推出的全托管PaaS平台,致力于简化微服务应用开发与管理。为满足用户对可观测性和运维能力的更高需求,SAE引入Sidecar容器技术,实现日志采集、监控指标收集等功能扩展,且无需修改主应用代码。通过共享资源模式和独立资源模式,SAE平衡了资源灵活性与隔离性。同时,提供全链路运维能力,确保应用稳定性。未来,SAE将持续优化,支持更多场景,助力用户高效用云。
195 3
|
5月前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
6月前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
845 3
|
7月前
|
运维 监控 安全
运维自动化:提升效率与可靠性的关键技术
在信息技术飞速发展的今天,企业对IT系统的稳定性和高效性要求越来越高。运维自动化作为实现这一目标的重要手段,通过软件工具来模拟、执行和管理IT运维任务,不仅大幅提高了工作效率,还显著增强了系统的可靠性。本文将探讨运维自动化的概念、实施步骤以及面临的挑战,旨在为读者提供一份关于如何有效实施运维自动化的指南。