DeepFlow 电信运营商5G核心网可靠性监控运维最佳实践

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。

01 | 5GC运维痛点

随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。

在实际的5GC运维过程中,已经暴露出系统“黑盒化”、运维技术难度高、故障定责定界难、面向业务保障难等一系列挑战。

正是由于NFV化带来的网络可靠性问题和运维保障困难,各大运营商在现阶段只能退而求其次,暂缓5GC三层解耦工作,只推进硬件层解耦,或者硬件层与虚拟层、网元层厂商绑定,由5GC厂商来确保网络运行可靠性,但实际工作中,5GC厂商在对现网进行运维保障时面临与运营商同样的技术挑战和跨技术部门协同的困境。

02 | DeepFlow云网络流量监控运维管理平台

DeepFlow是由云杉网络开发,面向云数据中心、用于业务可靠性保障的一款云网络流量监控运维管理平台。
DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。

image.png
图1 DeepFlow 5GC网络监控架构

03 | 方案要点

  1. 兼容性强:与各厂商5GC方案全兼容。
  2. 低资源消耗:1%的CPU资源、1%的内存资源、1‱~1%的网络带宽资源。
  3. 跨层跨域:硬件层、虚拟化层、容器层全栈流量采集和网络性能分析,准确、客观反映网元/网络状态,不依赖厂商日志。
  4. 秒级定位:智能分析、关联展现任意资源点间端到端、逐跳性能指标,实现故障秒级定界、定责、定位。
  5. 运维场景:有效支撑丢包、时延、传输层异常、应用层异常、网络风暴、信令风暴等场景的监控、运维、故障定位。

04 | 使用案例

2020年在某电信运营商网络云测试资源池进行了DeepFlow系统的部署,纳管宿主机、虚拟机、容器POD、IP,实现对5GC的纳管覆盖和可视化监测分析。

通过在网络云测试资源池的部署使用,充分证明了DeepFlow的产品能力,能够打开5GC云资源池“网络黑盒”,实现对所有5GC网元(VNF)不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5GC网元的多维度网络监测视图,建立跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决了故障快速定界、定责的难题,快速定位故障源,提升解决时效;解决业务保障、网元运维、云资源运维、网络运维的协同难题;为5GC云资源池提供针对性的安全观测手段(信令风暴、网络风暴、DDoS攻击、非法IP访问等)。

05 | 故障定位案例

场景1:网元微服务DNS异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的“DNS异常均值”超出合理范围。

image.png
图2 PCF的“DNS异常均值”超出合理范围

在DeepFlow系统中一键快速切换到PCF的容器POD视图中,发现“cse-etcd-1”的“DNS异常均值”最高,快速锁定故障源在网元容器POD-“cse-etcd-1”,指导网元运维人员介入处理故障。

image.png
图3 PCF内的某个容器POD的“DNS异常均值”超出合理范围

一键快速切换到“cse-etcd-2”的DNS日志视图,发现“cse-etcd-2”的DNS请求被DNS服务器反馈“名字错误”,快速为PCF业务运维人提供了详细DNS日志用于根因分析。

image.png
图4 “cse-etcd-2”的异常DNS日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景2:网元微服务TCP建连失败量异常快速发现及快速定位

在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的TCP建连失败远高于正常值(在5分钟内累计55.45K个)。

image.png
图5 PCF的TCP建连失败总量异常

一键快速切换到PCF的容器POD视图中,检查“建连—失败总量”排名,发现“vha-pod211-2”的容器POD异常,快速锁定故障源在网元容器POD-“vha-pod211-2”,指导PCF网元运维人员介入处理故障。

image.png
图6 PCF的vha-pod211-2容器POD建连失败总量异常

一键快速切换到“vha-pod211-2”的流日志视图,可以发现大量的“服务端直接重置”异常,快速为网元运维人提供流量日志用于根因分析。

image.png
图7 PCF的TCP建连失败流日志

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。

场景3:虚拟机时延异常快速发现及快速定位

在Free5GC搭建的一套5GC环境中,使用DeepFlow云网络流量监控运维管理平台对5GC的全栈流量进行采集和可视化分析,通过模拟虚拟化层的故障,在虚拟机接口制造500ms的时延。

通过DeepFlow平台,在5GC VNF的可视化视图中,快速发现AMF->AUSF、AUSF->UDM链路出现HTTP时延峰值异常告警(图8步骤1)。

通过DeepFlow平台的全栈性能指标可视化视图,可以一键快速查阅AUSF->UDM全路径①-③、⑤-⑦接口的HTTP时延峰值、TCP建连客户端时延峰值、TCP建连客户端时延峰值,秒级锁定问题位置在接口⑤与接口⑥之间,即UDM的宿主机与虚机间的接口导致时延异常(图8步骤2)。

image.png
图8 虚拟机时延故障定位过程

*注1:①AUSF容器接口;②AUSF虚机接口;③AUSF宿主机接口;⑤UDM宿主机接口;⑥UDM虚机接口;⑦UDM容器接口
注2:步骤3-5表示HTTP时延、TCP建连客户端时延、TCP建连客户端时延的全栈指标图形化解读。*

通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在虚拟机层,分钟级锁定出现问题的具体位置在某台虚拟机的某个虚接口。

05 | DeepFlow产品对5GC的价值

  1. 实现云资源池网络可视化,打开系统黑盒;
  2. 降低云资源池运维对各专业的技术挑战;
  3. 破解云资源池运维跨层定责定界、故障源定位难题;
  4. 提升业务运行可维护性、可靠性;
  5. 推进三层解耦的技术发展和实施落地。
相关文章
|
17天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
2月前
|
运维 Prometheus 监控
OceanBase 的运维与监控最佳实践
【8月更文第31天】随着分布式数据库解决方案的需求日益增长,OceanBase 作为一种高性能的分布式数据库系统,在众多场景下得到了广泛应用。为了确保 OceanBase 集群的稳定运行,合理的运维与监控是必不可少的。本文将探讨 OceanBase 的日常运维管理与监控策略,并提供相应的代码示例。
64 2
|
16天前
|
运维 监控 安全
高效运维管理:提升系统可靠性的策略与实践
本文将深入探讨高效运维管理的关键策略和实践,旨在帮助运维团队提高系统的可靠性、可用性和稳定性。通过分析常见的运维挑战,提出相应的解决方案,并结合实际案例进行说明,为读者提供一套行之有效的运维管理指南。无论是新手还是经验丰富的运维工程师,都能从中获得有价值的见解和实用技巧。
|
26天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
17天前
|
运维 云栖大会
运维管理新品发布与最佳实践 | 2024云栖大会预告
运维管理新品发布与最佳实践 | 2024云栖大会
|
20天前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。
|
2天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的实践之路
在当今信息技术飞速发展的时代,运维作为保障企业信息系统稳定运行的关键环节,其重要性日益凸显。本文将探讨如何通过构建高效的运维体系,实现从被动响应到主动预防的转变,以及如何利用自动化工具提升运维效率和质量。我们将从运维的基本概念出发,逐步深入到监控、自动化和安全管理等方面,为企业提供一套实用的运维优化方案。
6 0
|
28天前
|
运维 监控 安全
自动化运维:提升效率与可靠性的现代策略
【9月更文挑战第6天】在数字化时代,自动化运维不再是可选项,而是企业保持竞争力的必需品。通过整合先进的技术和实践,自动化不仅提升了运维的效率,还增强了系统的稳定性和安全性。本文将探讨自动化运维的核心概念、实施步骤以及面临的挑战,同时提供实用的代码示例,帮助读者构建和优化自己的自动化运维体系。
19 2
|
11天前
|
运维 监控 负载均衡
高效运维管理:如何通过自动化提升系统可靠性
本文探讨了如何通过自动化提升系统可靠性,包括自动化监控、自动化部署、自动化测试和自动化故障恢复四个方面。通过实际案例展示了自动化在运维中的应用效果,强调了团队建设与培训的重要性以及持续改进与优化的策略。
13 0
|
20天前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践
在当今信息技术飞速发展的时代,运维作为保障信息系统稳定运行的关键环节,其重要性不言而喻。本文将围绕如何构建一个高效的运维体系进行深入探讨,内容涵盖从监控、日志分析到自动化运维工具的选择与应用,以及在实际工作中的经验和案例分享。通过本文的介绍,读者将能够了解到如何在复杂多变的技术环境中,确保系统的高可用性、高性能和安全性,为业务连续性提供坚实保障。
下一篇
无影云桌面