01 | 5GC运维痛点
随着CT与IT技术的融合以及5GC NFV化的发展,逐渐暴露出IT技术对通信网络可靠性的影响。云计算技术可以为通信网络带来硬件通用化、弹性化、资源池化,业务迭代加速等好处,但原有专用设备的可靠性、易维护性在新的云架构中面临巨大挑战。
在实际的5GC运维过程中,已经暴露出系统“黑盒化”、运维技术难度高、故障定责定界难、面向业务保障难等一系列挑战。
正是由于NFV化带来的网络可靠性问题和运维保障困难,各大运营商在现阶段只能退而求其次,暂缓5GC三层解耦工作,只推进硬件层解耦,或者硬件层与虚拟层、网元层厂商绑定,由5GC厂商来确保网络运行可靠性,但实际工作中,5GC厂商在对现网进行运维保障时面临与运营商同样的技术挑战和跨技术部门协同的困境。
02 | DeepFlow云网络流量监控运维管理平台
DeepFlow是由云杉网络开发,面向云数据中心、用于业务可靠性保障的一款云网络流量监控运维管理平台。
DeepFlow基于云原生的软探针流量采集技术、智能流量分析技术,实现对5GC云资源池硬件层网络接口、虚拟层网络接口、VNF层网络接口的全栈流量采集和分析,搭建5GC网络智能监控分析平台。
图1 DeepFlow 5GC网络监控架构
03 | 方案要点
- 兼容性强:与各厂商5GC方案全兼容。
- 低资源消耗:1%的CPU资源、1%的内存资源、1‱~1%的网络带宽资源。
- 跨层跨域:硬件层、虚拟化层、容器层全栈流量采集和网络性能分析,准确、客观反映网元/网络状态,不依赖厂商日志。
- 秒级定位:智能分析、关联展现任意资源点间端到端、逐跳性能指标,实现故障秒级定界、定责、定位。
- 运维场景:有效支撑丢包、时延、传输层异常、应用层异常、网络风暴、信令风暴等场景的监控、运维、故障定位。
04 | 使用案例
2020年在某电信运营商网络云测试资源池进行了DeepFlow系统的部署,纳管宿主机、虚拟机、容器POD、IP,实现对5GC的纳管覆盖和可视化监测分析。
通过在网络云测试资源池的部署使用,充分证明了DeepFlow的产品能力,能够打开5GC云资源池“网络黑盒”,实现对所有5GC网元(VNF)不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5GC网元的多维度网络监测视图,建立跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;通过跨层的可视化能力,解决了故障快速定界、定责的难题,快速定位故障源,提升解决时效;解决业务保障、网元运维、云资源运维、网络运维的协同难题;为5GC云资源池提供针对性的安全观测手段(信令风暴、网络风暴、DDoS攻击、非法IP访问等)。
05 | 故障定位案例
场景1:网元微服务DNS异常快速发现及快速定位
在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的“DNS异常均值”超出合理范围。
图2 PCF的“DNS异常均值”超出合理范围
在DeepFlow系统中一键快速切换到PCF的容器POD视图中,发现“cse-etcd-1”的“DNS异常均值”最高,快速锁定故障源在网元容器POD-“cse-etcd-1”,指导网元运维人员介入处理故障。
图3 PCF内的某个容器POD的“DNS异常均值”超出合理范围
一键快速切换到“cse-etcd-2”的DNS日志视图,发现“cse-etcd-2”的DNS请求被DNS服务器反馈“名字错误”,快速为PCF业务运维人提供了详细DNS日志用于根因分析。
图4 “cse-etcd-2”的异常DNS日志
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。
场景2:网元微服务TCP建连失败量异常快速发现及快速定位
在使用DeepFlow系统对5GC系统进行监控运维过程中,5GC网元(VNF)的监控视图中发现PCF的TCP建连失败远高于正常值(在5分钟内累计55.45K个)。
图5 PCF的TCP建连失败总量异常
一键快速切换到PCF的容器POD视图中,检查“建连—失败总量”排名,发现“vha-pod211-2”的容器POD异常,快速锁定故障源在网元容器POD-“vha-pod211-2”,指导PCF网元运维人员介入处理故障。
图6 PCF的vha-pod211-2容器POD建连失败总量异常
一键快速切换到“vha-pod211-2”的流日志视图,可以发现大量的“服务端直接重置”异常,快速为网元运维人提供流量日志用于根因分析。
图7 PCF的TCP建连失败流日志
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在5GC VNF层,分钟级锁定出现问题的具体位置在VNF的某个具体容器POD。
场景3:虚拟机时延异常快速发现及快速定位
在Free5GC搭建的一套5GC环境中,使用DeepFlow云网络流量监控运维管理平台对5GC的全栈流量进行采集和可视化分析,通过模拟虚拟化层的故障,在虚拟机接口制造500ms的时延。
通过DeepFlow平台,在5GC VNF的可视化视图中,快速发现AMF->AUSF、AUSF->UDM链路出现HTTP时延峰值异常告警(图8步骤1)。
通过DeepFlow平台的全栈性能指标可视化视图,可以一键快速查阅AUSF->UDM全路径①-③、⑤-⑦接口的HTTP时延峰值、TCP建连客户端时延峰值、TCP建连客户端时延峰值,秒级锁定问题位置在接口⑤与接口⑥之间,即UDM的宿主机与虚机间的接口导致时延异常(图8步骤2)。
图8 虚拟机时延故障定位过程
*注1:①AUSF容器接口;②AUSF虚机接口;③AUSF宿主机接口;⑤UDM宿主机接口;⑥UDM虚机接口;⑦UDM容器接口
注2:步骤3-5表示HTTP时延、TCP建连客户端时延、TCP建连客户端时延的全栈指标图形化解读。*
通过以上过程可以发现,通过DeepFlow云网络流量监控运维管理平台,可以快速发现5GC VNF内的异常征兆,分钟级界定出故障界面发生在虚拟机层,分钟级锁定出现问题的具体位置在某台虚拟机的某个虚接口。
05 | DeepFlow产品对5GC的价值
- 实现云资源池网络可视化,打开系统黑盒;
- 降低云资源池运维对各专业的技术挑战;
- 破解云资源池运维跨层定责定界、故障源定位难题;
- 提升业务运行可维护性、可靠性;
- 推进三层解耦的技术发展和实施落地。