东北财经大学:量化评估体验,无线运维不再复杂

简介:

文/东北财经大学网络信息管理中心李锴淞

东北财经大学校园网作为信息化校园的基础服务设施,在2015年主要完成了校内部分区域(主要是学生宿舍区)的无线校园网三期覆盖,目前共计部署无线AP信息点1300多个,覆盖楼宇30余座,覆盖房间数量6770个,涉及教工约2000人,涉及学生约20000人。无线校园网使用人数峰值突破9000人,峰值下行流量超过1Gbps。当无线网迅猛发展的同时,运维人员面临的是巨大的运维压力,无线运维不同于传统网络运维,尤其是学校自建无线网,在人员保障、技术实力等方面均存在一定程度缺陷。我们把主要的运维烦恼归结如下:

无线运维的三大烦恼

1、网络故障难以重现,很多时候师生反映无线网问题,需要至现场反复确认,很多问题由于无法重现当时情景,导致无法及时得到处理,从而影响用户体验和服务效率;

2、难搞的网优参数,无线网的优化相对来说复杂,设计许多层面的知识,同时诸如功率、信道规划,效果验证难度大,其他优化参数更是专业而复杂,对于一般高校运维人员来说上手比较繁琐;

3、难写的报告,每到年底最头疼的一件事就是年终的网络简报,之所以头疼其实还是网络体验数据的难以收集和展现,因为很多时候,单凭文字描述已经很难达到预期效果,如何量化网络服务水平,将在未来直接制约高校网络信息部门的工作成果评价。

如何提升无线网用户体验

而这三大类烦恼中,网络优化又是一切的基础,为什么这么说呢?因为之前从网优层次上来说大体分为:网络规划优化、网络优化及均衡,这三个层次分别对应无线网前期规划设计阶段,无线网使用阶段的接入网优、漫游网优、干扰网优,流量均衡、负载均衡等。其实这些优化层面本身划分并没有问题,但是为何取得的效果却不是很让人满意,举个例子:网规阶段,传统方法将信道按照物理位置规划后一个一个配置进去,而功率呢一般就是通过多踩点测试,通过覆盖区域信号强度进行调整;而网优阶段诸如:远端关联、漫游粘滞等对用户体验影响较大的问题,都是通过简单粗暴的参数阀值一类方法进行操作,实际效果不好。而落到最根本的原因就是无线网缺乏量化的数据评价,也就是说一切的优化操作应该基于广泛全面的数据支撑,而不是凭感觉、凭经验。这才是一直以来无线网用户体验难有提升空间的原因。

WIS智能运维管理系统,其实我更愿意称其为无线网络质量评价系统。依靠系统形成无线校园网质量评价体系,即通过建立一套完整的由各类指标组成的数据、图标等组合来对无线校园网的整体运行状况进行评价。评价:基于无线校园网质量评价体系广泛收集无线数据,依托于数据产生评价指标;优化:基于评价指标,针对性的对无线校园网进行优化调整,增强用户体验。这个理念其实从10年我们学校一期无线网建设的时候,我们就有过,因为网络建设只是开始,最大的工作,最能体现价值的部分是网络运维。WIS可以称为智能运维,也可以称为质量评价系统或是称为无线网络大数据分析平台,这说明基于WIS实际大有可为,不仅仅是网络运维,其实它能够在学校的信息化进程中发挥更大的作用。

WIS智能运维:“全生命周期的服务体系”

WIS的智能运维特性体现在它是一个周期闭环的运维体系,从用户终端、无线设备的24小时网络体验数据跟踪、评估区域体验、用户体验、问题不用重现都能诊断分析问题,这在以前的运维过程中是无法想象的;之后通过机器学习算法,感知各项指标的变化,为用户提供更加聪明的网络服务;通过数据收集、自分析,对各项指标进行综合比较,列出网络风险、实现智能网优、优化效果自检等工作,将运维人员从无线运维的困境中解脱出来。下面我们来看WIS的几个基本功能:


图1东北财经大学无线网覆盖情况

现在看到的是我们学校WIS系统的截图,根据学校自身情况,规划设计区域,从覆盖效果上进行识别,同时针对特定时段特定设备上的各项性能指标进行全程追踪,从而发现覆盖效果不佳等问题。基于用户上线速度、接入稳定性、正常下线率、上线成功率、漫游成功率五个重要参数,精准评估用户上网体验,量化用户接入效果。


图2用户在线体验效果


图3STA终端体验水平

如图2根据用户吞吐、信号强度、接入速率等诸多因素,精准评估网内用户体验,以图中7月5日数据为例,全网用户体验指标平均高于80分。如图4同时基于体验量化数据形成网络体验变差原因分布图,以7月5日全网数据为例,根据各项指标的分布构成以及相互的关联关系,可以直观发现造成网内用户体验差的主要原因:时延大、丢包率较高,之后沿着主要原因向下探索发现该类故障出现的具体区域及具体原因,从而针对性地解决无线体验问题。


图4 终端体验差原因分析

完整收集引起用户体验差的原因,从而实现一键网络优化,同时提供网络优化建议及优化前后效果对比。

具体优化手段包括:RRM2.0自动规划全网信道和功率,无需人工干预;智能接入,识别远端关联终端并且后续优化;智能漫游,识别和解决漫游粘滞等问题;接入体验,关联认证体验度量和可靠性提升;应用加速,解决游戏跳ping,视频卡顿等问题优化;高密会议,一键切入高密会议模式,解决高密区域上网问题。

下面就几个问题简单说一下:远端关联解决方案,其方法是通过全网的终端探测行为,全天候分析终端是否发生远端关联情况,并分析出COV过高或者过低的射频信号,自动持续调整;漫游粘滞解决方案,通过WIS平台、分析终端各种接入行为、智能识别终端进入粘滞状态后,通过引导终端漫游到最佳AP以达到体验最佳效果。除此之外引起网络体验不同还取决于终端本身,终端行为会因为厂商、支持标准的能力等方面有所不同。终端和无线强相关的特征问题都在陆续识别中。正是通过全网的多维度数据收集及可视化呈现准确呈现网络质量水平。


下面拿我们学校的一个具体智能分析实例来说明,图5上是我们学校梓楠楼(主办公楼)的实际数据,可直观看到全天用户上网数量,上下行流量情况等数据。


图5 梓楠楼用户流量关系趋势图

梓楠楼7月4日数据为例,可看到在线最高终端数量超过300,最大下行流量超过20Mbps,最大上行流量不足5Mbps。同样以梓楠楼7月4日数据为例图6,


图6 梓楠楼终端体验覆盖

可以看到全天用户体验度量情况,优质用户占比约30%,良好用户占比约50%,质量较差用户占比约20%,整体用户体验评分高于80分。同时影响用户体验的主要因素为丢包率高、RSSI值低、时延大等问题图7,针对具体问题制定优化解决方案。


图7 梓楠楼终端体验差原因分析

如图8我们可以看到全网各区域分时的综合评分情况,可以看到上午10点中,梓楠楼区域评分出现一定程度的下降,区域变成橙色,点击区域进行数据向下探索,可以看到分AP接入点的分时评分表,可以看到某台AP10点钟评分出现77分,继续向下探索可看到影响其评分的主要因素是存在大量用户的关联失败事件,继续向下探索可以看到具体是哪一台AP,发生了何种关联失败事件,可以看到引起关联失败的主要原因是AP终端数量已满,针对这种情况,我们就能够通过增加AP缓解用户上网压力了。


图8 梓楠楼无线体验深度分析

另外,WIS是一个智能服务体系,是一个全生命周期的服务体系,从规划设计阶段的WIS云勘,到实施部署阶段的WIS APP,到交付验收阶段的WIS客户端,再到后续运维的WIS大数据分析平台。正是这样完整的服务体系,让无线网建设、运维不再是一件难事,让无线网体验终于得到量化评估,终于让我们的报告不再苍白,未来依托WIS我们仍然大有可为。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

目录
相关文章
|
存储 弹性计算 运维
《CloudOps云上自动化运维 白皮书2.0》— 八、成本和资源量化管理能力 Cost—4. 工具推荐(上)
《CloudOps云上自动化运维 白皮书2.0》— 八、成本和资源量化管理能力 Cost—4. 工具推荐(上)
111 0
《CloudOps云上自动化运维 白皮书2.0》— 八、成本和资源量化管理能力 Cost—4. 工具推荐(上)
|
存储 弹性计算 运维
《CloudOps云上自动化运维 白皮书2.0》— 八、成本和资源量化管理能力 Cost—4. 工具推荐(下)
《CloudOps云上自动化运维 白皮书2.0》— 八、成本和资源量化管理能力 Cost—4. 工具推荐(下)
125 0
|
存储 弹性计算 运维
《CloudOps 云上自动化运维白皮书 2.0》——八,成本和资源量化管理能力 Cost——4.工具推荐(上)
《CloudOps 云上自动化运维白皮书 2.0》——八,成本和资源量化管理能力 Cost——4.工具推荐(上)
|
存储 弹性计算 运维
《CloudOps 云上自动化运维白皮书 2.0》——八,成本和资源量化管理能力 Cost——4.工具推荐(下)
《CloudOps 云上自动化运维白皮书 2.0》——八,成本和资源量化管理能力 Cost——4.工具推荐(下)
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
7天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
16天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
41 4
|
1月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
67 1
|
1月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
51 1