某银行无线网络频繁掉线重认证分析、解决方案及抓包经验分享

简介:

一、简介 

XXXX银行网络运维服务项目中,遇到了多次客户反映无线网络中断需要多次重新认证才有可能再次连接到网络的故障现象;发生在XXXX等地点的类似故障,多为单个客户、分散小范围出现,未进入深层次分析;此次XXXX园区因大量开发测试人员搬入办公,导致无线接入数量成“井喷”式增长,导致工作日上班高峰期间(约0850-09:40)大面积集中式出现无线网络频繁掉线需多次重认证才有可能登陆成功,影响到了正常办公;

收集到大量重复相关日志信息如下

21 Mon Sep 7 09:06:36 2015 RADIUS server 10.102.64.51:1812 failed to respond to request (ID 128) for client 3c:a9:f4:81:5b:2c / user 'unknown'

22 Mon Sep 7 09:06:35 2015 RADIUS server 10.103.64.51:1812 failed to respond to request (ID 51) for client 28:b2:bd:b7:01:42 / user 'unknown'

*Sep 15 10:03:58.928: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:03:58.478: %DHCP-4-LEASE_NOT_MATCH: dhcpd.c:307 Lease for 10.115.48.21 does not belong to34:02:86:4d:be:85.

*Sep 15 10:03:56.148: %DHCP-4-LEASE_NOT_OBTAINED: dhcpd.c:381 DHCP Lease could not be allocated to the client

*Sep 15 10:03:55.206: %DHCP-4-RELAY_SERVER_NOTGET: dhcp_proxy.c:2216 Unable to get the dhcp relay server's ip address

*Sep 15 10:02:41.728: %DOT1X-3-MAX_EAP_RETRIES: 1x_auth_pae.c:2872 Max EAP identity request retries (13) exceeded for client 28:e3:47:71:fc:bb

*Sep 15 10:02:41.727: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:02:36.729: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:02:31.727: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

由抓包及Debug输出信息Cisco TAC工程师分析如下:

在其他时间,我们看到的都是这样的消息:

5804: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Adding mobile on LWAPP AP 00:3a:98:eb:4f:c0(0)    <————我们收到了客户端发送的probe信息

5805: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 23) in 5 seconds <————我们开启了5s超时,等待用户发关联请求

5806: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:3a:98:eb:4f:c0 from Idle to Probe

5806: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:3a:98:eb:4f:c0 from Idle to Probe

5808: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5809: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5810: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5811: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5812: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 apfMsExpireCallback (apf_ms.c:418) Expiring Mobile!   <———5s过后没收到用户关联请求,这个用户被清除。

5813: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 0.0.0.0 START (0) Deleted mobile LWAPP rule on AP [00:3a:98:eb:4f:c0]  <———5s过后没收到用户关联请求,这个用户被清除。

5814: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 Deleting mobile on AP 00:3a:98:eb:4f:c0(0)          

对比你那个成功的,你就能看到:

 

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Adding mobile on LWAPP AP 00:16:47:4d:7e:60(0)

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 23) in 5 seconds

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:16:47:4d:7e:60 from Idle to Probe

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

*Sep 17 09:06:51.090: e8:2a:ea:a0:b9:e1 Association received from mobile on AP 00:16:c8:17:b8:e0  <————5s钟内我们收到了用户的关联请求,这个用户就开始关联的各种状态操作直至连接成功。

 

所以,从debug来看,有两种可能:

 

1.      故障时刻客户没法association,这个就是客户端侧的问题了,WLC上无法控制和影响。您可以尝试去升级下客户端网卡驱动,看看是不是客户端侧的一些已知问题。

2.      故障时刻客户端发了association,但是WLC没收到,比如信道太繁忙,空中报文丢失。但是从之前的信息,如果你这个客户端是在那个-08 AP (信道利用率80%),那有可能是这种现象,但是如果是在其他AP,信道利用率都很低,应该不会是这个原因。

 

另外从你的描述,重启客户端就能解决,这个更像是客户端侧当时有些问题。当然还有一个点也需要关注,你的客户端相对较新,WLCAP都比较老,l两者的兼容性可能不是最好,如果可能的话,可以尝试拿一个2504,安装几个双频AP,在小范围先做测试,看看是不是这个问题。

 

 

 

WLC收集DEBUG信息命令:

 

Show run-config

Show msglog

Show traplog

Show ap auto-rf 802.11b <AP 名称最好能包括故障区域当时的所有AP的情况以便我们了解故障时刻的信道拥挤程度。

 

Debug client e8:2a:ea:a0:b9:e1  << e8:2a:ea:a0:b9:e1为故障终端无线MAC

debug aaa all enable

debug dot1x packet enable

debug disable-all  <<关闭WLCDEBUG输出;                       


二、故障现象缓解解决方案

***在无法及时升级无线网络硬件设备条件下,提出缓解故障方案;

(以故障终端中存在较多的Wireless-N 7260无线网卡为例,提出缓解解决方案)

1、  请优先在官网下载客户终端无线网卡的最新驱动程序!!!

(版本17.1.1501.01 Drive已显示开始可以解决问题)(请提前告知IT服务台,获得管理员权限!)


下载地址:https://downloadcenter.intel.com/zh-cn

  若依然效果不好,请依次进行以下尝试;

2、请尝试将终端802.11无线协议改为802.11g only


[请尽量避免无线网络中终端单独使用802.11b协议,作为802.11b的升级协议802.11g为兼容802.11b将整体拉低无线网络的使用速率802.11b----11Mbps(实际值为550600kB/s802.11g----54Mbps,所以建议单独使用速率较大的802.11g]

3、请尝试将无线网卡属性中有关“支持U-APSD”选项禁用;


Unscheduled automatic power-save delivery,非调度自动节能发送 802.11e-WLAN-Qos属性。与某些型号AP互联期间可能存在兼容性问题,导致下行链路停止,从而减少RX数据吞吐量,建议禁用;

参考链接

http://www.intel.com/support/cn/wireless/wlan/sb/cs-034875.htm

故障AP包括

tp-link*TL-WA801N

Netgear*3700

等;

4、请尝试将无线网卡属性中“2.4GHz 802.11n信道宽带”调整为“20MHz


11N默认使用频宽是20M,和11BG一样。考虑11BG11个信道,1611三个中心频点。1信道占据-13共计4个频段,每个频段5M,合计20M6信道占据48也是4个频段计20M11信道是一样的,每个频段都是5M。到了11N,开始支持40M频宽。同理推一下,从-1开始要占据8个频段计40M频宽。剩余的频宽只能再支持120M频宽的信道了。很显然,正交信道从BG3个变成了11N2个。就是说,在环境中,任意使用16信道的信号都会干扰40M频宽的通讯。总结起来就是40M频宽吞吐量是20M的一倍,但环境中有干扰就不适宜选40M总之,20MHZ的抗干扰能力强,如绕过障碍物等,40MHZ确实快点,但并不很稳定。 

以上具体操作内容根据Intel论坛,参考链接如下!

https://communities.intel.com/thread/47940?start=120&tstart=0

   802.11n channel width for band 2.4: 20 MHz.

   802.11n channel width for band 5.2: Auto (not in 20 MHz only)

   Fat channel intolerant: Disabled

   Roaming aggressiveness: Medium or less.

   Throughput enhancement: Disabled

   Transmit power: Highest

   Wireless mode: 802.11b/g

 

Also, try the following to disable other 802.11n and 802.11ac features:

 

   802.11n mode: Disabled

   HT mode: Disabled

   uAPSD: Disabled

 

In the wireless router, check the following options:

 

   Auto channel scan: Enable

   802.11 mode: Use 802.11g

Channel width: 20 MHz

                              

5、以实际无线环境中WLC为例,尝试设置”Use 802.11g only”可通过在802.11b设置里把802.11b的相关速率 1, 2, 5.5, 11Mbps disable,效果就等同禁用了802.11b

   (通过禁用较低速率强制客户使用高速率登录,虽然牺牲了无线有效覆盖范围,但实际相对优化了无线网络,对整体环境有利;)


6、实施后建议客户若网络再次中断可以尝试点击行内安全软件赛门铁克进行“更新策略”或“重新验证”操作,重新进行身份认证尝试恢复连接,而不用重启设备花费时间;


三、无线诊断过程中相关无线抓包经验分享

CISCO TAC推荐《802.11 Wireless Sniffing (Packet Capture)》抓包文章;

https://supportforums.cisco.com/document/75331/80211-wireless-sniffing-packet-capture#Introduction

https://supportforums.cisco.com/document/100651/80211-sniffer-capture-analysis(额外参考文章)

文章中分享了“无线抓包基础”“使用Mac(OS X10.6以上版本)进行无线抓包”“在Windows 7中使用Microsoft Network Monitor 3.4进行无线抓包”“使用瘦AP进行无线抓包”“基于Linux Live版本进行无线抓包”“使用OmniPeek Remote Assistant软件诊断”汇总了各种环境下无线抓包方案;

本文章以“在Windows 7中使用Microsoft Network Monitor 3.4软件进行无线抓包”为例进行无线抓包经验分享;所需软件下载地址如下:

 

Microsoft Network Monitor 3.4

[支持802.11a/b/g(部分支持11n)Win7 64bit,需安装NM34_x64.exe,安装后需重启]

http://www.microsoft.com/en-us/download/details.aspx?id=4865

[Microsoft Message Analyzer (Microsoft Network Monitor升级版本值得推荐)http://www.microsoft.com/en-us/download/details.aspx?id=44226 ]  

Wireshark (Wireshark 1.4.x版本无法读取Netmon2文件格式,建议使用1.5.x以上版本)

https://www.wireshark.org/#download

 


 

牢记注意事项:

①请将无线测试设备靠近目标终端;②确认需要检测的802.11协议、信道和带宽③抓包期间保持“ WiFi Scanning Options”页面打开状态,禁点[Close and Return to Local Mode]

1、 选择所需网卡;


2、 确定扫描协议及信道; 


抓包结束后,可以点击 [Stop] and use File -> Save as to save the .CAP file;保存之后即可使用wirshark等软件分析;

 


追加备注:

1、安装Microsoft Network Monitor 3.4/Microsoft Message Analyzer 后,若无法显示网卡信息,请尝试重启设备;之后如果依然无法显示网卡信息,可能是虚拟网卡设置属性问题,请尝试在注册表(regedit.ext)中修改“MaxNumFilters”属性,设置一个较大数值,例如“14”

解决Netmon3.4安装后无法显示网卡信息,参考链接

https://social.technet.microsoft.com/Forums/en-US/c5043fa7-691b-4b55-8630-57e734a98be8/network-monitor-34-wont-install-driver-on-nic-in-win7-x86?forum=netmon

2、针对使用较新的802.11ac无线网卡的测试终端,可能需要确保无线网卡设置中的“有线连接可用时禁用”的值为“启用”,才能保障Netmon3.4/ Message Analyzer的正常使用;PS.默认即为“启用”状态,若同时使用有线和无线网络可设置“禁用”;


                         PPS.“不做死就不会死!”该属性“坑”了我好久、好久、好久(重要的事情要说三遍!!!)...


 

 发现本支持社区中有类似帖子

“http://bbs.csc-china.com.cn/forum.php?mod=viewthread&tid=3872&highlight=%CE%DE%CF%DF%D7%A5%B0%FC”大家也可参考;

 最后吐槽下,如果有上传附件功能直接上传报告得了...害我一个个复制粘贴...


特别提醒:

本文档为自行翻译理解,能力有限不能保证绝对性。


如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。


转载自小伙伴鱼排饭的博客












本文转自Grodd51CTO博客,原文链接:http://blog.51cto.com/juispan/2066396,如需转载请自行联系原作者

相关文章
|
2月前
|
人工智能 边缘计算 物联网
蜂窝网络未来发展趋势的分析
蜂窝网络未来发展趋势的分析
84 2
|
20天前
|
存储 安全 物联网
浅析Kismet:无线网络监测与分析工具
Kismet是一款开源的无线网络监测和入侵检测系统(IDS),支持Wi-Fi、Bluetooth、ZigBee等协议,具备被动监听、实时数据分析、地理定位等功能。广泛应用于安全审计、网络优化和频谱管理。本文介绍其安装配置、基本操作及高级应用技巧,帮助用户掌握这一强大的无线网络安全工具。
52 9
浅析Kismet:无线网络监测与分析工具
|
12天前
|
机器学习/深度学习 人工智能 运维
简化多云网络复杂度,谈谈F5多云解决方案的破局之道
简化多云网络复杂度,谈谈F5多云解决方案的破局之道
30 7
|
22天前
|
数据采集 机器学习/深度学习 人工智能
基于AI的网络流量分析:构建智能化运维体系
基于AI的网络流量分析:构建智能化运维体系
103 13
|
19天前
|
前端开发 网络协议 安全
【网络原理】——HTTP协议、fiddler抓包
HTTP超文本传输,HTML,fiddler抓包,URL,urlencode,HTTP首行方法,GET方法,POST方法
|
2月前
|
Linux iOS开发 网络架构
如何使用 Ping 命令监测网络丢包情况?
如何使用 Ping 命令监测网络丢包情况?
813 48
|
2月前
|
安全 Windows
【Azure Cloud Service】在Windows系统中抓取网络包 ( 不需要另外安全抓包工具)
通常,在生产环境中,为了保证系统环境的安全和纯粹,是不建议安装其它软件或排查工具(如果可以安装,也是需要走审批流程)。 本文将介绍一种,不用安装Wireshark / tcpdump 等工具,使用Windows系统自带的 netsh trace 命令来获取网络包的步骤
84 32
|
1月前
|
Web App开发 网络协议 安全
网络编程懒人入门(十六):手把手教你使用网络编程抓包神器Wireshark
Wireshark是一款开源和跨平台的抓包工具。它通过调用操作系统底层的API,直接捕获网卡上的数据包,因此捕获的数据包详细、功能强大。但Wireshark本身稍显复杂,本文将以用抓包实例,手把手带你一步步用好Wireshark,并真正理解抓到的数据包的各项含义。
92 2
|
1月前
|
监控 安全 网络安全
云计算与网络安全:技术挑战与解决方案
随着云计算技术的飞速发展,其在各行各业的应用越来越广泛。然而,随之而来的网络安全问题也日益凸显。本文将从云服务、网络安全和信息安全等技术领域出发,探讨云计算面临的安全挑战及相应的解决方案。通过实例分析和代码示例,旨在帮助读者更好地理解云计算与网络安全的关系,提高网络安全防护意识。
|
25天前
|
安全 网络协议 网络安全
网络不稳定导致HTTP代理频繁掉线的分析
随着数字化时代的加速发展,网络安全、隐私保护及内容访问自由成为用户核心需求。HTTP代理服务器因其独特技术优势受到青睐,但其掉线问题频发。本文分析了HTTP代理服务器不稳定导致掉线的主要原因,包括网络问题、服务器质量、用户配置错误及IP资源问题等方面。
78 0