某银行无线网络频繁掉线重认证分析、解决方案及抓包经验分享-阿里云开发者社区

开发者社区> 技术小美> 正文

某银行无线网络频繁掉线重认证分析、解决方案及抓包经验分享

简介:
+关注继续查看

一、简介 

XXXX银行网络运维服务项目中,遇到了多次客户反映无线网络中断需要多次重新认证才有可能再次连接到网络的故障现象;发生在XXXX等地点的类似故障,多为单个客户、分散小范围出现,未进入深层次分析;此次XXXX园区因大量开发测试人员搬入办公,导致无线接入数量成“井喷”式增长,导致工作日上班高峰期间(约0850-09:40)大面积集中式出现无线网络频繁掉线需多次重认证才有可能登陆成功,影响到了正常办公;

收集到大量重复相关日志信息如下

21 Mon Sep 7 09:06:36 2015 RADIUS server 10.102.64.51:1812 failed to respond to request (ID 128) for client 3c:a9:f4:81:5b:2c / user 'unknown'

22 Mon Sep 7 09:06:35 2015 RADIUS server 10.103.64.51:1812 failed to respond to request (ID 51) for client 28:b2:bd:b7:01:42 / user 'unknown'

*Sep 15 10:03:58.928: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:03:58.478: %DHCP-4-LEASE_NOT_MATCH: dhcpd.c:307 Lease for 10.115.48.21 does not belong to34:02:86:4d:be:85.

*Sep 15 10:03:56.148: %DHCP-4-LEASE_NOT_OBTAINED: dhcpd.c:381 DHCP Lease could not be allocated to the client

*Sep 15 10:03:55.206: %DHCP-4-RELAY_SERVER_NOTGET: dhcp_proxy.c:2216 Unable to get the dhcp relay server's ip address

*Sep 15 10:02:41.728: %DOT1X-3-MAX_EAP_RETRIES: 1x_auth_pae.c:2872 Max EAP identity request retries (13) exceeded for client 28:e3:47:71:fc:bb

*Sep 15 10:02:41.727: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:02:36.729: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

*Sep 15 10:02:31.727: %DOT1X-4-INVALID_MSG_TYPE: authlib.c:85 Invalid message type 9 received from AAA

由抓包及Debug输出信息Cisco TAC工程师分析如下:

在其他时间,我们看到的都是这样的消息:

5804: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Adding mobile on LWAPP AP 00:3a:98:eb:4f:c0(0)    <————我们收到了客户端发送的probe信息

5805: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 23) in 5 seconds <————我们开启了5s超时,等待用户发关联请求

5806: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:3a:98:eb:4f:c0 from Idle to Probe

5806: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:3a:98:eb:4f:c0 from Idle to Probe

5808: *Sep 17 09:04:51.742: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5809: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5810: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5811: *Sep 17 09:04:51.747: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

5812: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 apfMsExpireCallback (apf_ms.c:418) Expiring Mobile!   <———5s过后没收到用户关联请求,这个用户被清除。

5813: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 0.0.0.0 START (0) Deleted mobile LWAPP rule on AP [00:3a:98:eb:4f:c0]  <———5s过后没收到用户关联请求,这个用户被清除。

5814: *Sep 17 09:04:56.701: e8:2a:ea:a0:b9:e1 Deleting mobile on AP 00:3a:98:eb:4f:c0(0)          

对比你那个成功的,你就能看到:

 

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Adding mobile on LWAPP AP 00:16:47:4d:7e:60(0)

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 23) in 5 seconds

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 apfProcessProbeReq (apf_80211.c:4722) Changing state for mobile e8:2a:ea:a0:b9:e1 on AP 00:16:47:4d:7e:60 from Idle to Probe

*Sep 17 09:06:50.267: e8:2a:ea:a0:b9:e1 Scheduling deletion of Mobile Station:  (callerId: 24) in 5 seconds

*Sep 17 09:06:51.090: e8:2a:ea:a0:b9:e1 Association received from mobile on AP 00:16:c8:17:b8:e0  <————5s钟内我们收到了用户的关联请求,这个用户就开始关联的各种状态操作直至连接成功。

 

所以,从debug来看,有两种可能:

 

1.      故障时刻客户没法association,这个就是客户端侧的问题了,WLC上无法控制和影响。您可以尝试去升级下客户端网卡驱动,看看是不是客户端侧的一些已知问题。

2.      故障时刻客户端发了association,但是WLC没收到,比如信道太繁忙,空中报文丢失。但是从之前的信息,如果你这个客户端是在那个-08 AP (信道利用率80%),那有可能是这种现象,但是如果是在其他AP,信道利用率都很低,应该不会是这个原因。

 

另外从你的描述,重启客户端就能解决,这个更像是客户端侧当时有些问题。当然还有一个点也需要关注,你的客户端相对较新,WLCAP都比较老,l两者的兼容性可能不是最好,如果可能的话,可以尝试拿一个2504,安装几个双频AP,在小范围先做测试,看看是不是这个问题。

 

 

 

WLC收集DEBUG信息命令:

 

Show run-config

Show msglog

Show traplog

Show ap auto-rf 802.11b <AP 名称最好能包括故障区域当时的所有AP的情况以便我们了解故障时刻的信道拥挤程度。

 

Debug client e8:2a:ea:a0:b9:e1  << e8:2a:ea:a0:b9:e1为故障终端无线MAC

debug aaa all enable

debug dot1x packet enable

debug disable-all  <<关闭WLCDEBUG输出;                       


二、故障现象缓解解决方案

***在无法及时升级无线网络硬件设备条件下,提出缓解故障方案;

(以故障终端中存在较多的Wireless-N 7260无线网卡为例,提出缓解解决方案)

1、  请优先在官网下载客户终端无线网卡的最新驱动程序!!!

(版本17.1.1501.01 Drive已显示开始可以解决问题)(请提前告知IT服务台,获得管理员权限!)

122520u021adffo83aanq0.png


下载地址:https://downloadcenter.intel.com/zh-cn

  若依然效果不好,请依次进行以下尝试;

2、请尝试将终端802.11无线协议改为802.11g only

122705w2vk6f6658nngqj5.jpg


[请尽量避免无线网络中终端单独使用802.11b协议,作为802.11b的升级协议802.11g为兼容802.11b将整体拉低无线网络的使用速率802.11b----11Mbps(实际值为550600kB/s802.11g----54Mbps,所以建议单独使用速率较大的802.11g]

3、请尝试将无线网卡属性中有关“支持U-APSD”选项禁用;

122754dd1jodws6cfs1fc9.jpg


Unscheduled automatic power-save delivery,非调度自动节能发送 802.11e-WLAN-Qos属性。与某些型号AP互联期间可能存在兼容性问题,导致下行链路停止,从而减少RX数据吞吐量,建议禁用;

参考链接

http://www.intel.com/support/cn/wireless/wlan/sb/cs-034875.htm

故障AP包括

tp-link*TL-WA801N

Netgear*3700

等;

4、请尝试将无线网卡属性中“2.4GHz 802.11n信道宽带”调整为“20MHz

122936b2vdrjn9m86dvmtm.jpg


11N默认使用频宽是20M,和11BG一样。考虑11BG11个信道,1611三个中心频点。1信道占据-13共计4个频段,每个频段5M,合计20M6信道占据48也是4个频段计20M11信道是一样的,每个频段都是5M。到了11N,开始支持40M频宽。同理推一下,从-1开始要占据8个频段计40M频宽。剩余的频宽只能再支持120M频宽的信道了。很显然,正交信道从BG3个变成了11N2个。就是说,在环境中,任意使用16信道的信号都会干扰40M频宽的通讯。总结起来就是40M频宽吞吐量是20M的一倍,但环境中有干扰就不适宜选40M总之,20MHZ的抗干扰能力强,如绕过障碍物等,40MHZ确实快点,但并不很稳定。 

以上具体操作内容根据Intel论坛,参考链接如下!

https://communities.intel.com/thread/47940?start=120&tstart=0

   802.11n channel width for band 2.4: 20 MHz.

   802.11n channel width for band 5.2: Auto (not in 20 MHz only)

   Fat channel intolerant: Disabled

   Roaming aggressiveness: Medium or less.

   Throughput enhancement: Disabled

   Transmit power: Highest

   Wireless mode: 802.11b/g

 

Also, try the following to disable other 802.11n and 802.11ac features:

 

   802.11n mode: Disabled

   HT mode: Disabled

   uAPSD: Disabled

 

In the wireless router, check the following options:

 

   Auto channel scan: Enable

   802.11 mode: Use 802.11g

Channel width: 20 MHz

                              

5、以实际无线环境中WLC为例,尝试设置”Use 802.11g only”可通过在802.11b设置里把802.11b的相关速率 1, 2, 5.5, 11Mbps disable,效果就等同禁用了802.11b

   (通过禁用较低速率强制客户使用高速率登录,虽然牺牲了无线有效覆盖范围,但实际相对优化了无线网络,对整体环境有利;)

123044ah80m9p98shi79h7.png

123130xb5qclqvcm63szbq.png

6、实施后建议客户若网络再次中断可以尝试点击行内安全软件赛门铁克进行“更新策略”或“重新验证”操作,重新进行身份认证尝试恢复连接,而不用重启设备花费时间;

123200jdrpn85wqwpniizv.png


三、无线诊断过程中相关无线抓包经验分享

CISCO TAC推荐《802.11 Wireless Sniffing (Packet Capture)》抓包文章;

https://supportforums.cisco.com/document/75331/80211-wireless-sniffing-packet-capture#Introduction

https://supportforums.cisco.com/document/100651/80211-sniffer-capture-analysis(额外参考文章)

文章中分享了“无线抓包基础”“使用Mac(OS X10.6以上版本)进行无线抓包”“在Windows 7中使用Microsoft Network Monitor 3.4进行无线抓包”“使用瘦AP进行无线抓包”“基于Linux Live版本进行无线抓包”“使用OmniPeek Remote Assistant软件诊断”汇总了各种环境下无线抓包方案;

本文章以“在Windows 7中使用Microsoft Network Monitor 3.4软件进行无线抓包”为例进行无线抓包经验分享;所需软件下载地址如下:

 

Microsoft Network Monitor 3.4

[支持802.11a/b/g(部分支持11n)Win7 64bit,需安装NM34_x64.exe,安装后需重启]

http://www.microsoft.com/en-us/download/details.aspx?id=4865

[Microsoft Message Analyzer (Microsoft Network Monitor升级版本值得推荐)http://www.microsoft.com/en-us/download/details.aspx?id=44226 ]  

Wireshark (Wireshark 1.4.x版本无法读取Netmon2文件格式,建议使用1.5.x以上版本)

https://www.wireshark.org/#download

 


 

牢记注意事项:

①请将无线测试设备靠近目标终端;②确认需要检测的802.11协议、信道和带宽③抓包期间保持“ WiFi Scanning Options”页面打开状态,禁点[Close and Return to Local Mode]

1、 选择所需网卡;

123258ixyuposzmlvfsxyp.jpg

2、 确定扫描协议及信道; 

123340ylr6opkkdql623l6.jpg

123432jowl4v2ars2ar325.jpg


抓包结束后,可以点击 [Stop] and use File -> Save as to save the .CAP file;保存之后即可使用wirshark等软件分析;

 


追加备注:

1、安装Microsoft Network Monitor 3.4/Microsoft Message Analyzer 后,若无法显示网卡信息,请尝试重启设备;之后如果依然无法显示网卡信息,可能是虚拟网卡设置属性问题,请尝试在注册表(regedit.ext)中修改“MaxNumFilters”属性,设置一个较大数值,例如“14”

解决Netmon3.4安装后无法显示网卡信息,参考链接

https://social.technet.microsoft.com/Forums/en-US/c5043fa7-691b-4b55-8630-57e734a98be8/network-monitor-34-wont-install-driver-on-nic-in-win7-x86?forum=netmon

2、针对使用较新的802.11ac无线网卡的测试终端,可能需要确保无线网卡设置中的“有线连接可用时禁用”的值为“启用”,才能保障Netmon3.4/ Message Analyzer的正常使用;PS.默认即为“启用”状态,若同时使用有线和无线网络可设置“禁用”;

123708oxudh9nxubght9o7.png


                         PPS.“不做死就不会死!”该属性“坑”了我好久、好久、好久(重要的事情要说三遍!!!)...


 

 发现本支持社区中有类似帖子

“http://bbs.csc-china.com.cn/forum.php?mod=viewthread&tid=3872&highlight=%CE%DE%CF%DF%D7%A5%B0%FC”大家也可参考;

 最后吐槽下,如果有上传附件功能直接上传报告得了...害我一个个复制粘贴...


特别提醒:

本文档为自行翻译理解,能力有限不能保证绝对性。


如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。


转载自小伙伴鱼排饭的博客












本文转自Grodd51CTO博客,原文链接:http://blog.51cto.com/juispan/2066396,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
分享录制的正则表达式入门、高阶以及使用 .NET 实现网络爬虫视频教程
我发布的「正则表达式入门以及高阶教程」,欢迎学习。 课程简介 正则表达式是软件开发必须掌握的一门语言,掌握后才能很好地理解到它的威力; 课程采用概念和实验操作 4/6 分隔,帮助大家理解概念后再使用大量的实例加深对概念的理解; 实例操作是对概念最好的理解,也是学习新语言最有效的办法; 在课程中也穿插着大量软件开发的技巧和大家分享; 应该是把晦涩的正则表达式讲解的最生动的课程; 掌握了正则表达式后,您一定会觉得这是一门最值得掌握的语言。
932 0
只需4个步骤,分析解决在生产环境下JVM内存泄露问题
只需4个步骤,分析解决在生产环境下JVM内存泄露问题
4809 0
IOS地图定位坐标偏差解决方案(实战通过)
--------------------------------------------------------------------- 很抱歉,本篇文章的算法经过实践证明有问题; 正确的转码算法地址见以下两个链接: http://www.
904 0
直播|超大型系统的持续集成与持续交付的解决方案及案例分析
人人都在谈敏捷开发的时代,大型系统要保证产品质量,实现快速迭代却变得不易。那么大型系统如何实现持续集成持续交付,进行产品迭代发布呢?9月7日20:00 阿里巴巴高级测试开发专家_鲁小川,将在云栖社区为大家带来解决方案!
3769 0
AntV 图可视分析解决方案,来啦!
相信大多数小伙伴们都是带着疑问进来的:什么是 AntV ?什么是图可视分析?什么是解决方案?解决方案都有啥?为什么要写它?哈哈哈,小伙伴们稍安勿躁,此篇文章就是来回答这些问题的~
2390 0
开发过程中快速抓包并解析
这几天小编在工作中遇到了一个灵异事件,客户端使用的是安卓原生系统,服务端使用的是java。需求就是客户端在照相的时候可以实时上传照片。后台接收并保存,并且可以在平台上显示。
1261 0
杭州银行金融科技实验室实践分享
在2018年1月19日的时候杭州银行、阿里云和CityDO公司联合创新实验室正式成立发布会,成立了杭州银行金融实验室。来自杭州银行信息技术部的总经理李炯,做了题为《杭州银行金融科技实验室实践分享》的演讲,分别从实验室组织运营、实验室课题分析、实验室价值远景等三个方面介绍了杭州银行金融实验室的情况。
2735 0
11.06直播预告|ClickHouse对海量数据分析的经验分享
1.海量日志分析技术选型的思考 2.ClickHouse使用经验及问题解决 3.对ClickHouse未来的期待
1835 0
+关注
6906
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载