企业网络故障最让人头疼的,往往不是“彻底断了”,而是“有时能用、有时不能用”“总部正常、分支很慢”“服务器看着没问题,但用户就是打不开系统”。
这类问题一出现,应用、网络、云平台、运营商、安全设备几方经常都会被拉进群里。应用同事说服务正常,网络同事说链路没断,云平台没有明显告警,运营商回复线路正常,但业务部门看到的就是:系统卡、登录慢、文件传不上去。
所以排查这类问题,第一步不是马上登录设备,也不是直接重启服务,而是先把现象问清楚。
先问清楚这几个问题
是所有用户都有问题,还是只有某个部门?
是总部不行,还是某个分支不行?
是访问所有系统都慢,还是只有某一个系统?
是完全打不开,还是打开很慢?
是一直不通,还是偶发中断?
是网页进不去,还是登录后某个操作特别慢?
这些问题能帮你快速判断故障范围。只有某个分支访问慢,重点就放在分支出口、VPN、专线和云网络路由上;如果所有地区访问同一个云上系统都慢,就要重点看负载均衡、应用服务、数据库和后端接口。
很多故障排查之所以绕远路,就是因为一开始没有把问题定义清楚。
不通和慢,是两类完全不同的问题
用户常说“系统访问不了”,但在技术排查里,要继续拆。
完全不通:查连通性——路由有没有走对,端口有没有开放,防火墙、安全组、ACL有没有拦截,服务端口有没有监听。
访问慢:看延迟、丢包、带宽、DNS、MTU、连接数、后端响应时间等。
举个例子,用户说系统打不开,运维一测发现页面最后能打开,但需要十几秒。这种情况就不一定是网络不通,更可能是链路质量差、出口拥塞、DNS解析慢,或者应用后端接口响应慢。所以排查前先分清楚:到底是不通,还是慢。
第一层:从用户侧开始看
用户电脑的IP、网关、DNS是否正常,是否连接了VPN,是否走了代理,是否只有这一台电脑异常,同网段其他人是否正常。
远程办公场景里,VPN已连接但访问不了内网系统很常见。有时候VPN客户端显示连接成功,但路由没有正确下发,导致用户只能访问一部分系统。
还有DNS问题容易被忽略。企业内网域名在内网DNS里解析到私有地址,在公网DNS里解析到公网地址。如果用户连上VPN后仍然使用外部DNS,就可能访问到错误地址。
这一步不用上来就抓包,用几个基础命令就能缩小范围:ping看连通性,tracert看路径,nslookup看解析结果,telnet或nc测试业务端口是否可达。
第二层:看企业出口和安全设备
企业出口通常会经过防火墙、VPN网关、上网行为管理、代理服务器、NAT设备、负载均衡等组件。这里是网络故障高发区。
常见问题包括:防火墙策略误拦截,NAT地址池或端口耗尽,VPN加密域配置不一致,安全设备会话数达到上限,出口带宽被大流量占满,策略路由把流量引到了错误线路。
以前遇到过一个分支访问云上系统慢的问题,业务集中在每天上午9点到10点。大家查服务器和数据库,资源使用率都正常。后来看分支出口流量,发现同一时间段有一个文件同步任务占满了带宽,业务访问只是被挤压了。这种问题如果只看应用日志,很难发现。
第三层:VPN和专线不要只看“是否在线”
VPN常见问题集中在隧道状态、IKE协商、加密域、路由下发、NAT穿越、MTU等方面。有些VPN页面显示在线,但业务流量就是过不去,原因可能是双方感兴趣流配置不一致,或者路由没有指向VPN隧道。
专线相对稳定,但运营商链路抖动、跨区域路由绕行、主备线路切换异常、BGP路由收敛慢、云专线网关状态异常,都可能造成业务侧访问慢或偶发中断。
很多人只问“线路断没断”。但线路没断,只能说明连接还在,并不代表质量稳定。业务真正关心的是延迟、丢包、抖动和可用带宽。所以查VPN和专线时,还要看链路质量:延迟有没有突然升高,是否有间歇性丢包,是否只有某个方向慢。
第四层:云网络要重点看路由和策略
现在很多企业业务都在云上,云上常见的网络对象包括VPC、交换机、路由表、安全组、网络ACL、NAT网关、VPN网关、云企业网、负载均衡、专线网关等。
云网络故障经常不是服务器坏了,而是路由、策略或访问路径出了问题。比如路由表没有回程路由,请求能到服务器但响应回不去;安全组只放行了某个来源IP,但企业出口经过NAT后来源地址变化了;网络ACL拦截了子网流量;负载均衡后端健康检查失败。
特别要注意“回程路径”。很多网络问题不是请求到不了,而是响应回不来。客户端看到超时,服务器可能已经收到了请求,但返回路径走错了。
第五层:主机和应用协议也要一起看
网络层确认没有明显问题后,就要看主机和应用。服务器端口是否监听,本机防火墙是否拦截,服务是否绑定了正确地址,应用是否限制来源IP,连接池是否耗尽,TLS证书是否过期,反向代理配置是否正确,后端接口是否超时,这些都可能表现成“网络访问异常”。
有些问题看起来像网络故障,最后其实是应用协议层的问题。比如端口能连上,但HTTPS握手失败,可能是证书链不完整或协议版本不兼容。TCP连接正常,但页面一直转圈,可能是后端接口慢、数据库查询慢,或者某个外部接口超时。
一个比较稳的排查顺序
可以按这个顺序处理:
定范围:哪些用户、哪些区域、哪些系统受影响。
定性:不通、慢、偶发中断,还是部分功能异常。
查路径:从用户→出口→VPN/专线→云→主机→应用,一段段验证。
看变更:最近有没有防火墙策略调整、设备升级、线路割接、云上路由变更、系统发布等。很多故障都和变更有关。
验证:从用户侧重新测试。不能只在服务器上测试正常就认为问题解决,因为用户真实访问路径可能经过VPN、专线、代理、出口防火墙、云网络、负载均衡,和服务器本地测试完全不同。
平时维护比临时救火更重要
VPN、专线、云网络、分支机构、远程办公、云上业务连在一起后,企业网络已经不是简单的“线路通了就行”。真正影响故障处理效率的,往往是平时有没有维护好网络拓扑、路由策略、安全策略、云资源关系和变更记录。
如果这些信息平时没有整理,故障来了就只能边查边问,排查时间自然会变长。相反,如果企业平时就有清晰的网络链路图、访问关系表、关键系统依赖和专线质量监测,很多问题都能更快定位。
据了解,像江苏立维这样的运维服务商,在做企业驻场运维和云运维时,会把网络、服务器、数据库、云资源和业务系统放在同一个运维视角下看,帮助企业梳理总部、分支、VPN、专线、云上VPC之间的访问路径,建立日常巡检和告警机制。遇到故障时,结合网络设备、云平台监控、主机状态和应用日志一起判断。这种做法比较贴近企业现场,因为网络问题很少只属于某一个点。
企业网络故障不要一上来就猜,也不要只问“线路通不通”。VPN在线,不代表业务一定可用;专线状态正常,不代表链路质量稳定;云服务器运行中,也不代表路由、安全组、负载均衡都没问题。
更稳妥的方法,是把复杂问题拆成一层一层的小问题:用户侧是否正常,出口是否拥塞,VPN或专线是否稳定,云网络路由是否正确,主机端口是否可达,应用协议是否正常。
网络排查没有捷径,但有顺序。范围清楚、路径清楚、变更清楚、数据清楚,大多数看起来复杂的故障,都能从“说不清”变成“查得到”。