【OSS 排查方案-5】透过现象看本质之网络排查分析

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000 次 1年
简介: 背景:拿到数据包时如何通过众多的数据,提炼出有效的网络分析信息,快速的进行定位排障。以下总结了一些 OSS 上传/下载慢的共性问题,提供大家参考。 排查问题之前让我们先来回顾一下 TCP 的基础知识 TCP 结构: 基础名词: Sequence Number是包的序列号,用来解决网络包乱序(reordering)问题。

背景:拿到数据包时如何通过众多的数据,提炼出有效的网络分析信息,快速的进行定位排障。以下总结了一些 OSS 上传/下载慢的共性问题,提供大家参考。

排查问题之前让我们先来回顾一下 TCP 的基础知识


TCP 结构:


基础名词:

  • Sequence Number是包的序列号,用来解决网络包乱序(reordering)问题
  • Acknowledgement Number就是ACK —— 用于确认收到,用来解决不丢包的问题
  • Window又叫Advertised-Window,也就是著名的滑动窗口(Sliding Window),用于解决流控的。
  • TCP Flag,也就是包的类型,主要是用于操控TCP的状态机的
  • CWND ,也就是初始化发包控制的数量, ip ro 可以看到。 ip route 可以设置
  • package flow ,数据包的流动增长。

常用抓包命令:

tcpdump -i 出口网卡 -s0 -v host \( 本地出口IP and 服务端IP \) -w filename.pcap

架构

1)本地 PC -》 OSS 上传

2)本地 PC -》 OSS 上传

3)ECS -》 VPC 环境 -》OSS 下载

第一种架构:


首先根据 TCP/IP connect find important message

  • client WS = 256
  • MSS = 1452
  • SACK = 1
  • server WS = 0
  • cwnd = 2
  • length 1506

通过已知的信息我们可以先得出一些判断

  • server 端不支持 WS,也就是一个往返 RTT 内最大传输是 64KB
  • server support SACK,so transmission lose package,not all package
  • cwnd tiny,起始传输会比较 slow,后续探测 reciver ACK 后,会指数递增

 通过 RTT 可以看出来我们的网络稳定在 0.035


分析 TCP Stream  流图可以得知,延迟低,而且无丢包,从而可以得知并非是延迟丢包导致的传输速度慢

分析发包的规律分布



通过以上几张连续的判断可以得知,客户端的 cwnd 是 2,而且每经过一个 RTT 后都会进行倍数的递增 2,4,6,8 最终稳定在 9 个,正常的 TCP 协议栈应该是以指数被递增,linux 是 64 ,windows 应该是到 256,同时我们也得知了对方是在一个 windows 系统上发包,协议栈和 Linux 的有很大区别。

接下准备分析为什么客户上传慢的原因:

RTT 是 35ms ,每个 RTT 只能传 9 个包,也就是 9*1506 / 35 = 378KB/s

总的时间  8876789/378/1024 = 23 + 卡顿 ~= 30S

所以整个发包速度慢也就是正常的

而服务端不支持 WS 的情况下,理论的最大传输速度也应该是:

根据 TCP 传输原理,理论最大传输速度 = WND / RTT = 64KB / 0.035 = 1828KB/s

1s 内有 1000/35 = 29 个 RTT, 29* 64 = 每个 RTT 最大传输量

但是现在每秒钟只能传输 1506 * 9 = 13554 = 13KB

综合结论客户端的 TCP 协议站传输是有问题。

第二种架构

老套路,先分析 TCP 三次握手中的基本信息。


  • 服务端支持的 ws, 512 ,也就是单程 RTT 最大的传输量是 576 KB。
  • 客户端的首发包数量是 2 个,也是成倍数递增 2,4,6,8,20 ...最终是 20。
  • RTT 有持续增长的状态,因此三次握手的 RTT 可能不准确,我们需要计算一个加权后的 iRTT,最后得到是 40ms。

为什么延迟大的情况下,我们的传输速度反而比直传 OSS 稳定 0.035S 的要快呢?因为服务端支持 WS,也就是客户端在传输过程中的 package 可以持续滑动。

所以计算下来就是 434/(20*1498/0.04/1024) = 590ms 

整个数据包传输完的时间 ~= 572ms

第三种架构

先从三次握手中获取价值信息

  • 客户端、服务端都支持 WS 
  • RTT 稳定在 0.006
  • send package 稳定在 88 个。
  • 按照 WS 的支持一秒中最多能传的包是  88 * 1514 /0.006 =21MB/S
  • 理论传输 1000/6 = 166,现在最大能传到 104,平均 88 ,可能存在 TCP 协议栈的问题。最终手段通过服务端调整了 OSS 机器的 TCP 协议栈,增大了 send package 和 CWND
相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
目录
相关文章
|
4月前
|
数据采集 存储 算法
MyEMS 开源能源管理系统:基于 4G 无线传感网络的能源数据闭环管理方案
MyEMS 是开源能源管理领域的标杆解决方案,采用 Python、Django 与 React 技术栈,具备模块化架构与跨平台兼容性。系统涵盖能源数据治理、设备管理、工单流转与智能控制四大核心功能,结合高精度 4G 无线计量仪表,实现高效数据采集与边缘计算。方案部署灵活、安全性高,助力企业实现能源数字化与碳减排目标。
143 0
|
2月前
|
存储 网络协议 数据库
脑控网络设计方案
本内容详细描述了一个虚构的“脑控通信网络”系统架构及通信流程,涵盖核心网络组成、用户开户流程、心灵感应终端注册、跨网络通信机制,以及脑控网与互联网、移动网的数据交互方式。内容包含模拟的通信协议设计、数据包标识、网络路由机制等技术细节,整体基于作者原创的设定,用于探讨未来通信的可能性。
190 74
|
1月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
1月前
|
数据采集 监控 网络安全
VMware Cloud Foundation Operations for Networks 9.0.1.0 发布 - 云网络监控与分析
VMware Cloud Foundation Operations for Networks 9.0.1.0 发布 - 云网络监控与分析
362 3
VMware Cloud Foundation Operations for Networks 9.0.1.0 发布 - 云网络监控与分析
|
数据采集 数据安全/隐私保护
脑控网络设计方案续写
本文补充说明了普通设备通过脑控终端热点接入互联网的数据传输流程,涵盖连接认证、数据包标识、核心网绑定与编号生成、数据转发及断开连接的完整过程,详述了设备间通信、验证、路由与逻辑删除机制,完善了脑控网络与普通互联网交互的技术闭环。
|
3月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
245 0
|
6月前
|
监控 安全 Linux
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
310 2
Arista CloudVision 2025.1 - 多云和数据中心网络自动化、监控和分析
|
7月前
|
运维 监控 安全
如何高效进行网络质量劣化分析与流量回溯分析?-AnaTraf
在数字化时代,网络质量分析与流量回溯对保障业务运行至关重要。网络拥塞、丢包等问题可能导致业务中断、安全隐患及成本上升。传统工具常缺乏细粒度数据,难以溯源问题。流量回溯分析可还原现场,助力精准排障。AnaTraf网络流量分析仪作为专业工具,能高效定位问题,提升团队响应力,降低运营风险。
如何高效进行网络质量劣化分析与流量回溯分析?-AnaTraf
|
机器学习/深度学习 运维 自然语言处理
VMware Cloud Foundation Operations for Networks 9.0 发布 - 云网络监控与分析
VMware Cloud Foundation Operations for Networks 9.0 发布 - 云网络监控与分析
92 0
|
7月前
|
大数据
“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故
“你朋友圈的真面目,大数据都知道!”——用社交网络分析看透人情世故
268 16

热门文章

最新文章

下一篇
oss云网关配置