企业运维训练营之云上网络原理与实践课程 - 第二讲 负载均衡CLB(下)- 常见问题与解决思路

简介: 课程目标了解负载均衡CLB的产品功能了解负载均衡CLB的底层架构与相关技术掌握负载均衡CLB的最佳实践熟知负载均衡CLB的常见问题与解决思路

企业运维训练营之云上网络原理与实践课程

第二讲  负载均衡CLB(下)- 常见问题与解决思路

 

视频地址:

https://developer.aliyun.com/learning/course/991/detail/14970

 

 

1.  访问CLB失败

image.png

 

a.  问题表现:公网所有客户端ping or telnet 均不通。

可能的原因:SLB IP被清洗或黑洞。

处理方法:1、清洗:解除清洗 2、黑洞:迁移业务,等待黑洞结束。

 

b.  问题表现:

  • 可以pingSLB IP
  • 客户端报错:Connection reset by peerConnection refused502状态码;
  • 访问日志,upstream addr显示为非IP地址;
  • 客户端抓包:SYN发出后收到了RST

可能的原因:RS全部健康检查失败。

处理方法:后端ECS上分析排查健康检查失败的原因。

 

c.  问题表现:

  • ping or telnet 表现类似,偶发不通;
  • 只有部分地域或单个运营商存在问题;

可能的原因:公网链路质量问题。

处理方法:获取MTR结果后请终端用户向当地运营商报障。

 

d.  问题表现:

  • 可以pingSLB IP
  • 是四层监听;
  • 访问失败概率为(n-1)/nn为后端ECS服务器台数;
  • 客户端抓包SYN发出后没有收到SYN ACK

可能的原因:服务器同时作为后端ECS与客户端;

处理方法:

  • 更改为7层监听
  • 更改架构

 

2.  健康检查失败

image.png

a.  /七层监听健康检查失败原因:

 

  • 屏蔽了健康检查源IP
  • 后端ECS端口是否监听;
  • 后端ECS监听队列是否溢出;
  • 安全软件是否进行了拦截;

 

b.  七层监听健康检查失败原因:

 

除了上述可能的问题,七层监听默认使用head请求,需要查看后端WebServer是否开启head请求;

 

c.  错误信息示例:

 

TCP监听:TCP connect time out / TCP connect error

UDP监听:UDP connect error

HTTP(s)监听:check protocol error / check time out

 

3.  访问出现4xx5xx

 image.png

 

使用负载均衡后出现4xx5xx的处理思路:

 

a.  400 Bad Request

 

  • 请求头过大;
  • Cookie过大;

 

b.  500 Internal Server Error

 

  • 指定域名和url时,没有精确匹配url
  • proxy往后端ECS发送数据的过程中,后端ECS主动RSTTCP连接;

 

c.  502 Bad Gateway

 

  • proxy和后端ECS三次握手过程中,后端ECS主动回复了RST
  • proxy和后端ECS三次握手成功,但在等待响应的过程中后端ECS主动回复了RST
  • 所有后端ECS健康检查失败;

 

d.  503 Service Unavailable

 

  • proxy超出单台限定的QPSupstream_response_timeupstream_addr会填充为“_”;
  • 转发的目标集合中没有可用的RS(如虚拟服务器中没有RS,后端服务器中没有ECS)upstream_response_time一般会填充为0.000upstream_addr会填充为“127.0.0.1:503”

 

e.  504 Gateway Timeout

 

  • proxyRS三次握手建连超时(超时时间为5),如syn一直在重传,upstream_response_time填充为5(可能会有正负一点误差,如5.001)upstream_status504
  • proxyRS三次握手成功,但是等待HTTP响应超时(超时时间为60)upstream_response_time填充为60(可能会有正负一点误差,如60.001)upstream_status504

 

4.  负载不均

 image.png

a.  负载不均的原因

 

  • 四层监听:业务存在长连接;新建连接数过少;
  • 七层监听:启用了HTTP2
  • /七层监听:后端健康检查抖动;会话保持;转发规则为最小连接数。

 

b.  解决思路:

 

  • 访问日志;
  • 健康检查日志;
  • 寻求阿里云技术支持,查看底层数据。

 

5.  压测性能不符合预期

 image.png

 

a.   施压前

  • 观测指标:50x状态码(特别是503状态码);丢弃连接、丢弃流量、50x状态码、upstream_response_timeupstream_response_time
  • 施压方式:长时间的压测、施压的源IP足够多(建议10个以上)

 

b.   施压中

  • 施压工具:推荐使用PTSJmeter
  • 关闭健康检查;
  • 关闭会话保持;

 

c.   施压后

  • 查看压测报告:QPSRTTPSVU
  • 评估是否达到预期;

 

d.   可能的原因

  • TCP流压测:单个TCP链接速率峰值=CLB总带宽的1/(N-1)
  • 客户端出现瓶颈:源端口不足、带宽受限;
  • SLB本身出现瓶颈:超过实例配额;
  • 后端ECS出现瓶颈。

 

 

 

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
相关文章
|
9月前
|
运维 监控 负载均衡
高效运维实践:常见问题的应对策略与实践经验
本文探讨了运维工作中的五大核心挑战及应对策略,涵盖负载均衡优化、数据库性能提升、系统监控预警、容器化与微服务运维等方面,旨在帮助企业提升系统稳定性与运维效率。
|
运维 负载均衡 监控
提升系统性能:高效运维的秘密武器——负载均衡技术
在当今数字化时代,系统的高可用性和高性能成为各类企业和组织追求的目标。本文旨在探讨负载均衡技术在运维工作中的关键作用,通过深入分析其原理、类型及实际应用案例,揭示如何利用这项技术优化资源分配,提高系统的响应速度和可靠性,确保用户体验的稳定与流畅。无论是面对突如其来的高流量冲击,还是日常的运维管理,负载均衡都展现出了不可或缺的重要性,成为现代IT架构中的基石之一。
773 4
|
SQL 运维 DataWorks
DataWorks常见问题之dataworks运维中心指定时间“运行到该节点”失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
缓存 运维 负载均衡
运维往事 一次负载均衡坏点检测事故
之前做运维,有一些印象很深的事故,今天来讲其中一个,为了大家能理解,先说一些背景。现在因为流量巨大,单台机器肯定不足以为所有用户提供服务,所以大公司几乎任何一个服务的背后都是一套集群,然而任意一台机器不是100%可靠,如果你想让你服务尽可能接近100%可靠,你的集群就得具备检测和剔除坏点的能力。
222 0
|
运维 网络协议 Java
运维常见问题汇总-tomcat篇
运维常见问题汇总-tomcat篇
|
SQL 存储 运维
OBProxy 路由策略与使用运维-常见问题
OBProxy 路由策略与使用运维-常见问题
298 0
|
域名解析 运维 负载均衡
【运维知识进阶篇】Tomcat集群实战之部署zrlog博客(Tomcat服务安装+静态资源挂载NFS+Nginx负载均衡+HTTPS证书+Redis会话保持)
【运维知识进阶篇】Tomcat集群实战之部署zrlog博客(Tomcat服务安装+静态资源挂载NFS+Nginx负载均衡+HTTPS证书+Redis会话保持)
661 1
|
运维 负载均衡 PHP
【运维知识进阶篇】用阿里云部署kod可道云网盘项目(HTTPS证书+负载均衡+两台web)(四)
【运维知识进阶篇】用阿里云部署kod可道云网盘项目(HTTPS证书+负载均衡+两台web)(四)
550 0
|
6月前
|
人工智能 运维 监控
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
235 17
|
8月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
394 11

热门文章

最新文章