企业运维训练营之云上网络原理与实践课程 - 第二讲 负载均衡CLB(下)- 常见问题与解决思路

本文涉及的产品
应用型负载均衡 ALB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
性能测试 PTS,5000VUM额度
简介: 课程目标了解负载均衡CLB的产品功能了解负载均衡CLB的底层架构与相关技术掌握负载均衡CLB的最佳实践熟知负载均衡CLB的常见问题与解决思路

企业运维训练营之云上网络原理与实践课程

第二讲  负载均衡CLB(下)- 常见问题与解决思路

 

视频地址:

https://developer.aliyun.com/learning/course/991/detail/14970

 

 

1.  访问CLB失败

image.png

 

a.  问题表现:公网所有客户端ping or telnet 均不通。

可能的原因:SLB IP被清洗或黑洞。

处理方法:1、清洗:解除清洗 2、黑洞:迁移业务,等待黑洞结束。

 

b.  问题表现:

  • 可以pingSLB IP
  • 客户端报错:Connection reset by peerConnection refused502状态码;
  • 访问日志,upstream addr显示为非IP地址;
  • 客户端抓包:SYN发出后收到了RST

可能的原因:RS全部健康检查失败。

处理方法:后端ECS上分析排查健康检查失败的原因。

 

c.  问题表现:

  • ping or telnet 表现类似,偶发不通;
  • 只有部分地域或单个运营商存在问题;

可能的原因:公网链路质量问题。

处理方法:获取MTR结果后请终端用户向当地运营商报障。

 

d.  问题表现:

  • 可以pingSLB IP
  • 是四层监听;
  • 访问失败概率为(n-1)/nn为后端ECS服务器台数;
  • 客户端抓包SYN发出后没有收到SYN ACK

可能的原因:服务器同时作为后端ECS与客户端;

处理方法:

  • 更改为7层监听
  • 更改架构

 

2.  健康检查失败

image.png

a.  /七层监听健康检查失败原因:

 

  • 屏蔽了健康检查源IP
  • 后端ECS端口是否监听;
  • 后端ECS监听队列是否溢出;
  • 安全软件是否进行了拦截;

 

b.  七层监听健康检查失败原因:

 

除了上述可能的问题,七层监听默认使用head请求,需要查看后端WebServer是否开启head请求;

 

c.  错误信息示例:

 

TCP监听:TCP connect time out / TCP connect error

UDP监听:UDP connect error

HTTP(s)监听:check protocol error / check time out

 

3.  访问出现4xx5xx

 image.png

 

使用负载均衡后出现4xx5xx的处理思路:

 

a.  400 Bad Request

 

  • 请求头过大;
  • Cookie过大;

 

b.  500 Internal Server Error

 

  • 指定域名和url时,没有精确匹配url
  • proxy往后端ECS发送数据的过程中,后端ECS主动RSTTCP连接;

 

c.  502 Bad Gateway

 

  • proxy和后端ECS三次握手过程中,后端ECS主动回复了RST
  • proxy和后端ECS三次握手成功,但在等待响应的过程中后端ECS主动回复了RST
  • 所有后端ECS健康检查失败;

 

d.  503 Service Unavailable

 

  • proxy超出单台限定的QPSupstream_response_timeupstream_addr会填充为“_”;
  • 转发的目标集合中没有可用的RS(如虚拟服务器中没有RS,后端服务器中没有ECS)upstream_response_time一般会填充为0.000upstream_addr会填充为“127.0.0.1:503”

 

e.  504 Gateway Timeout

 

  • proxyRS三次握手建连超时(超时时间为5),如syn一直在重传,upstream_response_time填充为5(可能会有正负一点误差,如5.001)upstream_status504
  • proxyRS三次握手成功,但是等待HTTP响应超时(超时时间为60)upstream_response_time填充为60(可能会有正负一点误差,如60.001)upstream_status504

 

4.  负载不均

 image.png

a.  负载不均的原因

 

  • 四层监听:业务存在长连接;新建连接数过少;
  • 七层监听:启用了HTTP2
  • /七层监听:后端健康检查抖动;会话保持;转发规则为最小连接数。

 

b.  解决思路:

 

  • 访问日志;
  • 健康检查日志;
  • 寻求阿里云技术支持,查看底层数据。

 

5.  压测性能不符合预期

 image.png

 

a.   施压前

  • 观测指标:50x状态码(特别是503状态码);丢弃连接、丢弃流量、50x状态码、upstream_response_timeupstream_response_time
  • 施压方式:长时间的压测、施压的源IP足够多(建议10个以上)

 

b.   施压中

  • 施压工具:推荐使用PTSJmeter
  • 关闭健康检查;
  • 关闭会话保持;

 

c.   施压后

  • 查看压测报告:QPSRTTPSVU
  • 评估是否达到预期;

 

d.   可能的原因

  • TCP流压测:单个TCP链接速率峰值=CLB总带宽的1/(N-1)
  • 客户端出现瓶颈:源端口不足、带宽受限;
  • SLB本身出现瓶颈:超过实例配额;
  • 后端ECS出现瓶颈。

 

 

 

相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
1月前
|
安全 虚拟化
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力。通过具体案例,展示了方案的制定和实施过程,强调了目标明确、技术先进、计划周密、风险可控和预算合理的重要性。
45 5
|
20天前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
115 30
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
149 7
|
28天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
1月前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
56 5
|
1月前
|
云安全 监控 安全
云计算环境下的网络安全策略与实践
在数字化时代,云计算已成为企业和个人存储、处理数据的重要方式。然而,随着云服务的普及,网络安全问题也日益凸显。本文将探讨如何在云计算环境中实施有效的网络安全措施,包括加密技术、访问控制、安全监控和应急响应计划等方面。我们将通过具体案例分析,展示如何在实际场景中应用这些策略,以保护云中的数据不受威胁。
|
1月前
|
监控 安全 网络安全
网络安全新前线:零信任架构的实践与挑战
网络安全新前线:零信任架构的实践与挑战
32 0
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
68 4
|
27天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
27天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
68 1

热门文章

最新文章