【Azure Redis】AKS中使用Lettuce连接Redis Cache出现 timed out 问题的解决思路

简介: 【Azure Redis】AKS中使用Lettuce连接Redis Cache出现 timed out 问题的解决思路

问题描述

使用 Lettuce 客户端,在AKS环境中连接Azure Redis服务,出现超时错误。

错误消息:

Redis command timed out , command timed out after 1 minute(s).

错误截图:

 

解决思路

当出现Redis客户端连接不上时,需要先排查Redis服务器的状态,比如Server Load是否处于高位(90%以上),CPU是否处于高位,然后查看连接数的情况(Connections)。

如果查看指标,并没有发现Redis服务的异常情况后,可以从一下几个方面来分析问题:

1)Azure Redis Cache的默认超时时间是10分钟,如果当前已经与Azure Redis Cache建立的连接超过10分钟没有使用,Azure Redis Cache服务端将会自动清理该连接,如果后续客户端尝试使用该已经断掉的连接去访问Azure Redis Cache,就需要重新建立连接。 详情请见:https://docs.azure.cn/zh-cn/azure-cache-for-redis/cache-best-practices-connection#idle-timeout

 

2)Lettuce 客户端连接Redis服务,当与服务之间的网络连接出现异常时,会导致客户端15分钟左右时间的Timeout 的已知问题

Lettuce开源社区中的相关问题讨论( https://github.com/lettuce-io/lettuce-core/issues/2082 ),当Lettuce底层TCP连接与Redis Server实际断开但客户端依然保持socket端口开放的时候,底层KeepAlive 以及Lettuce本身的保活机制不会生效,从而导致底层TCP连接成为orphan connection,进而导致Socket 依靠OS 底层tcp_retries 机制完成探测,在TCP重传15次后(大致15分钟)进行Redis连接的重新建立。

优化建议:在6.2.7.RELEASE 后 可以通过 SocketOptions 中的TCP_USER_TIMEOUT参数设置业务最大接收的timeout时间。具体配置可以参照: https://github.com/lettuce-io/lettuce-core/issues/2082#issuecomment-1702782618

// Config TCP KeepAlive
        SocketOptions socketOptions = SocketOptions.builder()
                .keepAlive(KeepAliveOptions.builder()
                        .enable()
                        .idle(Duration.ofSeconds(TCP_KEEPALIVE_IDLE))
                        .interval(Duration.ofSeconds(TCP_KEEPALIVE_IDLE/3))
                        .count(3)
                        .build())
                .tcpUserTimeout(TcpUserTimeoutOptions.builder()
                        .enable()
                        .tcpUserTimeout(Duration.ofSeconds(TCP_USER_TIMEOUT))
                        .build())
                .build();

 

3)对于偶发性的 timed out , 常见的原因有:应用使用的连接池中的连接长时间空闲,在复用连接池中的连接时。因为平台底层的TCP Socket 已经Close,而连接池中的连接依旧保持空闲状态,进而导致客户端请求超时。

  • 使用客户端重试以及keep-alive 机制,可以使得连接池中的连接保活,达到尽量减少问题的发生的可能性。
  • 对于使用连接池的情况,建议把TCP keep-alive 的间隔减小到3min 以下。

 

参考资料

  1. https://github.com/lettuce-io/lettuce-core/issues/2082 
  2. https://github.com/lettuce-io/lettuce-core/issues/2082#issuecomment-1702782618
  3. https://docs.azure.cn/zh-cn/azure-cache-for-redis/cache-best-practices-connection#idle-timeout
相关文章
|
2月前
|
NoSQL Java 网络安全
SpringBoot启动时连接Redis报错:ERR This instance has cluster support disabled - 如何解决?
通过以上步骤一般可以解决由于配置不匹配造成的连接错误。在调试问题时,一定要确保服务端和客户端的Redis配置保持同步一致。这能够确保SpringBoot应用顺利连接到正确配置的Redis服务,无论是单机模式还是集群模式。
281 5
|
NoSQL 应用服务中间件 API
Redis是如何建立连接和处理命令的
本文主要讲述 Redis 是如何监听客户端发出的set、get等命令的。
1623 160
|
8月前
|
云安全 NoSQL 安全
【Azure Redis】关于Redis的两个安全漏洞在Azure Redis是否修复问题:CVE-2024-51741 和 CVE-2024-46981
本文探讨了两个 Redis 漏洞(CVE-2024-51741 和 CVE-2024-46981)在 Azure Redis 上是否存在安全风险。CVE-2024-51741 可能因格式错误的 ACL 触发拒绝服务,而 CVE-2024-46981 或因恶意 Lua 脚本导致远程代码执行。目前 Azure Redis 使用版本 6.0,不受上述漏洞影响,且 Azure 云服务会及时修复漏洞以确保安全。文章强调 Azure 遵循严格的安全标准,为用户提供可靠保障。
359 4
|
10月前
|
消息中间件 存储 NoSQL
java连接redis和基础操作命令
通过以上内容,您可以掌握在Java中连接Redis以及进行基础操作的基本方法,进而在实际项目中灵活应用。
555 30
|
监控 NoSQL 网络协议
【Azure Redis】部署在AKS中的应用,连接Redis高频率出现timeout问题
查看Redis状态,没有任何异常,服务没有更新,Service Load, CPU, Memory, Connect等指标均正常。在排除Redis端问题后,转向了AKS中。 开始调查AKS的网络状态。最终发现每次Redis客户端出现超时问题时,几乎都对应了AKS NAT Gateway的更新事件,而Redis服务端没有任何异常。因此,超时问题很可能是由于NAT Gateway更新事件导致TCP连接被重置。
250 7
|
7月前
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
2月前
|
缓存 负载均衡 监控
135_负载均衡:Redis缓存 - 提高缓存命中率的配置与最佳实践
在现代大型语言模型(LLM)部署架构中,缓存系统扮演着至关重要的角色。随着LLM应用规模的不断扩大和用户需求的持续增长,如何构建高效、可靠的缓存架构成为系统性能优化的核心挑战。Redis作为业界领先的内存数据库,因其高性能、丰富的数据结构和灵活的配置选项,已成为LLM部署中首选的缓存解决方案。
|
3月前
|
存储 缓存 NoSQL
Redis专题-实战篇二-商户查询缓存
本文介绍了缓存的基本概念、应用场景及实现方式,涵盖Redis缓存设计、缓存更新策略、缓存穿透问题及其解决方案。重点讲解了缓存空对象与布隆过滤器的使用,并通过代码示例演示了商铺查询的缓存优化实践。
219 1
Redis专题-实战篇二-商户查询缓存
|
2月前
|
缓存 运维 监控
Redis 7.0 高性能缓存架构设计与优化
🌟蒋星熠Jaxonic,技术宇宙中的星际旅人。深耕Redis 7.0高性能缓存架构,探索函数化编程、多层缓存、集群优化与分片消息系统,用代码在二进制星河中谱写极客诗篇。
|
7月前
|
缓存 NoSQL Java
Redis+Caffeine构建高性能二级缓存
大家好,我是摘星。今天为大家带来的是Redis+Caffeine构建高性能二级缓存,废话不多说直接开始~
1029 0