记录一次高并发引起的生产事故的溯源记录

2023-05-07 210

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

Redis 开源版，标准版 2GB

云数据库 Tair（兼容Redis），内存型 2GB

简介： 记录一次高并发引起的生产事故的溯源记录

一次高并发抢购活动引起的生产事故的过程分析记录

1.在日志中观察到的很多dubbo超时报错

Caused by: com.alibaba.dubbo.remoting.TimeoutException: Waiting server-side response timeout.

排查过程：数据库sql负载偏高，有接口直接查sql没有加缓存的，数据库瓶颈没办法，一个sql延迟几十毫秒，并发上来之后，就会把整体往后拖了

原因分析：

1.执行sql没有超时时间，慢就慢了，但是rpc接口和对外接口是有timeout的，单个dubbo服务是的线程池数量是有上限的，

2.每个rpc接口调用1个sql，一个sql延迟100ms，就算一个rpc调用100ms，比如这个进程给的线程数是100，那么一秒钟1000ms/200ms * 100 = 500次,也就是这个rpc接口的性能是500次/秒，恰好能够没有线程阻塞等待处理完毕，当501并发时第501个就会阻塞100ms才能进到rpc中执行代码处理，最后因为sql的超时导致了调用dubbo provider进程阻塞，继而导致rpc外层调用的consumer超时，接口返回异常。

将sql全部优化之后，发现在高并发的时候日志中还是有超时的报错，看问题还是一样的，最后排查发现是因为A服务对外提供了一个按id查唯一信息的rpc接口，B服务中有逻辑为了获取多个id的信息，循环进行多次rpc调用。所以如果B服务获取的id信息越多对应的rpc循环调用的次数也就越多，从而B的这个业务操作会更加耗时，最后导致超时问题的出现。

最后把这里优化掉，改成一次rpc调用从A服务中批量拿到全部的数据后再在B服务这里分组依次获取。

2.修复上面的问题后发现又出现了dubbo线程池满了的报错

[DUBBO] Thread pool is EXHAUSTED! Thread Name: DubboServerHandler-ip:70882, Pool Size: 400 (active: 400, core: 400, max: 400, largest: 400), Task: 8640430 (completed: 8640030), Executor status:(isShutdown:false, isTerminated:false, isTerminating:false), in dubbo://ip:70882!, dubbo version: 2.6.2, current host: ip

dubbo线程池满了，我们通过重新设置线程池大小dubbo.provider.threads = 1000

3.调大线程池后又出现了另外一个问题，Redis连接数跑满了

org.springframework.data.redis.RedisConnectionFailureException: No reachable node in cluster; nested exception is redis.clients.jedis.exceptions.JedisNoReachableClusterNodeException: No reachable node in cluster

redis连接数跑满了，这个问题寻找了好久，最终发现是Jedis的版本问题版本问题，导致链接没有释放，连接泄露，我们通过升级jedis版本到2.10.2就解决了这个问题。

详情见这里https://blog.csdn.net/RL_LEEE/article/details/99831991

4.修复了上面的问题后，又出现了redis连接池跑满了问题

org.springframework.dao.InvalidDataAccessApiUsageException: Could not get a resource since the pool is exhausted; nested exception is redis.clients.jedis.exceptions.JedisExhaustedPoolException: Could not get a resource since the pool is exhausted

redis连接池数量太小了，我们通过增大spring.redis.jedis.pool.max-idle = 100，spring.redis.jedis.pool.max-active = 100，这两个配置重新进行了调整。

5.连接池跑满了的问题解决了，紧接着又出现了热点Key的分布不均匀的问题

redis.clients.jedis.exceptions.JedisClusterMaxRedirectionsException: Too many Cluster redirections?

这个是一个热点大Key的问题，把一个在高峰期会频繁访问的对象全部缓存成一个大对象放到redis里面，最终导致这个对象的大小超过了5MB，因为redis是单线程，每次读取5MB然后再进行传输，会导致网络io上升，并发数上来后，很容易把热点Key所在的节点给压挂。

解决方法就是将整存整取的大对象，分拆为多个小对象。可以尝试将对象分拆成几个key-value，使用multiGet获取值，这样分拆的意义在于分拆单次操作的压力，将操作压力平摊到多个redis实例中，降低对单个redis的IO影响。这里可以参见我另外一篇文章https://www.cnblogs.com/lingyejun/p/12539694.html

6.最终，将上面的问题都解决了之后事故得以最终解决，特此记录，备忘。

如果对您有帮助，请不要忘了给翎野君点赞。

记录一次高并发引起的生产事故的溯源记录

一次高并发抢购活动引起的生产事故的过程分析记录

1.在日志中观察到的很多dubbo超时报错

2.修复上面的问题后发现又出现了dubbo线程池满了的报错

3.调大线程池后又出现了另外一个问题，Redis连接数跑满了

4.修复了上面的问题后，又出现了redis连接池跑满了问题

5.连接池跑满了的问题解决了，紧接着又出现了热点Key的分布不均匀的问题

6.最终，将上面的问题都解决了之后事故得以最终解决，特此记录，备忘。

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

记录一次高并发引起的生产事故的溯源记录

一次高并发抢购活动引起的生产事故的过程分析记录

1.在日志中观察到的很多dubbo超时报错

2.修复上面的问题后发现又出现了dubbo线程池满了的报错

3.调大线程池后又出现了另外一个问题，Redis连接数跑满了

4.修复了上面的问题后，又出现了redis连接池跑满了问题

5.连接池跑满了的问题解决了，紧接着又出现了热点Key的分布不均匀的问题

6.最终，将上面的问题都解决了之后事故得以最终解决，特此记录，备忘。

热门文章

最新文章

相关电子书