Nacos最近我们搞营销活动,每天下午3点左右流量猛增,系统非常卡慢
经检查:
1、刚开始网关承压,调整连接数后网关正常,能正常承载流量,请求转发正常
2、后端各服务正常,CPU/内存占用都不高
3、监控数据库正常,出问题期间基本无慢SQL,QPS/TPS正常,应用的数据库连接数够用
应用架构基本情况:
1、整体采用springCloud-alibaba,所有应用部署在云上
2、nacos作为注册中心和配置中心 (单实例,云单机部署)
3、网关gateway(双实例,云单机部署)
4、业务应用部署于容器集群
最近几天扛不住高并发,一到活动期间系统整体卡慢。检测到nacos所在的服务器句柄数达到40万(centos7 , 系统默认限制6万左右),调高了限制数,仍然无效,查看nacos日志发现有报错 nacos : java.lang.IllegalStateException: old raft protocol already stop ,但网上查询说是跟这个无关, 请群里大佬指明调查方向,实在是束手无策了
根据您的描述,您在进行营销活动时,系统出现卡慢的问题。在排查过程中,已经确定了网关和后端服务的正常性,并且调整了数据库连接数。但是,您发现Nacos所在的服务器句柄数较高,并且在Nacos日志中出现了报错信息。
针对这个问题,您可以尝试以下几个方向的调查:
Nacos性能优化:考虑到Nacos作为注册中心和配置中心,可能承载了大量的请求和数据,您可以尝试进行Nacos的性能优化,以提升其处理能力。例如,调整Nacos的JVM参数、调整线程池配置、增加服务器资源、使用集群部署等。您可以参考Nacos官方文档中的性能优化指南,了解更多关于Nacos性能优化的建议。
分布式部署:考虑将Nacos进行分布式部署,以分散负载并提高系统的可用性和性能。您可以将Nacos进行集群部署,将负载分散到多个实例上,从而增加系统的承载能力。
日志分析:详细分析Nacos的日志,特别是报错信息,以了解可能的问题。查看是否有其他异常或错误信息出现,以及它们的发生时间和频率。这些信息可能有助于确定导致系统卡慢的原因。
监控和性能测试:使用监控工具对Nacos进行监控,包括CPU、内存、网络等指标,以及请求量和响应时间等。同时,可以进行性能测试,模拟高并发场景,观察系统的表现和性能。这些数据可以帮助您定位系统瓶颈并进行调优。
升级版本:检查当前Nacos的版本是否为最新版本,如果不是,可以考虑升级到最新版本,以获得更好的性能和稳定性。
如果问题仍然存在或无法解决,建议您联系Nacos的官方技术支持团队,向他们报告该问题,并获得更详细的帮助和指导。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。