阿里云容器服务docker swarm如何合理集群部署？

1.问题描述：

阿里云服务器集群部署docker服务，初始化启动后，集群结点的cpu负载就占到了平均80%（结点配置：

CPU： 16核、内存： 31.262 GB ）。

2.影响结果：

高并发下经常出现内存不足，负载过高等告警，资源相当吃紧，甚至出现应用服务不可用，宕机等严重事故。

3.结点所部署的服务列表如下：

4.请教:

现有部署的springcloud应用集群服务，占用资源偏高，所以想请教下阿里相关精通此块产品的同学分析下现有部署的服务是否合理，听听他们专业的部署建议，更优更合理的利用资源。

展开

收起

291555446992870843 2019-02-21 11:29:44 2053 版权

阿里云 AI 助理回答

针对您在阿里云服务器集群上部署Docker服务遇到的高负载和内存不足问题，结合您的节点配置（16核CPU、31.262 GB内存）及当前服务表现，以下是一些建议来优化资源利用并提高服务稳定性：

使用SAR工具：首先，建议使用sar工具对每个节点进行系统资源的详细监控，包括CPU、内存、I/O等。通过命令如sar -u ALL查看CPU使用率，sar -r查看内存使用情况，以及sar -b检查磁盘I/O状况。这有助于定位是哪个服务或进程导致的高负载。
容器层面监控：同时，利用Docker的原生监控工具如docker stats或集成Prometheus+Grafana进行容器级别的资源监控，以细化到具体应用的服务消耗。

资源限制：为Docker容器设置合理的资源限制，避免单个容器过度消耗资源。使用--memory和--cpu-shares或--cpuset-cpus选项在启动容器时进行配置，确保服务按需分配资源，避免争抢。

微服务拆分：根据服务列表评估是否可以进一步微服务化，将大型服务拆分为更小、更专一的服务单元，这样可以减少服务间的耦合，提升系统的可扩展性和资源利用率。
Spring Cloud调优：检查Spring Cloud应用的配置，比如Eureka客户端的心跳频率、Hystrix断路器的超时和阈值设定，以及Ribbon或Feign的连接池大小等，合理调整以降低不必要的资源占用。

排查内存泄露：频繁出现内存不足告警可能意味着存在内存泄漏。使用Java VisualVM或JProfiler等工具定期检查应用是否存在内存泄漏，并及时修复。
垃圾回收策略：对于Java应用，调整JVM参数，采用合适的垃圾回收策略（如G1GC），优化内存管理，减少Full GC带来的停顿时间。