我们在 v3.10 的企业版中新增了自动巡检功能,关于设计这个功能的初衷以及效果、客户收益简单给大家介绍一下。
自动巡检功能介绍
该服务具备以下三个方面的监控和检查:
服务器监控状态:检查服务器 CPU/内存/磁盘状态、系统时间及 qume 版本信息,并且根据检查结果列出问题清单及建议方案
MySQL 健康状态:对数据库进行可用性检查、异常终止的查询数几高可用状态检查,并且根据检查结果列出问题清单及建议方案
k8s 健康检查:对平台 k8s pods/ nodes 状态、证书状态及无用镜像列表进行检查,并自动删除无用镜像信息
设计初衷
我们会定期对现有所有客户的环境进行巡检,帮助客户及时发现系统瓶颈或者潜在风险,一般每个客户从登录环境到输出巡检报告,大概需要一天时间。随着客户越来越多,巡检工作带来的时间成本就不容忽视,我们希望能够通过自动化产品化的方式来改善巡检工作。
功能上线前后的效果对比
上线前
技术支持编写 shell 脚本,登陆客户服务器上,通过 ansible 执行 shell 的命令的输出结果,检查服务器监控状态、MySQL 和 k8s 集群状态。
根据脚本输出信息,手动绘制巡检报告
上线后
自动巡检功能的效果:管理员登录到控制台,点击【巡检】按钮,大概 5 分钟左右的时间(具体时间取决于服务器的规模),我们就可以在系统查看巡检报告的 PDF,如下图所示。
客户收益
第一,安全:产品化后的巡检功能,全程不需要技术人员的参与,更不需要直接登录客户的服务器环境等,这对客户来说很安全,不会带来其他的风险。
第二,问题识别和解决:环境巡检可以帮助发现平台中的问题和隐患,如服务器磁盘空间不足,负载过高、服务异常等。通过及时识别这些问题,可以采取相应的措施来解决它们,提高系统的可靠性和稳定性。
第三,性能优化和容量规划:通过巡检平台,可以收集关于平台系统使用情况、资源利用率和负载模式的数据。这些数据可以用于性能优化和容量规划,帮助组织合理规划资源投入,并满足未来的业务需求。
致谢
自动巡检功能是在盛银消金运维团队的建议和不断反馈下才得以上线和完善。在此对盛银消金运维团队表示衷心的感谢。
以上是文章的主要内容,作为融合云/多云管理/私有云/FinOps 厂商,云联壹云会持续关注这些领域的动态,分享相关的信息和技术,可以通过的官网(yunion.cn)或关注的公众号(云联壹云)来获取最新的信息,感谢大家的时间。
原文地址:https://www.yunion.cn/article/html/