4.4.3 开源日志方案比对
提到日志系统,很多人都会使用ELK Stack(Elastic/Logstash/Kibana)来采集存储数据,Kafka用作数据临时存储,Flink用来业务数据实时分析,从而实时对业务的监控、风控。但是在以上看似简单的架构中,也隐藏了大量细节需要关注。以ES为例,用户需要关注以下几个方面:磁盘需要预留的数据空间,即原始数据*膨胀系数*(1+副本数)*(1+预留空间);数据冷热分离问题,所有数据全部保存到SSD上,成本过高。需要根据数据的重要程度和时间因素,将部分索引数据直接保存至HDD磁盘或使用Rollover功能迁移索引数据;索引设置,每个应用的两类日志,分别按照时间周期性创建索引,根据数据大小合理设置Shard数,单Shard以30~50 GB为宜,但是各应用的日志量很难准确估计,常在遇到写入或查询问题后再调整,然而重建索引的消耗又非常大;Kafka消费设置,使用Logstash消费Kafka数据再写入到ES,需要Kafka topic的patition数和logconsumer_threads相匹配,否则容易导致各partition消费不均。ES参数调优,即对写入吞吐、可见性延时、数据安全性以及查询性能等多方面因素进行综合评估和权衡后,结合集群CPU、内存,对ES一些列参数进行调优,才能更好发挥ES的特性。以上是在使用和运维ES集群中,经常会遇到和需要注意的问题,稳定维护好ES集群可真不是一件容易的事情,特别是当数据逐步扩大到数百TB,又有大量使用需求的情况下。同样的问题也存在其他系统中,这对于平时工作极其繁忙的运维和SRE同学是不小的负担。
云上一体化服务针对运维和SRE团队工作中的监控分析平台需求,以及平台搭建过程中遇到的种种问题,提供一套简单易用、稳定可靠、高性能而又具有良好性价比的解决方案。其具有以下优点:接入数据极其简便,能对数据进行实时消费并且能和对应的生态对接;海量数据查询分析力,日志服务具备百亿规模秒级查询,支持交互式查询,支持机器学习、安全检测等函数;支持数据加工,支持对数据的富化、脱敏等处理;能对日志进行异常智能诊断,及时发现异常数据;以及可以一站式完成告警监控、降噪、事务管理、通知分派等任务。