企业ELK日志搜索引擎— Elastic Stack 实战手册-阿里云开发者社区

开发者社区> 工程师甲> 正文

企业ELK日志搜索引擎— Elastic Stack 实战手册

简介: 通过每个应用服务器上部署 filebeat,上传到 kafka;由 kafka 分发消息到 logstash; Logstatsh 写入日志到 Elasticsearch 集群;
+关注继续查看

970X90.png

· 更多精彩内容,请下载阅读全本《Elastic Stack实战手册》

· 加入创作人行列,一起交流碰撞,参与技术圈年度盛事吧

创作人:朱祝元
审稿人:朱永生

技术架构

1.png

  • 物理部署:

1master;5 Data;1 Logstash+kibana;3 kafka 3 主 3 从交叉部署

  • 应用框架:

项目采用 springboot 作为基础框架开发分布式应用;

  • 实施方案:

通过每个应用服务器上部署 filebeat,上传到 kafka;由 kafka 分发消息到 logstash; Logstatsh 写入日志到 Elasticsearch 集群;

  • 应用目标:

收集 50 台机器的日志,可以及时发现日志中的错误日志以及日志对应的上下文。

日志解决方案的演进

阶段一、项目上线一切刚开始

每个程序员通过 ssh 将数据 copy 到堡垒机。然后把数据从堡垒机下载到本地处理数据,分析日志;

遇到的问题

  1. 下载日志到本地,文件太大难以处理:每个日志文件大概 500M,这种体量,Windows 上任何文本工具打开都很吃力,还要下载多个文件,下载速率也有很大影响;
  2. 远程服务器上查找,服务器关联多:同一个服务部署的有多个节点,那么找一个需要的日志就要多个服务器都执行类似于下面的命令来查找蛛丝马迹:
more INFO-2020-12-17.0.log |grep -C 5 'scanRecord'

如果遇到关联的服务日志查询,还会让事情的复杂度变的更高。

阶段二、测试环境建立ELK环境

实践过程:

刚开始的时候 1 master+ 3 data;有一个普遍的认知就是,单个 Elasticsearch data 节点的每个分片数据大小:30GB-50GB。因为我们的系统是 4 核 8G 的配置,因此我们采用了下限,也就是每个 Shard 30G。这样子运行了 3 个月。

采用策略:

按天产生 index,一些 IP,APP 应用名等不需要分词查询的字段都禁用了 index (这样可以节省磁盘),只保留一周的日志回溯,3 天的日志 alive 查询,4 天的日志 close。一周以上的 index 直接 delete ,晚上 12点 定时执行 forcemerge。

遇到瓶颈,系统扩容:

因为随着系统票件量的提升,日志数据逐步增加。慢慢就会感到系统查询非常慢,磁盘空间慢慢的无法做到保留一周日志回溯,立马进行了系统扩容。

扩容后:

系统会自动进行索引分片重分配,会把分片均匀的分布到所有的节点上。比如刚开始 3 台 data 节点 6 个分片,平均每个机器会有 2 个分片,那么系统扩容一倍后,会变成 6 个 data 节点,那么这 6 个分片,会自动平均分布到 6 个 data 节点上。每个节点有一个 shard。

扩容步骤

修改配置文件

主要修改所有 Elasticsearch 节点的elasticsearch.yml中的 IP 地址,如果一个机器上部署多个节点,记得将端口号加上。

一个机器上部署三个节点实例

discovery.zen.ping.unicast.hosts:["192.168.207.43:9300","192.168.207.43:9301","192.168.207.43:9302"]

配合的属性:

http.port: 9202
transport.tcp.port: 9302

分批启动ES

  • 启动顺序:先启动 master 节点,再启动其他类型的节点。
  • 启动命令:nohup ./bin/elasticsearch > nohup.out 2>&1 &

心路旅程

1、资源并不是充裕的。可以使用 Stack Monitoring 上的磁盘监控功能,随时监控磁盘的剩余空间。

2.png

并且,可以在数据可靠性要求允许的情况下,在索引生命周期管理中,把冷数据的index.number_of_replicas设置为 0。

3.png

2、最佳的 Kafka 分发效率。如果使用了 Kafka,注意 Kafka 的 Partition 与 Topic 的配置关系,通常来说 Logstash 中 Worker 的数量应该等于或大于 Kafka Partition 的数量,以便于达到最优的分发效率

3、SSD 的取舍。数据量过大。磁盘 IO 也真的能成为瓶颈,对比集群没有数据和集群数据量达到磁盘容量的50%的时候,写入的速率差别很大。业务需求需要实时查询的场景能上 SSD 就上SSD。

创作人简介:
朱祝元,从事 JAVA 企业级应用开发十余年,获得 pmp,acp 项目管理认证。有扎实
的企业级开发经验,以及分布式应用开发架构经验,参与了千万级的复杂项目数据场景
业务处理。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
java B2B2C Springboot电子商务平台源码-统一日志管理ELK
什么是ELK?ELK是三个开源软件的缩写,分别表示:Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat,它是一个轻量级的日志收集处理工具(Agent),Filebeat占用资源少,适合于在各个服务器上搜集日志后传输给Logstash,官方也推荐此工具。
983 0
日志服务Python消费组实战(二):实时分发数据
使用日志服务的Web-tracking、logtail(文件极简)、syslog等收集上来的日志经常存在各种各样的格式,我们需要针对特定的日志(例如topic)进行一定的分发到特定的logtail中处理和索引,本文主要介绍如何使用消费组实时分发日志到不通的目标日志库中,并保证可扩展性与高可用性。
3929 0
日志服务与SIEM(如Splunk)集成方案实战
本文主要介绍如何让阿里云日志服务与您的SIEM方案(如Splunk)对接, 以便确保阿里云上的所有法规、审计、与其他相关日志能够导入到您的安全运维中心(SOC)中。 注意:相关代码已经正式发布为Splunk采集插件,推荐直接访问下载使用:https://splunkbase.splunk.com/app/4934/
11660 0
Search 通过 Kibana—Elastic Stack 实战手册
在 TO B 行业,对商品的搜索展示,是有一定业务要求的,例如:存在合作关系的买家和供应商才能看到供应商店铺的商品,不存在合作关系的买家则不展示商品。另外,有些商品对客户甲展示一种价格,对客户乙则展示另外一种价格,从而区分不同的会员、分组对商品价格的区别。
106 0
ELK日志分析系统迁移记录
写在开始 阿里云ECS即将到期,由于之前ELK日志分析是在自己的服务器上进行试水,断断续续运行了一年多时间。 今天抽空赶紧把ELK迁移一下,由于Logstash本身就配置于各个系统之中,所以这里只是对Redis、Elasticsearch和Kibana进行了配置,当然还有一些邮件发送的配置。
3419 0
企业级搜索公司PureDiscovery获C轮融资1000万美元
  企业级搜索公司PureDiscovery不是依赖索引和关键词搜索,它专注于语义分析技术、学习公司文件内容中所指的内涵——通过创造一个语义大脑( semantic brain)指示用户需要的数据。
955 0
突破Java面试(15)-分布式搜索引擎Elastic Search的工作流程
面试官就是想看看你是否了解ES的一些基本原理. ES无非就是写/查数据,你如果不明白你发起写入/搜索请求后,ES做了什么,那你该劝退了.
2521 0
Spring+Log4j+ActiveMQ实现远程记录日志——实战+分析
这几天由于工作需要,研究了一下远程打印日志的方式,于是将研究结果记录在此,分享给大家,希望对大家有所帮助。
1423 0
+关注
工程师甲
搜索与推荐工程技术团队、阿里云Elasticsearch技术团队;
201
文章
4
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载