日志收集之kafka篇

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 日志收集     日志收集包括服务器日志收集和埋码日志收集两种。     服务器日志主要是nginx、tomcat等产生的访问和业务日志。     埋码收集主要是某些服务器无法收集,需要在前端进行收集的数据。 收集流程     日志处理是指将消息队列用在日志处理中,比如Kafka的应用,解

日志收集

    日志收集包括服务器日志收集和埋码日志收集两种。

    服务器日志主要是nginx、tomcat等产生的访问和业务日志。

    埋码收集主要是某些服务器无法收集,需要在前端进行收集的数据。

收集流程

    日志处理是指将消息队列用在日志处理中,比如Kafka的应用,解决大量日志传输的问题。

8015a5a7118c9c47133dc5c4a330ec50fedc2592

  • 日志采集客户端,负责日志数据采集,定时写受写入Kafka队列;
  • Kafka消息队列,负责日志数据的接收,存储和转发;
  • 日志处理应用:订阅并消费kafka队列中的日志数据;

      下面是一个应用的实例图

8cbff4f7e6938e27687fe41ad3964043472e63f9

      存储可以是Elasticsearch,对数据进行实时分析。

为什么kafka

    Kafka 是分布式发布-订阅消息系统。它最初由 LinkedIn 公司开发,使用 Scala语言编写,之后成为 Apache 项目的一部分。Kafka 是一个分布式的可划分的多订阅者,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。如果对时时性要求较高的话,可以使用这种方案。

    它具备以下特点:

  • 同时为发布和订阅提供高吞吐量。据了解,Kafka 每秒可以生产约 25 万消息(50 MB),每秒处理 55 万消息(110 MB)。

  • 可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如 ETL,以及实时应用程序。通过将数据持久化到硬盘以及 replication 防止数据丢失。

  • 分布式系统,易于向外扩展。所有的 producerbroker consumer 都会有多个,均为分布式的。无需停机即可扩展机器。

  • 消息被处理的状态是在 consumer 端维护,而不是由 server 端维护。当失败时能自动平衡。

  • 支持 online offline 的场景。

kafka的测试效果

    下面是单机情况下的测试效果:

5a820d5db579694c3f497c57f8613e203fb18268

kafka的核心概念

    kafka中的核心概念如下:

  • Producer 特指消息的生产者
  • Consumer 特指消息的消费者
  • Consumer Group 消费者组,可以并行消费Topicpartition的消息
  • Broker:缓存代理,Kafa 集群中的一台或多台服务器统称为 broker
  • Topic:特指 Kafka 处理的消息源(feeds of messages)的不同分类。
  • PartitionTopic 物理上的分组,一个 topic 可以分为多个 partition,每个 partition 是一个有序的队列。partition 中的每条消息都会被分配一个有序的 idoffset)。
  • Message:消息,是通信的基本单位,每个 producer 可以向一个 topic(主题)发布一些消息。
  • Producers:消息和数据生产者,向 Kafka 的一个 topic 发布消息的过程叫做 producers 
  • Consumers:消息和数据消费者,订阅 topics 并处理其发布的消息的过程叫做 consumers

kafka的整体流程

    kafka的整体流程:

20d3ab6d9b4d8555de9b6bfd62cbef111a41bb06

          数据通过flume在客户端进行代理,收集各种日志信息,整体模式使用生产者,消费者的模型。

          producer可以根据配置设置发送的时间段。

          broker中分为不同的topic,topic中又可以分为不同的partition,这个有点儿类似于数据库中的分区表,对于数据量大的情况下非常适合。

          customer负责消费消息日志,如果需要时时消费,则可以使用storm或者spark streaming,如果离线消费,可以使用mapreduce。


kafka总结

    kafka可以完全应用到不同的业务场景中,配合zookeeper,保证系统的高可用性。



作者:skyme

联系方式:

邮箱【cloudskyme@163.com】

QQ【270800073】

本文版权归作者和云栖社区共同所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。



目录
相关文章
|
4月前
|
消息中间件 存储 Kafka
Kafka日志处理:深入了解偏移量查找与切分文件
**摘要:** 本文介绍了如何在Kafka中查找偏移量为23的消息,涉及ConcurrentSkipListMap的查询、索引文件的二分查找及日志分段的物理位置搜索。还探讨了Kafka日志分段的切分策略,包括大小、时间、索引大小和偏移量达到特定阈值时的切分条件。理解这些对于优化Kafka的性能和管理日志至关重要。
145 2
|
25天前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
24 4
|
25天前
|
存储 消息中间件 大数据
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
大数据-70 Kafka 高级特性 物理存储 日志存储 日志清理: 日志删除与日志压缩
34 1
|
25天前
|
存储 消息中间件 大数据
大数据-68 Kafka 高级特性 物理存储 日志存储概述
大数据-68 Kafka 高级特性 物理存储 日志存储概述
19 1
|
2月前
|
消息中间件 Kafka API
python之kafka日志
python之kafka日志
25 3
|
2月前
|
消息中间件 存储 监控
Kafka的logs目录下的文件都是什么日志?
Kafka的logs目录下的文件都是什么日志?
93 11
|
3月前
|
消息中间件 监控 Kafka
Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统
【8月更文挑战第13天】Filebeat+Kafka+Logstash+Elasticsearch+Kibana 构建日志分析系统
169 3
|
3月前
|
消息中间件 Java Kafka
【Azure 事件中心】开启 Apache Flink 制造者 Producer 示例代码中的日志输出 (连接 Azure Event Hub Kafka 终结点)
【Azure 事件中心】开启 Apache Flink 制造者 Producer 示例代码中的日志输出 (连接 Azure Event Hub Kafka 终结点)
|
4月前
|
消息中间件 NoSQL Kafka
基于Kafka的nginx日志收集分析与监控平台(3)
基于Kafka的nginx日志收集分析与监控平台(3)
|
4月前
|
消息中间件 监控 Kafka
基于Kafka的nginx日志收集分析与监控平台(2)
基于Kafka的nginx日志收集分析与监控平台(2)