Kafka学习一

简介: Producer:生产者,数据的发布者,将消息发布到kafka的topic中,broker接收到生产者发送的消息后,broker将该消息追加到当前用于追加数据的segment文件中。生产者发送消息,存储到一个partition中,生产者也可以指定数据库存储的partition.Consumer:消费者,可以从broker中读取数据,消费者可以消费多个topic中的数据.同时每个消费者都属于一个特定的消费组(ConsumerGroup).

      我们先来学习学习kafka的相关概念吧!只有知道了概念。关于kafka的知识我们才会认识得更加清晰。下图是kafka的生产消费图:

01.jpg



    在图中我们可以看到有生产者Producer、消费者Consumer、分区Partition、副本Replica、主Leader、从Follower等名称。那我们先来了解这些信息:

  1. Producer:生产者,数据的发布者,将消息发布到kafka的topic中,broker接收到生产者发送的消息后,broker将该消息追加到当前用于追加数据的segment文件中。生产者发送消息,存储到一个partition中,生产者也可以指定数据库存储的partition.
  2. Consumer:消费者,可以从broker中读取数据,消费者可以消费多个topic中的数据.同时每个消费者都属于一个特定的消费组(ConsumerGroup).
  3. Topic:在kafka中,使用一个类别属性来划分数据的所属类,划分数据的这个类成为topic.如果把kafka比作数据库,那么topic就是数据库中的一张表.
  4. Partition:topic中的数据分割为一个或多个partition.每个topic至少有一个partition.每个partition中的数据使用多个segment文件存储,partition中的数据是有序的,partition之间的数据丢失了数据的顺序。如果topic有多个partition,消费数据时就不能保证数据的顺序。在需要严格保证消息的消费顺序的场景下,需要将partition数目设置为1.
  5. Partition Offset:每条消息都有一个当前partition下唯一的64字节的offset,它指明了这条消息的起始位置。
  6. Replicas of partition:副本是一个分区的备份,副本不会被消费者消费,副本只用于防止数据丢失,即消费者不从follower的partition中的消费数据,而是从为leader的partition中读取数据,副本之间是一主多从的关系。
  7. Broker:kafka集群包含一个或多个服务器,服务器节点称为broker.broker存储topic数据。如果topic有N个partition,集群有N个broker,那么每个broker存储该topic的一个partition.如果某topic有N个
    partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partition,剩下的M个broker不存储该topic的partition数据。如果某topic有N个partition,集群中broker数目少于N个,那么一个broker存储该topic的一个或多个partition。在实际生产环境中,尽量避免这种情况的发生,这种情况容易导致Kafka集群数据不均衡。
  8. 消息:Record,kafka通信的基本单位,由一个固定的长度的消息头和一个可变长度的消息体构成。在老版本,每一条消息成为Message.
  9. Leader:每个partition都有多个副本,其中有且仅有一个作为Leader,leader是当前负责数据的读写的partition.
  10. Follower:Follower跟随Leader,所有的写请求都通过Leader路由,数据变更会广播给所有的Follower,Follower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader。当Follower挂掉,卡住或者同步太慢,Leader会把这个Follower从“in sync replicas”(ISR)列表删除,重新创建一个Follower.
  11. AR(Assigned Replicas):分区中所有的副本统称为AR.
  12. ISR(In -Sync-Replicas): 所有与Leader部分保持一定程度的副本(包括Leader副本在内)组成ISR.
  13. OSR(out-of-sync-Replicas): 与Leader副本同步滞后过多的副本.
  14. HW(High Watermark):高水位,标识了一个特定的offset,消费者只能取到这个offset之前的消息
  15. LEO(Log End Offset): 即日志末端位移,记录了该副本底层日志(log)中下一条消息的位移值。如果LEO=10,那么表示该副本保存了10条消息,位移值范围[0,9].

    微信图片_20221214012838.jpg

  16. Rebalance:重平衡,一种协议,规定了一个Consumer Group下的所有 Consumer 如何达成一致,来分配订阅Topic的每个分区。即给消费组每个消费者分配消费任务的过程。Rebalance不但是启动一个消费者组必经的过程,同时在消费过程中的某些情况下也会发生,造成集群暂时性不可用,影响kafka的高可用。
    什么情况下会发生重平衡呢?
    订阅主题数发生变化(一般不会发生)、主题分区发生变化、消费端的消费者组成员变化(消费者处理消息超时max.poll.interval.ms、心跳超时heartbeat.interval.ms、session超时 session.timeout.ms)
目录
相关文章
|
3月前
|
消息中间件 大数据 Kafka
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
47 2
|
3月前
|
消息中间件 NoSQL 大数据
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
62 1
|
8月前
|
消息中间件 存储 负载均衡
消息队列学习之kafka
【4月更文挑战第2天】消息队列学习之kafka,一个分布式的,支持多分区、多副本,基于 Zookeeper 的分布式消息流平台。
71 2
|
消息中间件 负载均衡 Kafka
Kafka学习---2、kafka生产者、异步和同步发送API、分区、生产经验(一)
Kafka学习---2、kafka生产者、异步和同步发送API、分区、生产经验(一)
|
8月前
|
消息中间件 存储 缓存
闭关学习一周kafka,原来他这么快是有原因的!
无论 kafka 作为 MQ 也好,作为存储层也罢,无非就是两个功能(好简单的样子),一是 Producer 生产的数据存到 broker,二是 Consumer 从 broker 读取数据。那 Kafka 的快也就体现在读写两个方面了,下面我们就聊聊 Kafka 快的原因。
72 1
|
8月前
|
消息中间件 负载均衡 Kafka
Kafka学习---消费者(分区消费、分区平衡策略、offset、漏消费和重复消费)
Kafka学习---消费者(分区消费、分区平衡策略、offset、漏消费和重复消费)
879 2
|
消息中间件 存储 分布式计算
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(二)
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(二)
|
消息中间件 缓存 大数据
Kafka学习---1、Kafka 概述、Kafka快速入门
Kafka学习---1、Kafka 概述、Kafka快速入门
Kafka学习---1、Kafka 概述、Kafka快速入门
|
消息中间件 分布式计算 Kafka
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(一)
Spark学习---6、SparkStreaming(SparkStreaming概述、入门、Kafka数据源、DStream转换、输出、关闭)(一)
|
消息中间件 算法 关系型数据库
Kafka学习---4、消费者(分区消费、分区平衡策略、offset、漏消费和重复消费)(二)
Kafka学习---4、消费者(分区消费、分区平衡策略、offset、漏消费和重复消费)(二)

热门文章

最新文章