我们先来学习学习kafka的相关概念吧!只有知道了概念。关于kafka的知识我们才会认识得更加清晰。下图是kafka的生产消费图:
在图中我们可以看到有生产者Producer、消费者Consumer、分区Partition、副本Replica、主Leader、从Follower等名称。那我们先来了解这些信息:
- Producer:生产者,数据的发布者,将消息发布到kafka的topic中,broker接收到生产者发送的消息后,broker将该消息追加到当前用于追加数据的segment文件中。生产者发送消息,存储到一个partition中,生产者也可以指定数据库存储的partition.
- Consumer:消费者,可以从broker中读取数据,消费者可以消费多个topic中的数据.同时每个消费者都属于一个特定的消费组(ConsumerGroup).
- Topic:在kafka中,使用一个类别属性来划分数据的所属类,划分数据的这个类成为topic.如果把kafka比作数据库,那么topic就是数据库中的一张表.
- Partition:topic中的数据分割为一个或多个partition.每个topic至少有一个partition.每个partition中的数据使用多个segment文件存储,partition中的数据是有序的,partition之间的数据丢失了数据的顺序。如果topic有多个partition,消费数据时就不能保证数据的顺序。在需要严格保证消息的消费顺序的场景下,需要将partition数目设置为1.
- Partition Offset:每条消息都有一个当前partition下唯一的64字节的offset,它指明了这条消息的起始位置。
- Replicas of partition:副本是一个分区的备份,副本不会被消费者消费,副本只用于防止数据丢失,即消费者不从follower的partition中的消费数据,而是从为leader的partition中读取数据,副本之间是一主多从的关系。
- Broker:kafka集群包含一个或多个服务器,服务器节点称为broker.broker存储topic数据。如果topic有N个partition,集群有N个broker,那么每个broker存储该topic的一个partition.如果某topic有N个
partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partition,剩下的M个broker不存储该topic的partition数据。如果某topic有N个partition,集群中broker数目少于N个,那么一个broker存储该topic的一个或多个partition。在实际生产环境中,尽量避免这种情况的发生,这种情况容易导致Kafka集群数据不均衡。 - 消息:Record,kafka通信的基本单位,由一个固定的长度的消息头和一个可变长度的消息体构成。在老版本,每一条消息成为Message.
- Leader:每个partition都有多个副本,其中有且仅有一个作为Leader,leader是当前负责数据的读写的partition.
- Follower:Follower跟随Leader,所有的写请求都通过Leader路由,数据变更会广播给所有的Follower,Follower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader。当Follower挂掉,卡住或者同步太慢,Leader会把这个Follower从“in sync replicas”(ISR)列表删除,重新创建一个Follower.
- AR(Assigned Replicas):分区中所有的副本统称为AR.
- ISR(In -Sync-Replicas): 所有与Leader部分保持一定程度的副本(包括Leader副本在内)组成ISR.
- OSR(out-of-sync-Replicas): 与Leader副本同步滞后过多的副本.
- HW(High Watermark):高水位,标识了一个特定的offset,消费者只能取到这个offset之前的消息
- LEO(Log End Offset): 即日志末端位移,记录了该副本底层日志(log)中下一条消息的位移值。如果LEO=10,那么表示该副本保存了10条消息,位移值范围[0,9].
- Rebalance:重平衡,一种协议,规定了一个Consumer Group下的所有 Consumer 如何达成一致,来分配订阅Topic的每个分区。即给消费组每个消费者分配消费任务的过程。Rebalance不但是启动一个消费者组必经的过程,同时在消费过程中的某些情况下也会发生,造成集群暂时性不可用,影响kafka的高可用。
什么情况下会发生重平衡呢?
订阅主题数发生变化(一般不会发生)、主题分区发生变化、消费端的消费者组成员变化(消费者处理消息超时max.poll.interval.ms、心跳超时heartbeat.interval.ms、session超时 session.timeout.ms)