Kafka架构及基本概念

2023-08-17 502

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 刚开始了解Kafka时对其中多个名词表示懵逼，broker是啥？咋还有分区？有没有跟和我一样有很多？？？本文就我对Kafka的理解梳理各个角色以及功能，欢迎大家一起来沟通交流

刚开始了解Kafka时对其中多个名词表示懵逼，broker是啥？咋还有分区？有没有跟和我一样有很多？？？本文就我对Kafka的理解梳理各个角色以及功能，欢迎大家一起来沟通交流。废话不多说，上图：

架构模型

Kafka架构模型

按照自己的理解画一个简单的Kafka架构模型，下面分别说明Zookeeper、Produce、Broker、Replica、Customer、Customer Group 、Topic、Partition在Kafka中的作用以及如何交互。当然，功能远远不止这些。

Produce

作为生产者，它的作用就是将消息成功发送指定的Topic中，消息投递的可靠度、顺序性由Produce决定。

可靠度：Produce在生产消息时通过设置ACK来决定消息的可靠度。
— 当ACK为0时，不保证消息是否投递成功。
— 当ACK为1时（默认），分区leader接收到消息视为投递成功。
— 当ACK为-1时，分区leader和在同步的副本（ISR）接收到消息视为投递成功，取而代之的是生产效率。
顺序性：kafka不限制生产者的个数，要确保顺序，单个topic或partition的生产者不可以多线程或者多客户端🤗️。如下图，当有两个生产客户端是无法知道哪个消息先到达的。
Broker
Broker其实就是Kafka服务启动后的一个进程，是一个物理节点，启动几个Kafka就有几个Broker。作为消息的中介，接收producer往指定的topic中写消息，提供consumer拉取指定topic的消息，除此之外还承担以下几个职责：
Broker集群中有一个节点作为Controller负责Broker成员管理、Topic维护和Partition的管理。
负责分区数据的持久化和维护。Broker将每个分区的数据按照segment划分，每个segment存放log、offset索引、时间戳索引3个物理文件，以提高数据的读取效率。

Topic

Topic被称为主题，在kafka中是一个逻辑概念，物理上同一个Topic的消息会存储在不同个broker上，真正意义上的分布式消息中间件。通常以topic划分消息所属类别，起业务隔离作用。

Partition

如上图所示，Broker以Topic为单位将消息分摊在不同分区，每个分区都有leader和副本。那为什么会有分区？这是因为如果topic内的消息只存储于一个broker，那这个broker终会成为瓶颈，无法做到水平扩展。此外在分区使用中需要注意的事项：

topic中的各分区只保证内部数据的顺序，所以业务中对顺序有严格要求的只能建立一个分区。
leader负责对外提供读写请求，副本只是同步数据。
一个分区只能被一个消费组的一个消费者消费。如下图，当分区被分配完后，consumer4无法消费。

Replica

kafka的副本机制指的是分区的副本而不是broker，副本通常存放在和leader不同的broker中。如上述Partition注意事项2，副本如何同步数据以保证数据的可靠性和一致性？

分区leader会动态维护一个与之保持同步的副本列表ISR（In-sync Replicas），如果一个副本同步未达到阈值要求或宕机会被移除至OSR（Outof-sync Replicas），kafka要保证不丢失消息，就要保证ISR列表中至少有一个存活。如下图所示：
副本以pull的方式拉取数据进行同步，每个副本都会维护自己的HW（High Watermark）和LEO(Last End Offset)保持数据同步。
— 当ACK为-1时所有ISR节点的HW和LEO会保持一致。
— 当ACK为0或1时，可能会因为leader节点的宕机，未同步、消费的数据会丢失。如下图，当leader节点宕机黄色节点的数据会丢失。

Customer

消费者负责订阅 Kafka 中的Topic，按照Offset进行拉取消费。

Customer Group

在kafka中一个分区的消息只能被一个消费组中的一个消费者消费，不然会破坏分区中消息的消费顺序，但是避免不了一条消息会被多个地方使用的场景，所以有消费组的概念。消费者在进行消费时可以指定一个消费组，同一条消息在被多个消费组消费时就达到消息“广播”的功能。

Zookeeper

Zookeeper在kafka中主要起到两个作用，一是存储broker、topic、partition等元数据信息，二是协调如broker的controller、partition的leader等选举过程。

总结

OK，至此已经大致了解了kafka，总结一下：

生产——broker——消费，三个环节通过ACK来决定消息的可靠和一致。
分区有几个作用：
（1）避免单个broker节点的瓶颈。
（2）提高数据可靠性。
（3）提高消费吞吐量。
利用Zookeeper协调功能，不用做额外配置工作，使得broker可以自动伸缩。

欢迎大家一起来沟通交流。

Kafka架构及基本概念

架构模型

Produce

Broker

Topic

Partition

Replica

Customer

Customer Group

Zookeeper

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Kafka架构及基本概念

架构模型

Produce

Broker

Topic

Partition

Replica

Customer

Customer Group

Zookeeper

总结

热门文章

最新文章

相关课程

相关电子书