这是面试官最想听到的回答：谈谈你对Kafka数据存储原理的理解？

2023-09-01 72

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一位5年工作经验的小伙伴面试的时候被问到这样一个问题，说”谈谈你对Kafka数据存储原理的理解“。然后，这位小伙伴突然愣住了，什么是零拷贝，零拷贝跟Kafka有关系吗？那么今天，我给大家来聊一聊我对Kafka零拷贝原理的理解。

一位5年工作经验的小伙伴面试的时候被问到这样一个问题，说”谈谈你对Kafka数据存储原理的理解“。然后，这位小伙伴突然愣住了，什么是零拷贝，零拷贝跟Kafka有关系吗？

那么今天，我给大家来聊一聊我对Kafka零拷贝原理的理解。

1、Topic主题

在Kafka中，这个用来存储消息的队列叫做Topic，它是一个逻辑的概念，可以理解为一组消息的集合。

生产者和Topic以及Topic和消费者的关系都是多对多。一个生产者可以发送消息到多个Topic，一个消费者也可以从多个Topic获取消息（但是不建议这么做）。

生产者发送消息时，如果Topic不存在，Kafka默认会自动创建。

2、Partition分区

首先，Kafka为了实现横向扩展，它会把不同的数据存放在不同的Broker上，同时为了降低单台服务器的访问压力，把一个Topic中的数据分隔成多个Partition。在服务器上，每个Partition都有一个物理目录，Topic名字后面的数字标号即代表分区。比如创建一个名为mytopic的主题，数据目录被分布到了3台机器。

如图所示：

mytopic-0存在A节点，mytopic-1存在B节点，mytopic-2存在C节点。

3、Replica副本

另外，Kafa为了提高分区的可靠性，又设计了副本机制。我们创建Topic的时候，通过指定replication-factor副本因子，来确定Topic的副本数。当然，副本因子数必须小于等于节点数，否则会报错。这样就可以保证，绝对不会有一个分区的两个副本分布在同一个节点上，不然副本机制也失去了备份的意义了。

如图所示，创建了一个3个分区3个副本的Topic a3part3rep，被均匀分布到了3个Broker节点上，每个Broker节点互为备份。