大数据开发岗大厂面试30天冲刺 - 日积月累，每日五题【Day04】—

大数据开发岗大厂面试30天冲刺 - 日积月累，每日五题【Day04】——Kafka2

2023-12-25 62

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据开发岗大厂面试30天冲刺 - 日积月累，每日五题【Day04】——Kafka2

•消费者组负责订阅Topic，消费者负责消费Topic分区的数据

•消费者组中可以包含多个消费者，多个消费者共同消费数据，增加消费并行度，提高消费性能

•消费者组的id由开发者指定，消费者的id由Kafka自动分配

•Topic：逻辑上实现数据存储的分类，类似于数据库中的表概念

•Partition：Topic中用于实现分布式存储的物理单元，一个Topic可以有多个分区

–每个分区可以存储在不同的节点，实现分布式存储

•保证数据安全通过副本机制：Kafka中每个分区可以构建多个副本【副本个数 <= 机器的个数】

–将一个分区的多个副本分为两种角色

–leader副本：负责对外提供读写请求

–follower副本：负责与leader同步数据，如果leader故障，follower要重新选举一个成为leader

•选举：由Kafka Crontroller来决定谁是leader

•Segment是对分区内部的数据进行更细的划分，分区段，文件段

•规则：按照文件产生的时间或者大小

•目的：提高写入和查询性能

–文件名称可以用于检索数据：用offset命名的

•组成：每个Segment由两个文件组成

–.log：存储的数据

–.index：对应.log文件的索引信息

•Offset是kafka中存储数据时给每个数据做的标记或者编号

•分区级别的编号，每个分区从0开始编号

•功能：消费者根据offset来进行消费，保证顺序消费以及消费数据的一次性语义

•step1：构建生产者连接对象：KafkaProducer

–需要配置对象：管理配置，例如连接地址：Properties

•step2：KafkaProducer：send：生产数据到Kafka中

–需要构建一个生产的数据对象：ProducerRecord

–ProducerRecord（Topic，Value）

–ProducerRecord（Topic，Key，Value）

–ProducerRecord（Topic，Partition，Key，Value）

今天我们复习了面试中常考的Kakfa相关的五个问题，你做到心中有数了么？

其实做这个专栏我也有私心，就是希望借助每天写一篇面试题，督促自己学习，以免在吹水群甚至都没有谈资！

对了，如果你的朋友也在准备面试，请将这个系列扔给他，

好了，今天就到这里，学废了的同学，记得在评论区留言：打卡。给同学们以激励。