【大数据面试题】(七)Kafka 相关面试题总结1

本文涉及的产品
云原生网关 MSE Higress,422元/月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【大数据面试题】(七)Kafka 相关面试题总结1

文章目录


一、请说明什么是Apache Kafka?

二、Kafka的设计是什么样的呢?

三、请说明什么是传统的消息传递方法?

四、请说明Kafka相对传统技术有什么优势?

五、在 Kafka 中 broker 的意义是什么?

六、什么是broker?作用是什么?

七、Kafka服务器能接收到的最大信息是多少?

八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗?

九、解释Kafka的用户如何消费信息?

十、解释如何提高远程用户的吞吐量?

十一、解释一下,在数据制作过程中,你如何能从Kafka得到准确的信息?

十二、解释如何减少ISR中的扰动?broker什么时候离开ISR?

十三、Kafka为什么需要复制?

十四、如果副本在ISR中停留了很长时间表明什么?

十五、请说明如果首选的副本不在ISR中会发生什么?

十六、如何保证 Kafka 的消息有序(☆☆☆☆☆)?

十七、有可能在生产后发生消息偏移吗?

十八、kafka主要特征

十九、列举kafka的应用场景

二十、kafka主题分区的作用

二十一、consumer水平扩展如何实现

二十二、消息的顺序

二十三、为了避免磁盘被占满,kafka会周期性的删除陈旧的消息,删除策略是什么?

二十四、什么是日志压缩

二十五、同一分区的多个副本包括的消息是否一致?

二十六、数据传输的事物定义有哪三种?

二十七、Kafka判断一个节点是否还活着有哪两个条件?

二十八、producer是否直接将数据发送到broker的leader(主节点)?

二十九、Kafa consumer是否可以消费指定分区消息?

三十、Kafka消息是采用Pull模式,还是Push模式?

三十一、Kafka存储在硬盘上的消息格式是什么?

三十二、Kafka高效文件存储设计特点

三十三、Kafka 与传统消息系统之间有三个关键区别

三十四、Kafka创建Topic时如何将分区放置到不同的Broker中

三十五、Kafka新建的分区会在哪个目录下创建

三十六、partition的数据如何保存到硬盘

三十七、kafka的ack机制

三十八、Kafka的消费者如何消费数据

三十八、kafka 的消费者方式?

三十九、消费者负载均衡策略

四十、数据有序

四十一、kafaka生产数据时数据的分组策略

四十二、kafka 数据丢失问题,及如何保证?


一、请说明什么是Apache Kafka?


Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。


二、Kafka的设计是什么样的呢?


Kafka将消息以topic为单位进行归纳

将向Kafka topic发布消息的程序成为producers

将预订topics并消费消息的程序成为consumer

Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker

producers通过网络将消息发送到Kafka集群,集群向消费者提供消息


三、请说明什么是传统的消息传递方法?


传统的消息传递方法包括两种:


排队:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。


发布-订阅:在这个模型中,消息被广播给所有的用户。


四、请说明Kafka相对传统技术有什么优势?


快速:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作


可伸缩:在一组机器上对数据进行分区和简化,以支持更大的数据


持久:消息是持久性的,并在集群中进行复制,以防止数据丢失


设计:它提供了容错保证和持久性


五、在 Kafka 中 broker 的意义是什么?


在 Kafka 集群中,broker 指 Kafka 服务器。

接收Producer发过来的数据,并且将它持久化,同时提供给Consumer去订阅

组成Kafka集群节点,之间没有主从关系,依赖ZooKeeper来协调,broker负责消息的读取和存储,一个broker可以管理多个partition


image.png


六、什么是broker?作用是什么?


一个单独的kafka server就是一个broker,broker主要工作就是接收生产者发过来的消息,分配offset,之后保存到磁盘中。同时,接收消费者、其他broker的请求,根据请求类型进行相应的处理并返回响应,在一般的生产环境中,一个broker独占一台物理服务器。


七、Kafka服务器能接收到的最大信息是多少?


Kafka服务器可以接收到的消息的最大大小是1000000字节。


八、解释Kafka的Zookeeper是什么?我们可以在没有Zookeeper的情况下使用Kafka吗?


Zookeeper是一个开放源码的、高性能的协调服务,它用于Kafka的分布式应用。


作用:协调Kafka Broker,存储原数据:consumer的offset+broker信息+topic信息+partition个信息。


不,不可能越过Zookeeper,直接联系Kafka broker。一旦Zookeeper停止工作,它就不能服务客户端请求。


Zookeeper主要用于在集群中不同节点之间进行通信


在Kafka中,它被用于提交偏移量,因此如果节点在任何情况下都失败了,它都可以从之前提交的偏移量中获取


除此之外,它还执行其他活动,如: leader检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。


九、解释Kafka的用户如何消费信息?


在Kafka中传递消息是通过使用sendfile【零拷贝】 API完成的。它支持将字节从套接口转移到磁盘,通过内核空间保存副本,并在内核用户之间调用内核。

零拷贝:用户向内核去发送一个命令,我要操作那些数据,然后直接从磁盘转成Socket Buffer,再从Socket Buffer到网卡Buffer,再传出去【少了两次的copy】


十、解释如何提高远程用户的吞吐量?


如果用户位于与broker不同的数据中心,则可能需要调优套接口缓冲区大小,以对长网络延迟进行摊销。


十一、解释一下,在数据制作过程中,你如何能从Kafka得到准确的信息?


在数据中,为了精确地获得Kafka的消息,你必须遵循两件事: 在数据消耗期间避免重复,在数据生产过程中避免重复。


这里有两种方法,可以在数据生成时准确地获得一个语义


每个分区使用一个单独的写入器,每当你发现一个网络错误,检查该分区中的最后一条消息,以查看您的最后一次写入是否成功


在消息中包含一个主键(UUID或其他),并在用户中进行反复制


十二、解释如何减少ISR中的扰动?broker什么时候离开ISR?


ISR是一组与leaders完全同步的消息副本,也就是说ISR中包含了所有提交的消息。ISR应该总是包含所有的副本,直到出现真正的故障。如果一个副本从leader中脱离出来,将会从ISR中删除。


十三、Kafka为什么需要复制?


Kafka的信息复制确保了任何已发布的消息不会丢失,并且可以在机器错误、程序错误或更常见些的软件升级中使用。


十四、如果副本在ISR中停留了很长时间表明什么?


如果一个副本在ISR中保留了很长一段时间,那么它就表明,跟踪器无法像在leader收集数据那样快速地获取数据。


十五、请说明如果首选的副本不在ISR中会发生什么?


如果首选的副本不在ISR中,控制器将无法将leadership转移到首选的副本。


十六、如何保证 Kafka 的消息有序(☆☆☆☆☆)?


Kafka 对于消息的重复、丢失、错误以及顺序没有严格的要求。Kafka 只能保证一个partition 中的消息被某个consumer 消费时是顺序的,事实上,从Topic角度来说,当有多个 partition 时,消息仍然不是全局有序的。


十七、有可能在生产后发生消息偏移吗?


在大多数队列系统中,作为生产者的类无法做到这一点,它的作用是触发并忘记消息。broker将完成剩下的工作,比如使用id进行适当的元数据处理、偏移量等。

作为消息的用户,你可以从Kafka broker中获得补偿。如果你注视SimpleConsumer类,你会注意到它会获取包括偏移量作为列表的MultiFetchResponse对象。此外,当你对Kafka消息进行迭代时,你会拥有包括偏移量和消息发送的MessageAndOffset对象。


十八、kafka主要特征


kafka具有近乎实时性的消息处理能力,面对海量数据,高效的存储消息和查询消息。kafka将消息保存在磁盘中,以顺序读写的方式访问磁盘,从而避免了随机读写磁盘导致的性能瓶颈

kafka支持批量读写消息,并且对消息批量压缩,提高了网络利用率和压缩效率

kafka支持消息分区,每个分区中的消息保证顺序传输,而分区之间可以并发操作,提高了kafka的并发能力

kafka支持在线增加分区,支持在线水平扩展

kafka支持为每个分区创建多个副本,其中只会有一个leader副本负责读写,其他副本只负责与leader副本同步,这种方式提高了数据的容灾能力,kafka会将leader副本均匀的分布在集群中的服务器上,实现性能最大化


十九、列举kafka的应用场景


日志收集:一个公司可以用Kafka可以收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如Hadoop、Hbase、Solr等


消息系统:解耦和生产者和消费者、缓存消息等


用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到Hadoop、数据仓库中做离线分析和挖掘


运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告


流式处理:比如spark streaming和storm


事件源


二十、kafka主题分区的作用


kafka的每个topic都可以分为多个partition,每个partition都有多个replica(副本),每个分区中的消息是不同的,提高了并发读写的能力,而同一分区的不同副本中保存的是相同的消息,副本之间是一主多从关系,其中leader副本处理读写请求,follower副本只与leader副本进行消息同步,当leader副本出现故障时,则从follower副本中重新选举leader副本对外提供服务。这样,通过提高分区的数量,就可以实现水平扩展,通过提高副本数量,就可以提高容灾能力

目录
相关文章
|
16天前
|
消息中间件 存储 缓存
大厂面试高频:Kafka 工作原理 ( 详细图解 )
本文详细解析了 Kafka 的核心架构和实现原理,消息中间件是亿级互联网架构的基石,大厂面试高频,非常重要,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:Kafka 工作原理 ( 详细图解 )
|
13天前
|
消息中间件 大数据 Kafka
大厂面试高频:Kafka、RocketMQ、RabbitMQ 的优劣势比较
本文深入探讨了消息队列的核心概念、应用场景及Kafka、RocketMQ、RabbitMQ的优劣势比较,大厂面试高频,必知必会,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:Kafka、RocketMQ、RabbitMQ 的优劣势比较
|
2月前
|
消息中间件 存储 缓存
美团面试: Kafka为啥能实现 10Wtps 到100Wtps ?kafka 如何实现零复制 Zero-copy?
40岁老架构师尼恩分享了Kafka如何实现高性能的秘诀,包括零拷贝技术和顺序写。Kafka采用mmap和sendfile两种零拷贝技术,前者用于读写索引文件,后者用于向消费者发送消息,减少数据在用户空间和内核空间间的拷贝次数,提高数据传输效率。此外,Kafka通过顺序写日志文件,避免了磁盘寻道和旋转延迟,进一步提升了写入性能。尼恩还提供了系列技术文章和PDF资料,帮助读者深入理解这些技术,提升面试竞争力。
美团面试: Kafka为啥能实现 10Wtps 到100Wtps ?kafka 如何实现零复制 Zero-copy?
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
42 3
|
2月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
33 2
|
2月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
56 1
|
2月前
|
消息中间件 存储 Kafka
面试题:Kafka如何保证高可用?有图有真相
面试题:Kafka如何保证高可用?有图有真相
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
14天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
108 7
|
14天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
30 2