大厂面试高频：Kafka 工作原理（详细图解）

2024-11-15 1714

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文详细解析了 Kafka 的核心架构和实现原理，消息中间件是亿级互联网架构的基石，大厂面试高频，非常重要，建议收藏。关注【mikechen的互联网架构】，10年+BAT架构经验倾囊相授。

关注△mikechen的互联网架构△，10年+BAT架构经验倾囊相授

大家好，我是 mikechen | 陈睿。

之前我就讲过，消息中间件那真的是太重要了，那就是亿级互联网架构的基石，实在是太重要了，当然啦，这肯定也是大厂必备技能、大厂面试高频。

很多同学留言给我：学哪个消息中间件？那肯定是学主流中间件，比如：Kafka、RocketMQ，本篇就先来谈谈Kafka的底层架构以及实现原理。

希望本篇，对你掌握好消息中间件有所帮助@mikechen

Kafka核心架构

它的架构包括以下组件：

1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名；

2、生产者（Producer）：是能够发布消息到话题的任何对象；

3、服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或Kafka集群；

4、消费者（Consumer）：可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息；

上图我们可见，生产者将数据发送到Broker代理，Broker代理有多个话题topic，消费者从Broker获取数据。

Kafka原理机制

我们将消息的发布（publish）称作 producer，将消息的订阅（subscribe）表述为 consumer，将中间的存储阵列称作 broker(代理)，这样就可以大致描绘出这样一个场面：

生产者将数据生产出来，交给 broker 进行存储，消费者需要消费数据了，就从broker中去拿出数据来，然后完成一系列对数据的处理操作。

多个 broker 协同合作，producer 和 consumer 部署在各个业务逻辑中被频繁的调用，三者通过 zookeeper管理协调请求和转发，这样一个高性能的分布式消息发布订阅系统就完成了。

图上有个细节需要注意，producer 到 broker 的过程是 push，也就是有数据就推送到 broker，而 consumer 到 broker 的过程是 pull，是通过 consumer 主动去拉数据的。

Zookeeper在kafka的作用

（1）无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

（2）Kafka使用zookeeper作为其分布式协调框架，很好的将消息生产、消息存储、消息消费的过程结合在一起。

（3）同时借助zookeeper，kafka能够生产者、消费者和broker在内的所以组件在无状态的情况下，建立起生产者和消费者的订阅关系，并实现生产者与消费者的负载均衡。

Kafka的特性

1.高吞吐量、低延迟

kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。

2.可扩展性

kafka集群支持热扩展

3.持久性、可靠性

消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

4.容错性

允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）

5.高并发

支持数千个客户端同时读写

Kafka的应用场景

1.日志收集

一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。

2.消息系统

解耦和生产者和消费者、缓存消息等。

3.用户活动跟踪

Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。

4.运营指标

Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。

5.流式处理

比如 spark streaming 和 storm 。

以上，是分布式缓存详细解析，欢迎评论区留言交流或拓展。

我是 mikechen | 陈睿，关注【mikechen的互联网架构】，10年+BAT架构技术倾囊相授。

本文已同步我的技术博客 www.mikechen.cc，更新至我原创的《30W+字大厂架构技术合集》中。

大厂面试高频：Kafka 工作原理（详细图解）

Kafka核心架构

Kafka原理机制

Zookeeper在kafka的作用

Kafka的特性

1.高吞吐量、低延迟

2.可扩展性

3.持久性、可靠性

4.容错性

5.高并发

Kafka的应用场景

1.日志收集

2.消息系统

3.用户活动跟踪

4.运营指标

5.流式处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大厂面试高频：Kafka 工作原理 （ 详细图解 ）

Kafka核心架构

Kafka原理机制

Zookeeper在kafka的作用

Kafka的特性

1.高吞吐量、低延迟

2.可扩展性

3.持久性、可靠性

4.容错性

5.高并发

Kafka的应用场景

1.日志收集

2.消息系统

3.用户活动跟踪

4.运营指标

5.流式处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景

大厂面试高频：Kafka 工作原理（详细图解）