七张图了解kafka基本概念

简介: 七张图了解kafka基本概念

kafka是apache基金会管理的开源流处理平台(官网http://kafka.apache.org/),但国内大多数人对其认知基本都是消息队列,所以我们先来了解下什么是消息队列

消息队列

消息队列顾名思义就是存储消息的一个队列,消息生产者(producer) 往消息队列中投放消息, 消费者(consumer)读取消息队列中的内容。在消息队列中的每条消息都会有个位置,就好比数组中的下标(index),在kafka中我们称之为offset。对于生产者而言,有个特殊的offset——LEO(log end offset) ,指向的是消息队列中下一个将被存放消息的位置。

这里重点说下消费者(consumer),一个消息队列当然可以被多个消费者(consumer)读取,每个消费者(consumer)都有唯一一个group-id将其区分开来。kafka也会记录下来每个消费者(consumer)已经读到哪个位置了(offset)。

问:为什么消费者消费的offset是由kafka记录,而不是由消费者自己记录?

主题(Topic)

上文我们以一份数据为例,讲了什么是消息队列。如果有多份数据(多个队列)该怎么办? 也很简单,kafka中我们可以使用不同的主题(Topic)将不同的数据区分开。不同的生产者(producer)可以往不同的Topic中存放数据,不同的消费者(consumer)也可以从不同的Topic中读取数据。

分区(Partation)

当一份数据非常大的情况下怎么办? 当然是考虑拆分了。在kafka中,你可以设置将一个主题(Topic)拆分成多个不同的分区(Partation),然后以分区(Partation)的维度来管理、生产和消费数据。 拆分带来最明显的好处就是提升吞吐性能,多个分区(Partation)之间并行,互不干扰。

至于怎么拆分,kafka有提供几个默认分区策略 轮询、随机、hash,当然你可以自己实现自己的分区策略,这里就不过多展开了。

消费者组(Consumer-group)

主题(Topic)做完分区以后,消费者如何消费? 这里就不得不提到消费者组(Consumer-group)的概念,在kafka中,为了保证数据的一致性,同一个分区(Partation)同时只能被一个消费者(consumer)实例消费,为了提升消费者(consumer)的吞吐量,一般都会设置多个消费者(consumer)实例来消费不同的分区(Partation),这些实例共同组成一个消费者组(Consumer-group) ,他们共用一个Group-id。

注意:

  1. 由于同一个分区(Partation)同时只能被一个消费者(consumer)实例消费,所以超过分区(Partation)数量的消费者(consumer)实例个数没有任何意义,多余的消费者(consumer)实例也会被闲置。
  2. 如果消费者组(Consumer-group) 中有实例发生变化(上下线),或者分区(Partation)数量发生变化,都会触发消费者组rebalence

副本(Replication)

kafka如何解决数据高可用的问题?在分布式环境下,要想保证数据尽可能不丢失,唯一的方法就是多复制几份放到不同的机器上,复制出来的数据就叫做副本(Replication)。

这里有几个关键词。

HW: high-water,一个特殊的offset,只有在这个offset以下的消息才能被消费者(consumer)读到,高水位的具体值取决于主从副本数据同步的状态,这里不再展开。

ISR: in-sync-replica,处于同步状态的副本集合,是指副本数据和主副本数据相差在一定返回(时间范围或数量范围)之内的副本,当然主副本肯定是一直在ISR中的。 当主副本挂了之后,新的主副本将从ISR中被选出来接替它的工作。

OSR: 和IRS相对应 out-sync-replica,其实就是指那些不在ISR中的副本。

副本主从同步

当一份数据比复制出多份副本后,肯定得涉及到主从副本的同步在,从副本会定期从主副本拉去最新的数据。 另外需要注意kafka中,只有主副本才会对外提供读和写(高版本kafka从副本提供了有限的读功能),从副本的唯一作用就是给主副本当备胎。

说到主从同步,顺带提一下kafka的ack设置。

kafka中生产者(producer),可以通过request.required.acks参数来设置数据可靠性的级别:

  • 0: 生产者(producer) 不等待来自主副本的确认,发出去即认为发送成功,这种情况效率最高但可能有丢失数据的风险。
  • 1: (默认)生产者(producer) 发出数据后会等待主副本确认收到后,才认为消息发送成功,这种情况下主副本宕机时可能会丢失消息。
  • -1: (或者是all):生产者(producer) 等待ISR中的所有副本都确认接收到数据后才任务消息发送成功,可靠性最高,但因为需要等从副本拉去和确认,效率最低。

Broker

Kafka是以副本(Replica)维度管理数据的,管理这些数据肯定是需要管理者的,这个管理者就是Broker。Broker会将同一份数据的不同副本(Replication) 调度到不同的机器上,并且在副本(Replication) 数不足时生成新的副本,从而保证在部分Broker宕机后也能保证数据不丢失。

所有的Broker之间也会做一些元数据的相互同步,比如某份主数据在谁哪,从副本要从谁哪去拉取数据……

结语

第一次尝试手绘风讲解kafka入门知识,讲的很粗浅,确实很多细节都没有展开,见谅。

目录
相关文章
|
4月前
|
消息中间件 存储 缓存
Kafka【基础知识 01】消息队列介绍+Kafka架构及核心概念(图片来源于网络)
【2月更文挑战第20天】Kafka【基础知识 01】消息队列介绍+Kafka架构及核心概念(图片来源于网络)
220 2
|
1月前
|
消息中间件 存储 Kafka
kafka基础概念二
【8月更文挑战第11天】
32 6
|
2月前
|
消息中间件 存储 Java
全网把Kafka概念讲的最透彻的文章,别无二家
消息队列老大哥Kafka在官网的介绍是这么说的,真是霸气:全球财富前100强公司有超过80%信任并使用Kafka。Kafka目前在GitHub目前也已经有star数27.6k、fork数13.6k。大家好,我是南哥。一个对Java程序员进阶成长颇有研究的人,今天我们开启新的一篇Java进阶指南,本期的对象是Kafka。Kafka历史Star趋势图本文收录在我开源的《Java学习面试指南》中,一份涵盖Java程序员所需掌握核心知识、面试重点的Java指南。希望收到大家的 ⭐ Star ⭐支持。
全网把Kafka概念讲的最透彻的文章,别无二家
|
3月前
|
消息中间件 大数据 Kafka
高效处理大数据:Kafka的13个核心概念详解
大家好,我是小米!今天我将为大家深入解析Kafka的核心概念,包括消息、批次、主题、分区、副本、生产者、消费者、消费组等内容。通过这篇文章,你将全面了解Kafka的工作机制和应用场景,为你的大数据处理提供有力支持。准备好了吗?让我们开始吧!
115 4
|
4月前
|
消息中间件 运维 负载均衡
【Kakfa】Kafka 中 AR、ISR、OSR 三者的概念
【4月更文挑战第11天】【Kakfa】Kafka 中 AR、ISR、OSR 三者的概念
|
4月前
|
消息中间件 存储 Kafka
【Kafka】Replica、Leader 和 Follower 三者的概念分析
【4月更文挑战第11天】【Kafka】Replica、Leader 和 Follower 三者的概念分析
|
消息中间件 存储 Kafka
Kafka架构及基本概念
刚开始了解Kafka时对其中多个名词表示懵逼,broker是啥?咋还有分区?有没有跟和我一样有很多???本文就我对Kafka的理解梳理各个角色以及功能,欢迎大家一起来沟通交流
113 0
|
4月前
|
消息中间件 存储 Java
Kafka基本概念与应用场景
Apache Kafka是一种分布式的、基于发布/订阅的消息系统,由Scala语言编写而成。它具备快速、可扩展、可持久化的特点。Kafka最初由LinkedIn开发,并于2011年初开源, 2012年10月从Apache孵化器毕业,成为Apache基金会的顶级项目。
|
4月前
|
消息中间件 Kafka
Kafka - 深入了解Kafka基础架构:Kafka的基本概念
Kafka - 深入了解Kafka基础架构:Kafka的基本概念
62 0
|
消息中间件 存储 监控
深入浅出:理解Kafka的核心概念与架构
深入浅出:理解Kafka的核心概念与架构
556 0

热门文章

最新文章