kafka学习线路指导入门:包括理论、部署、实战知识汇总整理

简介: kafka学习线路指导入门:包括理论、部署、实战知识汇总整理

1.什么是kafka,kafka基础理论知识


对于kafka,如果接触过,我们知道他是用来传输数据的。里面的一些概念也还是懂得的。这里简单说下个人的一些认识,如有错误,欢迎指正交流。

在大数据里面,分区【partition】,很多人其实还是不理解的。我个人理解,分区其实就是对数据的一个分类。也就是众多的数据中,对数据进行整理归类。kafka中,还有一个概念就是topic,这个topic可能我们也创建过,但是topic是什么,还是模糊的,这里引用下面内容,感觉说的还是比较清楚的。

消息发送时都被发送到一个topic,其本质就是一个目录,而topic由是由一些Partition Logs(分区日志)组成


通过上面相信你对topic有了一些了解。


了解基本概念之后,可以在深入些,这里只说下个人的经验,一些可能误解的地方:


kafka在传输数据的过程中,Kafka什么时候删除数据,消费完是否接着就删除数据,这个不是的。Kafka只有过期的数据才会被自动清除以释放磁盘空间。


除了数据删除,可能误解。一些比较难理解的或则容易混淆的地方:

比如Consumergroup与消息消费的关系,如何设置partition值需要考虑的因素等问题


Consumergroup:各个consumer可以组成一个组,每个消息只能被组中的一个consumer消费,如果一个消息可以被多个consumer消费的话,那么这些consumer必须在不同的组。


关于如何设置partition值需要考虑的因素。一个partition只能被一个消费者消费(一个消费者可以同时消费多个partition),因此,如果设置的partition的数量小于consumer的数量,就会有消费者消费不到数据。所以,推荐partition的数量一定要大于同时运行的consumer的数量。


更多内容,可参考下面文章:

Kafka 设计与原理详解

http://www.aboutyun.com/forum.php?mod=viewthread&tid=15812


Kafka入门经典教程

http://www.aboutyun.com/forum.php?mod=viewthread&tid=12882


kafka入门:简介、使用场景、设计原理、主要配置及集群搭建

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9341


分布式消息系统 Kafka 简介:特点、架构、设计、应用场景

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11914


——————————————————————————

上面是比较经典的内容,下面内容可随便看看,仅供参考:

Kafka入门

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11888


分布式消息系统:Kafka介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9038


Kafka文档:基本介绍(Getting Start)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=14732


Kafka【过期数据】清理策略删除和压缩

http://www.aboutyun.com/forum.php?mod=viewthread&tid=15909


kafka在zookeeper中存储结构

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9941


分布式发布订阅消息系统 Kafka 架构设计

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8960


kafka详解一、Kafka简介


kafka详解三:开发Kafka应用


kafka详解四:Kafka的设计思想、理念


Kafka详解五、Kafka Consumer的底层API- SimpleConsumer



Kafka设计解析(一)- Kafka背景及架构介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18894



Kafka设计解析(二)- Kafka HA高可用(上)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18903



Kafka设计解析(三)- Kafka HA高可用(下)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18904



Kafka设计解析(四)- Kafka Consumer设计解析

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18921


kafka资源:
kafka系列解读-文档

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11928


2.集群部署:


对于集群的部署,其实对于很多大数据集群都是差不多的,下面推荐几篇文章:


kafka2.9.2的分布式集群安装和demo(java api)测试

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8919



构建安全的Kafka集群

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13246



Kafka详解二、如何配置Kafka集群


Kafka实战-Kafka Cluster

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13807


3.实战内容


Kafka 一般都是与其它框架整合,比如spark,storm,flume等下面文档可参考


flume+storm+kafka+mysql架构设计整合及介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13442



Spark(1.2.0) Streaming 集成 Kafka 总结

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11536



Kafka实战-实时日志统计流程

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13788



Kafka实战-简单示例

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13801



Kafka+Spark Streaming+Redis实时计算整合实践

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13368



用Apache Kafka构建流数据平台

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11802



详解整合Kafka到Spark Streaming【推荐】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=14664


Storm读取Kafka数据是如何实现的

http://www.aboutyun.com/forum.php?mod=viewthread&tid=19403


目录
相关文章
|
1月前
|
消息中间件 Java Kafka
Java 事件驱动架构设计实战与 Kafka 生态系统组件实操全流程指南
本指南详解Java事件驱动架构与Kafka生态实操,涵盖环境搭建、事件模型定义、生产者与消费者实现、事件测试及高级特性,助你快速构建高可扩展分布式系统。
153 7
|
4月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
在数字化转型中,企业亟需从海量数据中快速提取价值并转化为业务增长动力。5月15日19:00-21:00,阿里云三位技术专家将讲解Kafka与Flink的强强联合方案,帮助企业零门槛构建分布式实时分析平台。此组合广泛应用于实时风控、用户行为追踪等场景,具备高吞吐、弹性扩缩容及亚秒级响应优势。直播适合初学者、开发者和数据工程师,参与还有机会领取定制好礼!扫描海报二维码或点击链接预约直播:[https://developer.aliyun.com/live/255088](https://developer.aliyun.com/live/255088)
328 35
直播预告|Kafka+Flink双引擎实战:手把手带你搭建分布式实时分析平台!
|
4月前
|
消息中间件 运维 Kafka
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
直播预告|Kafka+Flink 双引擎实战:手把手带你搭建分布式实时分析平台!
161 11
|
4月前
|
消息中间件 数据可视化 Kafka
docker arm架构部署kafka要点
本内容介绍了基于 Docker 的容器化解决方案,包含以下部分: 1. **Docker 容器管理**:通过 Portainer 可视化管理工具实现对主节点和代理节点的统一管理。 2. **Kafka 可视化工具**:部署 Kafka-UI 以图形化方式监控和管理 Kafka 集群,支持动态配置功能, 3. **Kafka 安装与配置**:基于 Bitnami Kafka 镜像,提供完整的 Kafka 集群配置示例,涵盖 KRaft 模式、性能调优参数及数据持久化设置,适用于高可用生产环境。 以上方案适合 ARM64 架构,为用户提供了一站式的容器化管理和消息队列解决方案。
348 10
|
10月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
489 5
|
9月前
|
消息中间件 Java Kafka
【手把手教你Linux环境下快速搭建Kafka集群】内含脚本分发教程,实现一键部署多个Kafka节点
本文介绍了Kafka集群的搭建过程,涵盖从虚拟机安装到集群测试的详细步骤。首先规划了集群架构,包括三台Kafka Broker节点,并说明了分布式环境下的服务进程配置。接着,通过VMware导入模板机并克隆出三台虚拟机(kafka-broker1、kafka-broker2、kafka-broker3),分别设置IP地址和主机名。随后,依次安装JDK、ZooKeeper和Kafka,并配置相应的环境变量与启动脚本,确保各组件能正常运行。最后,通过编写启停脚本简化集群的操作流程,并对集群进行测试,验证其功能完整性。整个过程强调了自动化脚本的应用,提高了部署效率。
2104 1
【手把手教你Linux环境下快速搭建Kafka集群】内含脚本分发教程,实现一键部署多个Kafka节点
|
11月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
158 3
|
8月前
|
消息中间件 存储 缓存
kafka 的数据是放在磁盘上还是内存上,为什么速度会快?
Kafka的数据存储机制通过将数据同时写入磁盘和内存,确保高吞吐量与持久性。其日志文件按主题和分区组织,使用预写日志(WAL)保证数据持久性,并借助操作系统的页缓存加速读取。Kafka采用顺序I/O、零拷贝技术和批量处理优化性能,支持分区分段以实现并行处理。示例代码展示了如何使用KafkaProducer发送消息。
|
11月前
|
消息中间件 存储 运维
为什么说Kafka还不是完美的实时数据通道
【10月更文挑战第19天】Kafka 虽然作为数据通道被广泛应用,但在实时性、数据一致性、性能及管理方面存在局限。数据延迟受消息堆积和分区再平衡影响;数据一致性难以达到恰好一次;性能瓶颈在于网络和磁盘I/O;管理复杂性涉及集群配置与版本升级。
377 1