kafka学习线路指导入门:包括理论、部署、实战知识汇总整理

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: kafka学习线路指导入门:包括理论、部署、实战知识汇总整理

1.什么是kafka,kafka基础理论知识


对于kafka,如果接触过,我们知道他是用来传输数据的。里面的一些概念也还是懂得的。这里简单说下个人的一些认识,如有错误,欢迎指正交流。

在大数据里面,分区【partition】,很多人其实还是不理解的。我个人理解,分区其实就是对数据的一个分类。也就是众多的数据中,对数据进行整理归类。kafka中,还有一个概念就是topic,这个topic可能我们也创建过,但是topic是什么,还是模糊的,这里引用下面内容,感觉说的还是比较清楚的。

消息发送时都被发送到一个topic,其本质就是一个目录,而topic由是由一些Partition Logs(分区日志)组成


通过上面相信你对topic有了一些了解。


了解基本概念之后,可以在深入些,这里只说下个人的经验,一些可能误解的地方:


kafka在传输数据的过程中,Kafka什么时候删除数据,消费完是否接着就删除数据,这个不是的。Kafka只有过期的数据才会被自动清除以释放磁盘空间。


除了数据删除,可能误解。一些比较难理解的或则容易混淆的地方:

比如Consumergroup与消息消费的关系,如何设置partition值需要考虑的因素等问题


Consumergroup:各个consumer可以组成一个组,每个消息只能被组中的一个consumer消费,如果一个消息可以被多个consumer消费的话,那么这些consumer必须在不同的组。


关于如何设置partition值需要考虑的因素。一个partition只能被一个消费者消费(一个消费者可以同时消费多个partition),因此,如果设置的partition的数量小于consumer的数量,就会有消费者消费不到数据。所以,推荐partition的数量一定要大于同时运行的consumer的数量。


更多内容,可参考下面文章:

Kafka 设计与原理详解

http://www.aboutyun.com/forum.php?mod=viewthread&tid=15812


Kafka入门经典教程

http://www.aboutyun.com/forum.php?mod=viewthread&tid=12882


kafka入门:简介、使用场景、设计原理、主要配置及集群搭建

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9341


分布式消息系统 Kafka 简介:特点、架构、设计、应用场景

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11914


——————————————————————————

上面是比较经典的内容,下面内容可随便看看,仅供参考:

Kafka入门

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11888


分布式消息系统:Kafka介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9038


Kafka文档:基本介绍(Getting Start)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=14732


Kafka【过期数据】清理策略删除和压缩

http://www.aboutyun.com/forum.php?mod=viewthread&tid=15909


kafka在zookeeper中存储结构

http://www.aboutyun.com/forum.php?mod=viewthread&tid=9941


分布式发布订阅消息系统 Kafka 架构设计

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8960


kafka详解一、Kafka简介


kafka详解三:开发Kafka应用


kafka详解四:Kafka的设计思想、理念


Kafka详解五、Kafka Consumer的底层API- SimpleConsumer



Kafka设计解析(一)- Kafka背景及架构介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18894



Kafka设计解析(二)- Kafka HA高可用(上)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18903



Kafka设计解析(三)- Kafka HA高可用(下)

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18904



Kafka设计解析(四)- Kafka Consumer设计解析

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18921


kafka资源:
kafka系列解读-文档

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11928


2.集群部署:


对于集群的部署,其实对于很多大数据集群都是差不多的,下面推荐几篇文章:


kafka2.9.2的分布式集群安装和demo(java api)测试

http://www.aboutyun.com/forum.php?mod=viewthread&tid=8919



构建安全的Kafka集群

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13246



Kafka详解二、如何配置Kafka集群


Kafka实战-Kafka Cluster

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13807


3.实战内容


Kafka 一般都是与其它框架整合,比如spark,storm,flume等下面文档可参考


flume+storm+kafka+mysql架构设计整合及介绍

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13442



Spark(1.2.0) Streaming 集成 Kafka 总结

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11536



Kafka实战-实时日志统计流程

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13788



Kafka实战-简单示例

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13801



Kafka+Spark Streaming+Redis实时计算整合实践

http://www.aboutyun.com/forum.php?mod=viewthread&tid=13368



用Apache Kafka构建流数据平台

http://www.aboutyun.com/forum.php?mod=viewthread&tid=11802



详解整合Kafka到Spark Streaming【推荐】

http://www.aboutyun.com/forum.php?mod=viewthread&tid=14664


Storm读取Kafka数据是如何实现的

http://www.aboutyun.com/forum.php?mod=viewthread&tid=19403


目录
相关文章
|
1月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
79 5
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
44 3
|
2月前
|
消息中间件 大数据 Kafka
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
31 2
|
2月前
|
消息中间件 NoSQL 大数据
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
38 1
|
4月前
|
消息中间件 Java Kafka
"Kafka快速上手:从环境搭建到Java Producer与Consumer实战,轻松掌握分布式流处理平台"
【8月更文挑战第10天】Apache Kafka作为分布式流处理平台的领头羊,凭借其高吞吐量、可扩展性和容错性,在大数据处理、实时日志收集及消息队列领域表现卓越。初学者需掌握Kafka基本概念与操作。Kafka的核心组件包括Producer(生产者)、Broker(服务器)和Consumer(消费者)。Producer发送消息到Topic,Broker负责存储与转发,Consumer则读取这些消息。首先确保已安装Java和Kafka,并启动服务。接着可通过命令行创建Topic,并使用提供的Java API实现Producer发送消息和Consumer读取消息的功能。
83 8
|
4月前
|
消息中间件 监控 Java
【一键解锁!】Kafka Manager 部署与测试终极指南 —— 从菜鸟到高手的必经之路!
【8月更文挑战第9天】随着大数据技术的发展,Apache Kafka 成为核心组件,用于处理实时数据流。Kafka Manager 提供了简洁的 Web 界面来管理和监控 Kafka 集群。本文介绍部署步骤及示例代码,助您快速上手。首先确认已安装 Java 和 Kafka。
615 4
|
4月前
|
消息中间件 域名解析 网络协议
【Azure 应用服务】部署Kafka Trigger Function到Azure Function服务中,解决自定义域名解析难题
【Azure 应用服务】部署Kafka Trigger Function到Azure Function服务中,解决自定义域名解析难题
|
4月前
|
消息中间件 Kafka Apache
部署安装kafka集群
部署安装kafka集群
|
6月前
|
消息中间件 算法 Java
go语言并发实战——日志收集系统(三) 利用sarama包连接KafKa实现消息的生产与消费
go语言并发实战——日志收集系统(三) 利用sarama包连接KafKa实现消息的生产与消费
128 0