第二阶段介绍与Kafka环境准备|学习笔记

简介: 快速学习第二阶段介绍与Kafka环境准备

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):第二阶段介绍与Kafka环境准备】学习笔记与课程紧密联系,让用户快速学习知识

课程地址https://developer.aliyun.com/learning/course/670/detail/11612


第二阶段介绍与Kafka环境准备

 

内容介绍:

一、本阶段的课程内容

二、准备 Kafka采集数据所需的环境

 

一、本阶段课程内容

1.回顾 Kafka 的API。

2.通过 lua 脚本实现数据的采集,把数据打入到 Kafka 当中。

我们第一个阶段学习了 lua 的一些语法, 那如果语法学完以后需要把数据采集过来,并打入 Kafka 中,数据采集阶段就做完了。

3. 处理数据。项目的目标是实现反爬虫。

4. 介绍一下 hadoop 、 spark 的一些测试的环境。

5. SparkStreaming 消费 Kafka 的两种方式。

6. 使用 SparkStreaming 来对数据进行预处理和爬虫识别。

7. 搭建反爬虫项目的一个总体的架构。

8.实现链式路统计模块,即利用 SparkStreaming 技术,读取 Kafka 里面数据,读到我的程序里面中,实现我的第一个功能模块。

 

二、准备 Kafka 采集数据所需的环境

1.准备节点

Kafka 环境在[我的虚拟机]中,这是节点192168 100.160

图片1.png

除节点之外,分别还有三个节点: note01、02、03

这就是 Kafka 的集群和 ZK 的集群,以及 hadoop ,都装在这三台机器里面,先让他们运行起来。 

2.开启这个集成的任务:我的 CT和 Kafka

把写过的脚本Ctrl+ X保留一下,保存到环境-素材里面添加命名为脚本-程序,以供大家有问题,拿这个做参考。

3. 使用连接工具将节点连接。

此处,我的三个节点分别为100.100 100.110 100.120,全部连接起来。

4.启动我的 ZK 和 Kafka

具体位置:

素材-资料包- Kafka -集群的启动命令.txt

图片2.png

复制 ZK 和 Kafka 数据,三个节点GPS均无内容。

粘贴前两个启动命令,使GPS 、 ZK 、 Kafka 全部起来。

5.检查当前环境是否无 topic

当前的 ZK 和Kafka 中应当全新、无 topic 。

进入到[我的安装目录]-export-service,可以看到里面有 ZK 、 Kafka 等,进入到B中,查看一些相关脚本。

为了查看是否具有的具体 topic ,将其运行一下。

做出 zokeeper 节点,将其改作192.168.100.100.218.1281

当确认此环境下不存在 topic 时,那么环境就准备好了。

图片3.png

相关文章
|
消息中间件 存储 Java
聊聊 Kafka: 在 Linux 环境上搭建 Kafka
聊聊 Kafka: 在 Linux 环境上搭建 Kafka
632 0
|
消息中间件 数据可视化 Kafka
【kafka可视化工具】kafka-eagle在windows环境的下载、安装、启动与访问
【kafka可视化工具】kafka-eagle在windows环境的下载、安装、启动与访问
1948 0
|
消息中间件 存储 Kubernetes
K8S环境快速部署Kafka(K8S外部可访问)
本文通过实战展示了如何在K8S环境部署kafka集群,并且K8S环境外部也能使用此服务
4372 1
K8S环境快速部署Kafka(K8S外部可访问)
|
11月前
|
消息中间件 Java Kafka
【手把手教你Linux环境下快速搭建Kafka集群】内含脚本分发教程,实现一键部署多个Kafka节点
本文介绍了Kafka集群的搭建过程,涵盖从虚拟机安装到集群测试的详细步骤。首先规划了集群架构,包括三台Kafka Broker节点,并说明了分布式环境下的服务进程配置。接着,通过VMware导入模板机并克隆出三台虚拟机(kafka-broker1、kafka-broker2、kafka-broker3),分别设置IP地址和主机名。随后,依次安装JDK、ZooKeeper和Kafka,并配置相应的环境变量与启动脚本,确保各组件能正常运行。最后,通过编写启停脚本简化集群的操作流程,并对集群进行测试,验证其功能完整性。整个过程强调了自动化脚本的应用,提高了部署效率。
2580 1
【手把手教你Linux环境下快速搭建Kafka集群】内含脚本分发教程,实现一键部署多个Kafka节点
|
消息中间件 Java Kafka
如何在Kafka分布式环境中保证消息的顺序消费?深入剖析Kafka机制,带你一探究竟!
【8月更文挑战第24天】Apache Kafka是一款专为实时数据管道和流处理设计的分布式平台,以其高效的消息发布与订阅功能著称。在分布式环境中确保消息按序消费颇具挑战。本文首先介绍了Kafka通过Topic分区实现消息排序的基本机制,随后详细阐述了几种保证消息顺序性的策略,包括使用单分区Topic、消费者组搭配单分区消费、幂等性生产者以及事务支持等技术手段。最后,通过一个Java示例演示了如何利用Kafka消费者确保消息按序消费的具体实现过程。
749 3
|
SQL 消息中间件 Kafka
flink 读取kafka 写入带kerberos认证的hive环境
flink 读取kafka 写入带kerberos认证的hive环境
|
消息中间件 Kafka Apache
【Kafka专栏】windows搭建Kafka环境 & 详细教程(01)
【Kafka专栏】windows搭建Kafka环境 & 详细教程(01)
1040 2
|
消息中间件 Kafka Linux
初尝Kafka(二):搭建环境
初尝Kafka(二):搭建环境
121 1
|
消息中间件 大数据 Kafka
大数据平台搭建(容器环境)——Kafka安装配置
大数据平台搭建(容器环境)——Kafka安装配置
大数据平台搭建(容器环境)——Kafka安装配置
|
消息中间件 网络协议 Kafka
win10中docker安装kafka环境和操作
win10中docker安装kafka环境和操作
445 0