第二阶段介绍与Kafka环境准备|学习笔记-阿里云开发者社区

第二阶段介绍与Kafka环境准备|学习笔记

2022-11-16 154

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习第二阶段介绍与Kafka环境准备

开发者学堂课程【大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）：第二阶段介绍与Kafka环境准备】学习笔记与课程紧密联系，让用户快速学习知识

内容介绍：

一、本阶段的课程内容

二、准备 Kafka采集数据所需的环境

1.回顾 Kafka 的API。

2.通过 lua 脚本实现数据的采集，把数据打入到 Kafka 当中。

我们第一个阶段学习了 lua 的一些语法，那如果语法学完以后需要把数据采集过来，并打入 Kafka 中，数据采集阶段就做完了。

3. 处理数据。项目的目标是实现反爬虫。

4. 介绍一下 hadoop 、 spark 的一些测试的环境。

5. SparkStreaming 消费 Kafka 的两种方式。

6. 使用 SparkStreaming 来对数据进行预处理和爬虫识别。

7. 搭建反爬虫项目的一个总体的架构。

8.实现链式路统计模块，即利用 SparkStreaming 技术，读取 Kafka 里面数据，读到我的程序里面中，实现我的第一个功能模块。

1.准备节点

Kafka 环境在[我的虚拟机]中，这是节点192168 100.160

图片1.png

除节点之外，分别还有三个节点： note01、02、03

这就是 Kafka 的集群和 ZK 的集群，以及 hadoop ，都装在这三台机器里面，先让他们运行起来。

2.开启这个集成的任务：我的 CT和 Kafka

把写过的脚本Ctrl+ X保留一下，保存到环境-素材里面添加命名为脚本-程序，以供大家有问题，拿这个做参考。

3. 使用连接工具将节点连接。

此处，我的三个节点分别为100.100 100.110 100.120，全部连接起来。

4.启动我的 ZK 和 Kafka

具体位置：

素材-资料包- Kafka -集群的启动命令.txt

图片2.png

复制 ZK 和 Kafka 数据，三个节点GPS均无内容。

粘贴前两个启动命令，使GPS 、 ZK 、 Kafka 全部起来。

5.检查当前环境是否无 topic

当前的 ZK 和Kafka 中应当全新、无 topic 。

进入到[我的安装目录]-export-service，可以看到里面有 ZK 、 Kafka 等，进入到B中，查看一些相关脚本。

为了查看是否具有的具体 topic ，将其运行一下。

做出 zokeeper 节点，将其改作192.168.100.100.218.1281

当确认此环境下不存在 topic 时，那么环境就准备好了。

图片3.png