开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):第二阶段介绍与Kafka环境准备】学习笔记与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/670/detail/11612
第二阶段介绍与Kafka环境准备
内容介绍:
一、本阶段的课程内容
二、准备 Kafka采集数据所需的环境
一、本阶段课程内容
1.回顾 Kafka 的API。
2.通过 lua 脚本实现数据的采集,把数据打入到 Kafka 当中。
我们第一个阶段学习了 lua 的一些语法, 那如果语法学完以后需要把数据采集过来,并打入 Kafka 中,数据采集阶段就做完了。
3. 处理数据。项目的目标是实现反爬虫。
4. 介绍一下 hadoop 、 spark 的一些测试的环境。
5. SparkStreaming 消费 Kafka 的两种方式。
6. 使用 SparkStreaming 来对数据进行预处理和爬虫识别。
7. 搭建反爬虫项目的一个总体的架构。
8.实现链式路统计模块,即利用 SparkStreaming 技术,读取 Kafka 里面数据,读到我的程序里面中,实现我的第一个功能模块。
二、准备 Kafka 采集数据所需的环境
1.准备节点
Kafka 环境在[我的虚拟机]中,这是节点192168 100.160
除节点之外,分别还有三个节点: note01、02、03
这就是 Kafka 的集群和 ZK 的集群,以及 hadoop ,都装在这三台机器里面,先让他们运行起来。
2.开启这个集成的任务:我的 CT和 Kafka
把写过的脚本Ctrl+ X保留一下,保存到环境-素材里面添加命名为脚本-程序,以供大家有问题,拿这个做参考。
3. 使用连接工具将节点连接。
此处,我的三个节点分别为100.100 100.110 100.120,全部连接起来。
4.启动我的 ZK 和 Kafka
具体位置:
素材-资料包- Kafka -集群的启动命令.txt
复制 ZK 和 Kafka 数据,三个节点GPS均无内容。
粘贴前两个启动命令,使GPS 、 ZK 、 Kafka 全部起来。
5.检查当前环境是否无 topic
当前的 ZK 和Kafka 中应当全新、无 topic 。
进入到[我的安装目录]-export-service,可以看到里面有 ZK 、 Kafka 等,进入到B中,查看一些相关脚本。
为了查看是否具有的具体 topic ,将其运行一下。
做出 zokeeper 节点,将其改作192.168.100.100.218.1281
当确认此环境下不存在 topic 时,那么环境就准备好了。


