阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> 大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段> 正文

大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段

28课时 |
220人已学 |
免费
课程介绍

本课程由黑马程序员提供。

订票网站提供查询、预订服务,有用户访问,也存在爬虫。爬虫消耗了系统资源,却没有转化成销量,导致系统虚耗,造成系统波动。为了爬虫访问,需要开发大数据防爬工具。 项目采用Lua+Spark+Redis+Hadoop框架搭建,包含状态监控,反爬指标配置,运营指标监控展示等功能。

项目分为七个阶段,本阶段主要讲了Lua采集数据写入Kafka、搭建项目框架、Streaming读取Kafka数据、链路统计功能实现。

第二阶段介绍与Kafka环境准备

 

内容介绍:

  • 本阶段的课程内容
  • 准备 Kafka采集数据所需的环境

 

一、本阶段课程内容

1.回顾 Kafka 的API。

2.通过 lua 脚本实现数据的采集,把数据打入到 Kafka 当中。

我们第一个阶段学习了 lua 的一些语法, 那如果语法学完以后需要把数据采集过来,并打入 Kafka 中,数据采集阶段就做完了。

  1. 处理数据。项目的目标是实现反爬虫。
  2. 介绍一下 hadoop 、 spark 的一些测试的环境。
  3. SparkStreaming 消费 Kafka 的两种方式。
  4. 使用 SparkStreaming 来对数据进行预处理和爬虫识别。
  5. 搭建反爬虫项目的一个总体的架构。

8.实现链式路统计模块,即利用 SparkStreaming 技术,读取 Kafka 里面数据,读到我的程序里面中,实现我的第一个功能模块。

 

 

二、准备 Kafka 采集数据所需的环境

1.准备节点

 Kafka 环境在[我的虚拟机]中,这是节点192168 100.160

 

除节点之外,分别还有三个节点: note01、02、03

这就是 Kafka 的集群和 ZK 的集群,以及 hadoop ,都装在这三台机器里面,先让他们运行起来。

 

2.开启这个集成的任务:我的 CT和 Kafka

把写过的脚本Ctrl+ X保留一下,保存到环境-素材里面添加命名为脚本-程序,以供大家有问题,拿这个做参考。

 

  1. 使用连接工具将节点连接。

此处,我的三个节点分别为100.100 100.110 100.120,全部连接起来。

 

4.启动我的 ZK 和 Kafka

具体位置:

素材-资料包- Kafka -集群的启动命令.txt

 
   

 

复制 ZK 和 Kafka 数据,三个节点GPS均无内容。

粘贴前两个启动命令,使GPS 、 ZK 、 Kafka 全部起来。

 

5.检查当前环境是否无 topic

当前的 ZK 和Kafka 中应当全新、无 topic 。

进入到[我的安装目录]-export-service,可以看到里面有 ZK 、 Kafka 等,进入到B中,查看一些相关脚本。

为了查看是否具有的具体 topic ,将其运行一下。

做出 zokeeper 节点,将其改作192.168.100.100.218.1281

当确认此环境下不存在 topic 时,那么环境就准备好了。

 

我的学习进度
请登录后查看您的学习进度!
立即登录
本课程相关云产品