开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段:数据预处理流程详解】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/669/detail/11593
数据预处理流程详解
内容介绍:
一、数据采集
二、数据采集阶段要实现的过程
目标:详细了解数据采集的全部过程
一、 数据采集
1.流程
官网反爬虫系统的数据采集模块采用 lua+nginx+kafka 架构,通过 lua 脚本将官网的 http 请求数据获取之后,进行数据条数统计和日志记录,之后写入到 kafka 生成端,给 sparkstreaming 进行消费并清洗。
二、 数据采集阶段要实现的过程
1、使用 openresty 搭建官方网站
此时需要有一台服务器部署企业的外部端,所以需要通过 openresty 搭建官方网站,该官网是 nginx 部署。
nginx :
(1) 在 nginx.com 模拟多个 url (正常访问的 url 、js 的 url 、css 的 url)
(2)在 nginx.conf 中还要写一个引入 lua 脚本的操作(nginx.conf 和 lua 进行集成)
2、lua 脚本(目的是采集 requset 数据)
(1)读取 request 数据进行封装,然后创建 producer 写到 fafka 中
(2) 条数统计:跟随 request 一起封装,传到 kafka
3、数据源
(1)浏览器:可以通过浏览器模拟真实用户(在浏览器中刷新界面,将数据传入 kafla 中)
(2)爬虫:写爬虫程序,生产测试数据(正常访问的 url、js 的 url、css 的 url)
4、测试数据是否成功
(1)写一个 kafka 的消费者,消费数据,看生产步骤是否成功。