数据预处理流程详解|学习笔记

简介: 快速学习数据预处理流程详解

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据预处理流程详解】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11593


数据预处理流程详解

 

内容介绍:

一、数据采集

二、数据采集阶段要实现的过程

目标:详细了解数据采集的全部过程

 

一、 数据采集

1.流程

官网反爬虫系统的数据采集模块采用 lua+nginx+kafka 架构,通过 lua 脚本将官网的 http 请求数据获取之后,进行数据条数统计和日志记录,之后写入到  kafka  生成端,给 sparkstreaming 进行消费并清洗。

图片1.png

二、 数据采集阶段要实现的过程

 图片2.png

1、使用 openresty 搭建官方网站

此时需要有一台服务器部署企业的外部端,所以需要通过 openresty 搭建官方网站,该官网是 nginx 部署。

nginx

(1) nginx.com 模拟多个 url (正常访问的 url 、js 的 url 、css 的 url)

(2)在 nginx.conf 中还要写一个引入 lua 脚本的操作(nginx.conf 和 lua 进行集成)

2、lua 脚本(目的是采集 requset 数据)

1)读取 request 数据进行封装,然后创建 producer 写到 fafka

(2) 条数统计:跟随 request 一起封装,传到 kafka

3、数据源

(1)浏览器:可以通过浏览器模拟真实用户(在浏览器中刷新界面,将数据传入 kafla 中)

(2)爬虫:写爬虫程序,生产测试数据(正常访问的 url、js 的 url、css 的 url)

4、测试数据是否成功

(1)写一个 kafka 的消费者,消费数据看生产步骤是否成功

相关文章
|
7月前
|
机器学习/深度学习 数据采集 SQL
【机器学习】数据清洗之处理重复点
【机器学习】数据清洗之处理重复点
270 2
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
90 2
|
7月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
103 0
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
971 0
数据预处理总结—用例及流程|学习笔记
|
数据采集 消息中间件 监控
数据预处理总结﹣代码总结|学习笔记
快速学习数据预处理总结﹣代码总结
106 0
数据预处理总结﹣代码总结|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
550 0
数据预处理-数据清洗需求分析|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
176 0
机器学习算法的一般流程|学习笔记
|
数据采集 消息中间件 监控
数据预处理模块梳理|学习笔记
快速学习数据预处理模块梳理
385 0
数据预处理模块梳理|学习笔记
|
数据采集 消息中间件 分布式计算
数据预处理-数据清洗-实现思路|学习笔记
快速学习数据预处理-数据清洗-实现思路
213 0
数据预处理-数据清洗-实现思路|学习笔记
|
数据采集 机器学习/深度学习 测试技术
机器学习测试笔记(6)——数据清洗和准备(上)
机器学习测试笔记(6)——数据清洗和准备(上)
81 0