数据预处理流程详解|学习笔记

简介: 快速学习数据预处理流程详解

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据预处理流程详解】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11593


数据预处理流程详解

 

内容介绍:

一、数据采集

二、数据采集阶段要实现的过程

目标:详细了解数据采集的全部过程

 

一、 数据采集

1.流程

官网反爬虫系统的数据采集模块采用 lua+nginx+kafka 架构,通过 lua 脚本将官网的 http 请求数据获取之后,进行数据条数统计和日志记录,之后写入到  kafka  生成端,给 sparkstreaming 进行消费并清洗。

图片1.png

二、 数据采集阶段要实现的过程

 图片2.png

1、使用 openresty 搭建官方网站

此时需要有一台服务器部署企业的外部端,所以需要通过 openresty 搭建官方网站,该官网是 nginx 部署。

nginx

(1) nginx.com 模拟多个 url (正常访问的 url 、js 的 url 、css 的 url)

(2)在 nginx.conf 中还要写一个引入 lua 脚本的操作(nginx.conf 和 lua 进行集成)

2、lua 脚本(目的是采集 requset 数据)

1)读取 request 数据进行封装,然后创建 producer 写到 fafka

(2) 条数统计:跟随 request 一起封装,传到 kafka

3、数据源

(1)浏览器:可以通过浏览器模拟真实用户(在浏览器中刷新界面,将数据传入 kafla 中)

(2)爬虫:写爬虫程序,生产测试数据(正常访问的 url、js 的 url、css 的 url)

4、测试数据是否成功

(1)写一个 kafka 的消费者,消费数据看生产步骤是否成功

相关文章
|
7月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
110 2
|
8月前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python实现高效的数据清洗与预处理流程
本文旨在探讨如何使用Python编程语言及其强大的数据处理库(如pandas、numpy等)来构建一个高效且灵活的数据清洗与预处理流程。与常规的数据清洗方法不同,本文不仅关注于传统的缺失值填充、异常值处理、数据类型转换等步骤,还引入了数据质量评估、数据特征选择以及自动化处理流程的设计等高级主题。通过实际案例和代码演示,本文将为读者提供一套完整的数据清洗与预处理解决方案,助力数据分析师和数据科学家在数据探索阶段更加高效、准确地处理数据。
|
8月前
|
数据采集 监控 安全
数据预处理几种常见问题
【6月更文挑战第12天】数据处理中常见的问题:数据缺失、数据重复、数据异常和数据样本差异大。对于数据缺失,处理方法包括定位、不处理、删除和填补,其中填补可使用业务知识、其他属性或统计方法。
|
9月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
114 0
|
分布式计算 运维 JavaScript
大数据预处理工具的综合使用
大数据预处理工具的综合使用
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
1025 0
数据预处理总结—用例及流程|学习笔记
|
数据采集 消息中间件 监控
数据预处理模块梳理|学习笔记
快速学习数据预处理模块梳理
406 0
数据预处理模块梳理|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
183 0
机器学习算法的一般流程|学习笔记
|
数据采集 消息中间件 监控
数据预处理总结﹣代码总结|学习笔记
快速学习数据预处理总结﹣代码总结
115 0
数据预处理总结﹣代码总结|学习笔记
|
数据采集 消息中间件 分布式计算
数据预处理-数据清洗-实现思路|学习笔记
快速学习数据预处理-数据清洗-实现思路
229 0
数据预处理-数据清洗-实现思路|学习笔记