数据预处理流程详解|学习笔记

简介: 快速学习数据预处理流程详解

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据预处理流程详解】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11593


数据预处理流程详解

 

内容介绍:

一、数据采集

二、数据采集阶段要实现的过程

目标:详细了解数据采集的全部过程

 

一、 数据采集

1.流程

官网反爬虫系统的数据采集模块采用 lua+nginx+kafka 架构,通过 lua 脚本将官网的 http 请求数据获取之后,进行数据条数统计和日志记录,之后写入到  kafka  生成端,给 sparkstreaming 进行消费并清洗。

图片1.png

二、 数据采集阶段要实现的过程

 图片2.png

1、使用 openresty 搭建官方网站

此时需要有一台服务器部署企业的外部端,所以需要通过 openresty 搭建官方网站,该官网是 nginx 部署。

nginx

(1) nginx.com 模拟多个 url (正常访问的 url 、js 的 url 、css 的 url)

(2)在 nginx.conf 中还要写一个引入 lua 脚本的操作(nginx.conf 和 lua 进行集成)

2、lua 脚本(目的是采集 requset 数据)

1)读取 request 数据进行封装,然后创建 producer 写到 fafka

(2) 条数统计:跟随 request 一起封装,传到 kafka

3、数据源

(1)浏览器:可以通过浏览器模拟真实用户(在浏览器中刷新界面,将数据传入 kafla 中)

(2)爬虫:写爬虫程序,生产测试数据(正常访问的 url、js 的 url、css 的 url)

4、测试数据是否成功

(1)写一个 kafka 的消费者,消费数据看生产步骤是否成功

相关文章
|
1天前
|
数据采集 机器学习/深度学习 数据挖掘
利用Python实现高效的数据清洗与预处理流程
本文旨在探讨如何使用Python编程语言及其强大的数据处理库(如pandas、numpy等)来构建一个高效且灵活的数据清洗与预处理流程。与常规的数据清洗方法不同,本文不仅关注于传统的缺失值填充、异常值处理、数据类型转换等步骤,还引入了数据质量评估、数据特征选择以及自动化处理流程的设计等高级主题。通过实际案例和代码演示,本文将为读者提供一套完整的数据清洗与预处理解决方案,助力数据分析师和数据科学家在数据探索阶段更加高效、准确地处理数据。
|
11天前
|
数据采集 监控 安全
数据预处理几种常见问题
【6月更文挑战第12天】数据处理中常见的问题:数据缺失、数据重复、数据异常和数据样本差异大。对于数据缺失,处理方法包括定位、不处理、删除和填补,其中填补可使用业务知识、其他属性或统计方法。
|
1月前
|
Web App开发 数据可视化 数据挖掘
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
利用R语言进行聚类分析实战(数据+代码+可视化+详细分析)
|
1月前
|
数据采集 Python
数据清洗是数据预处理的重要步骤
数据清洗是数据预处理的重要步骤
29 0
|
分布式计算 运维 JavaScript
大数据预处理工具的综合使用
大数据预处理工具的综合使用
|
数据采集 机器学习/深度学习 测试技术
机器学习测试笔记(6)——数据清洗和准备(上)
机器学习测试笔记(6)——数据清洗和准备(上)
60 0
|
机器学习/深度学习 数据采集 监控
机器学习测试笔记(6)——数据清洗和准备(下)
机器学习测试笔记(6)——数据清洗和准备(下)
81 0
|
数据采集 监控 前端开发
数据预处理总结—用例及流程|学习笔记
快速学习数据预处理总结—用例及流程
728 0
数据预处理总结—用例及流程|学习笔记
|
数据采集 消息中间件 NoSQL
数据预处理-数据清洗需求分析|学习笔记
快速学习数据预处理-数据清洗需求分析
441 0
数据预处理-数据清洗需求分析|学习笔记
|
机器学习/深度学习 人工智能 算法
机器学习算法的一般流程|学习笔记
快速学习机器学习算法的一般流程
147 0
机器学习算法的一般流程|学习笔记