项目七个阶段总体介绍|学习笔记

简介: 快速学习项目七个阶段总体介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段项目七个阶段总体介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11579


项目七个阶段总体介绍

 

回顾:

用来做海量数据存储的组件 hdfs ,海量数据做计算的组件 mapreduce,spark 等,做实时计算的 flink,storm,spark   streaming, 做数据仓库的 hive ,快速查询的 hbase ,做数据接入的 flume ,消息组件 kafka 均为大数据生态系统中的核心的组件。

为更深入的了解以上的组件,通过项目的方式应用此类技术,增加对技术理解之外项目上的收获,本节课通过反爬虫项目为主项目进行巩固与掌握。

首先,明确爬虫的概念

即:互联网上的爬虫,按照一定的规则或者规律,自动、不间断、持续在互联网上爬取想要的数据,把数据发回到己方的数据库中,实际上是一个循环迭代的程序或者是一个脚本。

互联网上存在许多爬虫进行爬取,企业若是遭到爬虫多次爬取公司重要资源,则公司本部系统会受到严重影响,企业为防止这种情况的发生,实行反爬虫项目,即识别爬虫,并剔除。

以下内容进行阶段划分:(目标)了解反爬虫项目的阶段划分,以及每个阶段要学习的内容。

内容介绍:

第一阶段:

反爬虫项目的总体介绍,主要包括(背景、需求、流程、架构、 openresty 介绍、 lua 语法学习)

第二阶段:

Lua 采集数据写入 kafka 搭建项目、 streaming 读取 kafka 数据、链路统计功能实现

第三阶段:

实现数据预处理的数据清洗、脱敏、拆分、分类(飞行类型/操作类型,单程/往返)、解析等功能。

第四阶段:

实现数据预处理的数据历史爬虫、结构化、数据推送、数据预处理监控、前端读取后端数据等功能。

(此图为前端登录界面后进入后的窗口)

图片1.png

第五阶段:

读取预处理后的数据、进行封装、分别统计八个指标的数据。

单位时间内的 IP 端访问量(前两位)

某个 IP, 单位时间内总访问量

某个 IP, 单位时间内的关键页面访问总量

某个 IP, 单位时间内的 UA 种类数统计

某个 IP, 单位时间内的关键页面最短访问间隔

某个 IP, 单位时间内小于最短访问间隔(自设)的关键页面查询次数

某个 IP, 单位时间内查询不同行程的次数

某个 IP, 单位时间内关键页面的访问次数的 cookie 数

第六阶段:

根据已经算出的八项指标结果,进行爬虫识别。剔除非爬虫数据、写入 Redis ,写入 HDFS,Redis 数据恢复等。

第七阶段:

爬虫分析性能的计算与监控、离线指标分析。

相关文章
|
18天前
|
敏捷开发 数据可视化 测试技术
解析软件项目管理:以板栗看板为例,其如何有效影响并优化软件开发流程
软件项目管理是一个复杂而重要的过程,涵盖了软件产品的创建、维护和优化。其核心目标是确保软件项目能够顺利完成,同时满足预定的质量、时间和预算目标。本文将深入探讨软件项目管理的内涵及其对软件开发过程的影响,并介绍一些有效的管理工具。
|
3月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
3月前
|
BI
敏捷项目度量问题之利用「需求燃起图」和「缺陷燃起图」预测项目的完成时间如何解决
敏捷项目度量问题之利用「需求燃起图」和「缺陷燃起图」预测项目的完成时间如何解决
|
4月前
|
运维 自然语言处理 监控
软件研发核心问题之在需求拆解过程中,“需要多少UI”的问题如何解决
软件研发核心问题之在需求拆解过程中,“需要多少UI”的问题如何解决
|
3月前
|
SQL 自然语言处理 知识图谱
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
|
4月前
软件研发核心问题之在需求拆解过程中,“数据与UI如何关联”的问题如何解决
软件研发核心问题之在需求拆解过程中,“数据与UI如何关联”的问题如何解决
|
6月前
|
缓存 C语言 C++
【项目日记(九)】项目整体测试,优化以及缺陷分析
【项目日记(九)】项目整体测试,优化以及缺陷分析
|
存储 测试技术 数据库
「机会和方案」TOGAF建模:项目环境图
「机会和方案」TOGAF建模:项目环境图
|
敏捷开发 消息中间件 前端开发
DDD实战之七: 战术设计、整体流程与首次冲刺
DDD实战之七: 战术设计、整体流程与首次冲刺
DDD实战之七: 战术设计、整体流程与首次冲刺
|
数据采集 消息中间件 监控
项目总体逻辑架构详解|学习笔记
快速学习项目总体逻辑架构详解
项目总体逻辑架构详解|学习笔记