第一阶段总结|学习笔记

简介: 快速学习第一阶段总结

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段第一阶段总结】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11611


第一阶段总结

 

1、总体内容概述

下面对第一阶段内容进行回顾,首先介绍了反爬虫项目背景,在什么样的一个环境前提下有了这样的一个项目需求,第二部分介绍了项目总体概述,具有哪些模块:流程管理模块,策略管理模块,规则管理模块,实施监控模块,数据可视化管理模块。然后对这些模块进行了一个粗略的概括。

图片1.png

数据的处理流程,内容非常的关键。反爬虫的所有项目都包括在了数据的处理流程中,以及逻辑架构是数据处理流程的另外一个维度的描述比流程更细化,在某一个模块某一个流程具体要做那些事情里面写的都很清楚。

接下来学习了反爬虫规则,具体规则就是那八个规则,里面还介绍了采集数据要采集哪些数据以及系统架构,系统架构除了流程架构和逻辑架构之外还有 bs 结构,技术架构使用的数据采集是 nginx➕lua 消息队列的实时接收是 kafka, 数据预处理和爬虫的识别使用的是 sparksyreaming, 离线分析使用的是 sparkcircle. 非功能性描述也带着大家详细讲述完毕,在向后介绍了防爬规则,防爬规则一共学习了八个规则,这八个规则是用来断定是不是爬虫的依据,根据这八个指标进行计算计算出来的结果综合打分,根据综合分数判断到底是不是爬虫。

第六部分是数据采集模块,openresty 的安装和介绍非常简单,先介绍了 openresty 常用的架构有哪四种,第一个是负载均衡第二个是单机闭环第三个是分布式闭环第四个是接入网关。

这四种场景每一个都有相对应的有点以及缺点用的比较广泛的是第四种接入网关,下面再布置的是集群。

openresty 的安装和部署较为简单,windows 版本直接解压,执行 nginx.exe, 访问http://localhost: 80就可以看到 welcome to openresty, 看到这个界面说明已经安装成功。

linux 安装也比较简单

1、上传安装包

2、解压安装包

3、安装依赖: yum - y instal readline - devel pcre - devel openssl - devel perl gcc

4、配置(安装目录和依赖模块):进入 openresty 的加压目录内( configure 在这个目录下)./ configure - prefix =/ usr / local / openresty - with - http stub status moudule

5、安装: make && make instal

6、启动:/ usr / local / openresty / nginx / sbin / nginx

7、查看页面:http://ip:80,看到 welcome to openresty 将 linux 版本安装完毕。

接下来学习了 openresty 集成 lua 语法,学习了如何做一个输出文件,如何写脚本。

学习了它的八个数据类型,变量,运算符包括复制运算符,算术运算符,关系运算符,逻辑运算符,其他运算符。

还有if条件判断以及 for 循环语句,while 循环 repeat 循环以及函数的定义,table的定义以及模块如何实现。

最后学习了 openresty 的入门案例主要学习了 nginx 集成 lua,第一种方式是直接写入代码块,另外一种方式是指定一个 lua 脚本,指定以后在脚本中去收集 http 请求方式中的 get 请求的数据以及 post 请求方式的数据,及 header body 信息都可以在脚本中获取,在向后就是写了一个 openresty 连接 Redis,读取了 Redis 里面的数据并进行展现1引入 readies 的模块2实例对象3创建链接4调用命令以上就是第一阶段所讲述的内容

1、 web 端的架构采用的是 B / s

2、数据处理采用的是 nginx (lua)+ kafka + sparkstreaming + spark

防爬规则:

按 P 段聚合-5分钟内的 P 段 P 前两位)访问量按 P 地址聚合-某个 P ,5分钟内总访问量

按 P 地址聚合.某个 P ,5分钟内的关键页面访问总量

按 P 地址聚合-某个 P ,5分钟内的 UA 种类数统计

按 P 地址聚合﹣某个 IP ,5分钟内查询不同行程的次数

按 P 地址聚合某个 P ,5分钟内关键页面的访问的 Cookie 数

按 P 地址聚合某个 P ,5分钟内的关键页面最短访问间隔

按 P 地址聚合某个 IP ,5分钟内小于最短访问间隔(自设)的关键页面查询次数

2.总结

1、介绍项目背景

2、项目总体概述

3、项目功能描述

4、项目架构

5、防爬规则

6、数据采集模块﹣ openresty 安装

7、 lua 语法入门

8、 openresty 案例入门

相关文章
|
SQL OceanBase Python
OBCP第五章 分布式事务高级技术-分布式两阶段提交
OBCP第五章 分布式事务高级技术-分布式两阶段提交
200 0
|
1月前
分布式事务的两阶段提交和三阶段提交分别有什么优缺点?
【9月更文挑战第9天】两阶段提交(2PC)和三阶段提交(3PC)是解决分布式系统事务一致性的机制。2PC实现简单,保证强一致性,但存在同步阻塞、单点故障和数据不一致风险。3PC通过引入超时机制减少阻塞时间,降低单点故障影响,但复杂性增加,仍可能数据不一致,并有额外性能开销。
|
2月前
|
SQL 自然语言处理 知识图谱
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
预训练模型STAR问题之在任务拆解阶段,TKK框架工作的问题如何解决
|
5月前
|
Linux
第一阶段复习总结——第二阶段复习提纲
在紧张的工作和出差中,我完成了第一阶段的复习,覆盖了所有预设内容,后期需要继续加强组网实战和学习阿里云的云速搭(CADT)工具。第二阶段复习计划从2024年3月21日至4月20日,时间延长以确保质量,将利用阿里云在线沙箱进行实践学习。
|
5月前
|
存储 Java 开发者
Python语言学习笔记-第一阶段
Python语言学习笔记-第一阶段
|
5月前
|
存储 算法 测试技术
科先巴的二阶段算法
科先巴的二阶段算法
122 0
|
分布式计算 算法 大数据
阶段练习_总结 | 学习笔记
快速学习 阶段练习_总结
阶段练习_总结 | 学习笔记
|
数据采集 消息中间件 监控
第六阶段总结| 学习笔记
快速学习第六阶段总结
第六阶段总结| 学习笔记
|
数据采集 消息中间件 大数据
第五阶段总结|学习笔记
快速学习第五阶段总结。
第五阶段总结|学习笔记
|
JSON 开发工具 数据格式
第一阶段开发遇到的问题
这个问题已经确定好了,就是虚拟机的网络出现了问题,好像是ip地址不一样什么的,重置一下虚拟机即可解决
109 0