爬虫识别-爬虫识别代码实现顺序介绍|学习笔记

简介: 快速学习爬虫识别-爬虫识别代码实现顺序介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段爬虫识别-爬虫识别代码实现顺序介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/673/detail/11694


爬虫识别-爬虫识别代码实现顺序介绍

 

目录:

一、计算爬虫识别需要的八个指标

二、爬虫识别

三、数据入库

 

前面数据封装成 processedData,读取了规则,计算相关页面、流程相关数据。

image.png

做爬虫识别有封装数据、规则

image.png

总流程中5-1数据读取完毕、5-2规则读取完毕,开始做爬虫识别,实现计算八个指标以及后续工作。

搭建整个代码块架构包括八个指标计算以及爬虫识别、数据入库过程

 

一、计算爬虫识别需要的八个指标

复制粘贴八个指标

//1按 IP 段聚合 - 5 分钟内的 IP 段(IP 前两位)访问量

//2按 IP 地址聚合-某个 IP,5 分钟内总访问量

//3按 IP 地址聚合-某个 IP,5 分钟内的关键页面访问总量

//4按 IP 地址聚合-某个 IP,5 分钟内的 UA 种类数统计

//5按 IP 地址聚合-某个 IP,5 分钟内查询不同行程的次数

//6按 IP 地址聚合-某个 IP,5 分钟内访问关键页面的 Cookie数

//7按 IP 地址聚合-某个 IP,5 分钟内的关键页面最短访问间隔

//8按 IP 地址聚合-某个 IP, 5 分钟内小于最短访问间隔(自设)的关键页面查询次数

分别计算出八个指标,计算完后做爬虫识别,指标碰撞计算出的八个与指标碰撞

 

二、爬虫识别

//1 指标碰撞

//2 最终打分

//3 爬虫判断(结论:是/不是)

 

三、数据入库

只关心爬虫数据,普通用户放行,将非爬虫数据过滤。可能有重复数据,对爬虫数据进行去重。

//数据入库

//1 过滤非爬虫数据(只保留爬虫数据)

//2 对爬虫数据进行去重操作

//3 数据入库(Redis)

总体流程数据入库,爬虫识别判断过程5-1读取数据,5-2读取规则在 Streaming 计算数据读取、指标数据封装、八个指标计算、爬虫识别、入库1和2。最后一步6数据入库到 Redis

具体代码按照哪些顺序做、分别做哪些事

image.png

相关文章
|
数据采集 开发者
如何编写有效的爬虫代码来避免网站的反爬虫机制?
如何编写有效的爬虫代码来避免网站的反爬虫机制?
333 1
|
数据采集 Python
【Python自动化】多线程BFS站点结构爬虫代码,支持中断恢复,带注释
【Python自动化】多线程BFS站点结构爬虫代码,支持中断恢复,带注释
128 0
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
1010 0
|
4天前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
3月前
|
数据采集 存储 数据库
Python爬虫开发:Cookie池与定期清除的代码实现
Python爬虫开发:Cookie池与定期清除的代码实现
|
3月前
|
数据采集 监控 网络协议
基于aiohttp的高并发爬虫实战:从原理到代码的完整指南
在数据驱动时代,传统同步爬虫效率低下,而基于Python的aiohttp库可构建高并发异步爬虫。本文通过实战案例解析aiohttp的核心组件与优化策略,包括信号量控制、连接池复用、异常处理等,并探讨代理集成、分布式架构及反爬应对方案,助你打造高性能、稳定可靠的网络爬虫系统。
233 0
|
数据采集 存储 JSON
推荐3款自动爬虫神器,再也不用手撸代码了
推荐3款自动爬虫神器,再也不用手撸代码了
973 4
|
数据采集 编解码
jupyter-notebook编写爬虫代码的时候cookie值自动转码的问题
jupyter-notebook编写爬虫代码的时候cookie值自动转码的问题
127 0
|
数据采集 人机交互 API
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
564 0
|
数据采集 存储 JavaScript
(2024)豆瓣电影TOP250爬虫详细讲解和代码
这是一个关于如何用Python爬取2024年豆瓣电影Top250的详细教程。教程涵盖了生成分页URL列表和解析页面以获取电影信息的函数。`getAllPageUrl()` 生成前10页的链接,而`getMoiveListByUrl()` 使用PyQuery解析HTML,提取电影标题、封面、评价数和评分。代码示例展示了测试这些函数的方法,输出包括电影详情的字典列表。
1017 3