爬虫识别-流程规则读取总结|学习笔记

简介: 快速学习爬虫识别-流程规则读取总结

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段爬虫识别-流程规则读取总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/673/detail/11693


爬虫识别-流程规则读取总结

 

目录:

一、流程描述

二、流程数据结构

三、实际效果

 

一、流程描述

爬虫识别过程中流程规则读取到程序,流程规则读取总结。

界面中有一个流程,可添加流程

image.png 

实际上可以有多个

image.png


二、流程数据结构

一个流程中数据有八个规则、最终阈值、八个规则名字

第一个 sql 语句有流程 id、流程名字、最终阈值

if(n==0){ sql =“select itcast_process_info.id,itcast_process_info.p

rocess_name," +

"itcast_strategy.crawler_blacklist_thresholds from itcast_process_i

nfo,itcast_strategy "+"

where itcast_process_info.id=itcast_strategy.id and status=0"}

第二个 sql 语句读取 itcast_rule 所有数据以及

itcast_rule_mainte

image.png

nance_table 表的 rule_real_name,四张表关键数据已经被读取到 flowList

流程有自己相关信息,流程名称、时间、操作、人,八个规则是否选择信息,阈值,分数,最终阈值,rule_real_name 名字

image.png

只要拿到一个流程,流程相关的名称、id、规则是否选择、规则阈值、规则值多少分数、最终阈值、每个流程分别叫什么名字。流程中要什么数据拿什么数据。

 

三、实际效果

选中 NeedUpDateQueryCriticalPages 到redis 添加 key 给 False

image.png

是否流程需要更新 NeedUpDateflowList 新建添加给 False

 image.png

跑程序不能看到效果只能加载,不报错就可以,跑之前将预处理数据跑起来,执行。爬虫跑起来,开始循环。

预处理没有数据出来,重启,不报错右键运行

image.png 

预处理跑起来,爬虫识别跑起来。爬虫程序将数据加载进来但看不到效果,只要数据打出来不报错说明数据库加载数据没有问题,右键执行爬虫识别,输出 ProcessedDate 说明爬虫识别到目前为止没有问题。前面两个数据库读取已经做完,后面直接用。程序、爬虫停止。

相关文章
|
6月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
404 0
|
4月前
|
数据采集 存储 自然语言处理
Python爬虫与数据可视化:构建完整的数据采集与分析流程
Python爬虫与数据可视化:构建完整的数据采集与分析流程
|
6月前
|
数据采集 Web App开发 文字识别
Python爬虫之点触验证码的识别
点触验证码识别思路,初始化,获取,识别。
182 0
Python爬虫之点触验证码的识别
|
6月前
|
数据采集 文字识别 开发者
Python爬虫之图形验证码的识别
python爬虫逆向图形验证码分析,处理和测试实战。
144 0
|
数据采集 人机交互 API
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
404 0
|
数据采集 SQL 消息中间件
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
快速学习数据预处理-历史爬虫判断-实现代码及效果
142 0
数据预处理-历史爬虫判断-实现代码及效果|学习笔记
|
数据采集 监控 前端开发
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
快速学习数据预处理-历史爬虫判断-需求与实现思路
130 0
数据预处理-历史爬虫判断-需求与实现思路|学习笔记
|
数据采集 算法 大数据
爬虫识别-总结及效果| 学习笔记
快速学习爬虫识别-总结及效果
爬虫识别-总结及效果| 学习笔记
|
数据采集 存储 消息中间件
爬虫识别-准备离线计算数据| 学习笔记
快速学习爬虫识别-准备离线计算数据
爬虫识别-准备离线计算数据| 学习笔记
|
数据采集 大数据 数据库
爬虫识别-指标碰撞-准备数据代码实现| 学习笔记
快速学习爬虫识别-指标碰撞-准备数据代码实现
爬虫识别-指标碰撞-准备数据代码实现| 学习笔记
下一篇
无影云桌面