开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段:爬虫识别-流程规则读取总结】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/673/detail/11693
爬虫识别-流程规则读取总结
目录:
一、流程描述
二、流程数据结构
三、实际效果
一、流程描述
爬虫识别过程中流程规则读取到程序,流程规则读取总结。
界面中有一个流程,可添加流程
实际上可以有多个
二、流程数据结构
一个流程中数据有八个规则、最终阈值、八个规则名字
第一个 sql 语句有流程 id、流程名字、最终阈值
if(n==0){ sql =“select itcast_process_info.id,itcast_process_info.p
rocess_name," +
"itcast_strategy.crawler_blacklist_thresholds from itcast_process_i
nfo,itcast_strategy "+"
where itcast_process_info.id=itcast_strategy.id and status=0"}
第二个 sql 语句读取 itcast_rule 所有数据以及
itcast_rule_mainte
nance_table 表的 rule_real_name,四张表关键数据已经被读取到 flowList
流程有自己相关信息,流程名称、时间、操作、人,八个规则是否选择信息,阈值,分数,最终阈值,rule_real_name 名字
只要拿到一个流程,流程相关的名称、id、规则是否选择、规则阈值、规则值多少分数、最终阈值、每个流程分别叫什么名字。流程中要什么数据拿什么数据。
三、实际效果
选中 NeedUpDateQueryCriticalPages 到redis 添加 key 给 False
是否流程需要更新 NeedUpDateflowList 新建添加给 False
跑程序不能看到效果只能加载,不报错就可以,跑之前将预处理数据跑起来,执行。爬虫跑起来,开始循环。
预处理没有数据出来,重启,不报错右键运行
预处理跑起来,爬虫识别跑起来。爬虫程序将数据加载进来但看不到效果,只要数据打出来不报错说明数据库加载数据没有问题,右键执行爬虫识别,输出 ProcessedDate 说明爬虫识别到目前为止没有问题。前面两个数据库读取已经做完,后面直接用。程序、爬虫停止。