爬虫识别-流程规则读取总结|学习笔记-阿里云开发者社区

爬虫识别-流程规则读取总结|学习笔记

2022-11-21 224

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习爬虫识别-流程规则读取总结

开发者学堂课程【大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop 框架搭建）第五阶段：爬虫识别-流程规则读取总结】学习笔记，与课程紧密联系，让用户快速学习知识。

一、流程描述

二、流程数据结构

三、实际效果

爬虫识别过程中流程规则读取到程序，流程规则读取总结。

界面中有一个流程，可添加流程

实际上可以有多个

一个流程中数据有八个规则、最终阈值、八个规则名字

第一个 sql 语句有流程 id、流程名字、最终阈值

if(n==0){ sql =“select itcast_process_info.id,itcast_process_info.p

rocess_name," +

"itcast_strategy.crawler_blacklist_thresholds from itcast_process_i

nfo,itcast_strategy "+"

where itcast_process_info.id=itcast_strategy.id and status=0"}

第二个 sql 语句读取 itcast_rule 所有数据以及

itcast_rule_mainte

nance_table 表的 rule_real_name，四张表关键数据已经被读取到 flowList

流程有自己相关信息，流程名称、时间、操作、人，八个规则是否选择信息，阈值，分数，最终阈值，rule_real_name 名字

只要拿到一个流程，流程相关的名称、id、规则是否选择、规则阈值、规则值多少分数、最终阈值、每个流程分别叫什么名字。流程中要什么数据拿什么数据。

选中 NeedUpDateQueryCriticalPages 到redis 添加 key 给 False

是否流程需要更新 NeedUpDateflowList 新建添加给 False

跑程序不能看到效果只能加载，不报错就可以，跑之前将预处理数据跑起来，执行。爬虫跑起来，开始循环。

预处理没有数据出来，重启，不报错右键运行

预处理跑起来，爬虫识别跑起来。爬虫程序将数据加载进来但看不到效果，只要数据打出来不报错说明数据库加载数据没有问题，右键执行爬虫识别，输出 ProcessedDate 说明爬虫识别到目前为止没有问题。前面两个数据库读取已经做完，后面直接用。程序、爬虫停止。