爬虫识别-爬虫识别流程回顾|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习爬虫识别-爬虫识别流程回顾

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第五阶段爬虫识别-爬虫识别流程回顾】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/673/detail/11687


爬虫识别-爬虫识别流程回顾

 

内容介绍

一、 总体流程

二、 细化流程

 

一、 总体流程

目标就是了解流程有一个宏观的认识,知道是按照先后什么样的顺序来处理,第一个就是数据的读取和封装,然后第二步指标计算,第三步这个爬虫的识别,第四步数据入库,就按这四步走。首先读取数据,数据打入到 Kafka里面,从Kafka里面把它读出来,是一批一批读出来的,读出来后把它进行封装,封装成 process.d,这样就能后面用起来比较方便,然后去做指标计算,现在看是按顺序来的,其实顺序可以变,从详细流程中就可以知道,数据都是在一个批次中拿过来的,指标计算里的八个是没有先后顺序的,但总的四步是有先后顺序的,把八个计算出来以后,就进入到爬识别,根据数据计算出来的结果,碰撞是要把数据计算的结果与企业里面,针对这八个结果会有八个阈值,将数据和阈值进行匹配,匹配以后呢,得到一个结果,然后去打分,算法会给我一个分数,再用这个分数去爬虫判断,数据计算出来的分数和企业里面有一个最终的预知的分数,进行对比,判断它到底是不是爬虫,得到这个结论,即是不是爬虫,就将不是爬虫的数据过滤掉,只保留纯爬虫数据,爬虫数据有可能是重复的,把它做个去重,最后写入 Redis

image.png

 

二、细化流程

1、计算每批数据的八种指标,数据都是在每一个批次封装后进行计算,计算完毕后将结果映射成 Map,我们要的是IP 和它的量,要的是8个 map,然后再拿到每条数据再提取

 image.png

2、再取出每个批次中的每条数据内的 IP,到八个结果集里面(ip和值),用ip作为k去把值取出来,再计算后的八个结果集中提取出 IP 对应的值

 image.png

3、将数据计算的八个结果值与企业配置的八个结果阈值及逆行碰撞,其结果有两个,计算出一个与选定与否无关的结果集,和一个必须是选的,并且是超出阈值的集合,超过阈值就取分数 

4、将两个集合发送给打分算法,打分算法自动会返回一个最终的分数,这个分数就是对比是不是爬虫的根据

image.png

5、用计算后的分数与系统设置的最终阈值进行对比,若计算的得分大于最终阈值,表示这个数据是爬虫数据,返回 Ture。若计算的得分小于最终阈值,表示这个数据不是爬虫数据,返回 False,知道是不是爬虫后,把 False 的过滤掉,只保留 Ture 的。

 image.png

6、确定哪些数据是爬虫,哪些数据不是爬虫后,过滤掉不是爬虫的数,只保留爬虫数据。再对爬虫数据进行去重,去重后将数据写入 Redis

image.png 

后续工作都按这个流程来做。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
0
0
0
127
分享
相关文章
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
575 0
Python爬虫与数据可视化:构建完整的数据采集与分析流程
Python爬虫与数据可视化:构建完整的数据采集与分析流程
Python爬虫之点触验证码的识别
点触验证码识别思路,初始化,获取,识别。
276 0
Python爬虫之点触验证码的识别
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
453 0
Python爬虫之图形验证码的识别
python爬虫逆向图形验证码分析,处理和测试实战。
210 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等