爬虫识别-过滤非爬虫数据总结| 学习笔记

简介: 快速学习爬虫识别-过滤非爬虫数据总结

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第六阶段爬虫识别-过滤非爬虫数据总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/674/detail/11726


爬虫识别-过滤非爬虫数据总结

思路与关键代码

1.设计

1)打分后的数据的 rdd 调用 filter 对数据进行过滤

2)添加此数据是否是爬虫的标记

3)遍历经过打分后的数据(已经得出结论:这个数据是爬虫/不是爬虫)(它很可能是多个值,因为 flowsScore Array 类型的)

4)遍历每一个经过计算的数据,获取出每个数据的 flowsScore,遍历 flowsScore 内的isUpLimited(true/flase)

5)若数据内的 isUpLimited (一个布尔类型的值)是 true ,那么表述这个数据是爬虫

将标记改为 true

6)若数据内的 isUpLimited false ,那么表述这个数据不是爬虫

标记不做任何改动(默认标记就是 false

2.代码

1)打分后的数据的 rdd 调用 filter 对数据进行过滤

Val allBlackDatas= antiCalculateResults.filter(message=>{

......

}  (省略掉的是一堆代码)

2)添加此数据是否是爬虫的标记

Var isspider=false

3)遍历经过打分后的数据(已经得出结论:这个数据是爬虫/不是爬虫)

4)遍历每一个经过计算的数据,获取出每个数据的 flowsScore,遍历flowsScore 内的 isUpLimited(true/flase)(本身就是布尔类型的值)

Val flowsScores= message.flowsScore

For(flowsScore<-flowsScores){

... ...

}

第三步和第四步是一起进行的。

5)若数据内的 isUpLimited true ,那么表述这个数据是爬虫

将标记改为 true (根据这个值去进行判断)

If (flowsScore.isUpLimited){

Isspider=true

}

6)若数据内的 isUpLimited false ,那么表述这个数据不是爬虫

标记不做任何改动(默认标记就是 false

无操作(默认标记就是 false

相关文章
|
29天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
2月前
|
数据采集 存储 XML
给你一个具体的网站,你会如何设计爬虫来抓取数据?
【2月更文挑战第23天】【2月更文挑战第75篇】给你一个具体的网站,你会如何设计爬虫来抓取数据?
|
2月前
|
数据采集 存储 XML
深入浅出:基于Python的网络数据爬虫开发指南
【2月更文挑战第23天】 在数字时代,数据已成为新的石油。企业和个人都寻求通过各种手段获取互联网上的宝贵信息。本文将深入探讨网络爬虫的构建与优化,一种自动化工具,用于从网页上抓取并提取大量数据。我们将重点介绍Python语言中的相关库和技术,以及如何高效、合法地收集网络数据。文章不仅为初学者提供入门指导,也为有经验的开发者提供进阶技巧,确保读者能够在遵守网络伦理和法规的前提下,充分利用网络数据资源。
|
3月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
2月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
91 0
|
22天前
|
数据采集 XML 数据挖掘
使用Python打造爬虫程序之HTML解析大揭秘:轻松提取网页数据
【4月更文挑战第19天】本文介绍了HTML解析在爬虫技术中的重要性,并通过Python的BeautifulSoup库展示了如何解析和提取数据。文章涵盖了HTML文档结构、使用BeautifulSoup的基本方法,如`find_all()`、选择器(标签、类、ID选择器)以及提取文本、属性和链接。此外,还讨论了遍历和处理嵌套元素的技巧。
|
2月前
|
数据采集 JavaScript 前端开发
给我举几个爬虫抓取数据时遇到错误的例子。
【2月更文挑战第23天】【2月更文挑战第76篇】给我举几个爬虫抓取数据时遇到错误的例子。
|
2月前
|
数据采集 Web App开发 文字识别
Python爬虫之点触验证码的识别
点触验证码识别思路,初始化,获取,识别。
74 0
Python爬虫之点触验证码的识别
|
2月前
|
数据采集 文字识别 开发者
Python爬虫之图形验证码的识别
python爬虫逆向图形验证码分析,处理和测试实战。
59 0
|
2月前
|
数据采集 存储 数据挖掘
Python爬虫实战:打造一个简单的新闻网站数据爬取工具
本文将介绍如何运用Python编写一个简单而高效的网络爬虫,帮助您在实际项目中快速获取并存储新闻网站的数据。通过学习本文,您将了解到如何利用Python中的第三方库和技术来实现数据爬取,为您的数据分析和应用提供更多可能性。