网络爬虫的 “ 黑洞 ”

简介: 在遍历型的网络爬虫中。 参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html 网络爬虫在遍历抓取一张网页的链接时,会出现的情况。       1 .链接本身可能是一个无限循环,以至于白白的消耗资源。

在遍历型的网络爬虫中。

参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html

网络爬虫在遍历抓取一张网页的链接时,会出现的情况。
       1 .链接本身可能是一个无限循环,以至于白白的消耗资源。

   2 .看似不同的链接却指向同一个网页。(动态网页)

  例如,一个爬虫来到了一个网站,被指定了一个SessionId,然后嵌入这个ID,爬虫开始在该网站爬取所有页面。另一个爬虫也来到了这个网站,得到了一个全新的SessionId,网站服务器不能探测到这是同源的爬虫,并不知道之前它已经来过。就导致了页面多次索引,浪费了资源。

  那么如何避免此类情况呢?

  :最容易死循环和多次陷入的页面往往是动态页面。

  怎么识别动态网页呢?

       :看URL中是否出现问号,含有问号的就是动态网页,它们的指向往往相同,但是URL中带有一些无关参数,例如时间(在线日历),网络信息,对于此类链接,应当做适合的截取。

  

  很多商业搜索引擎都在避免这些带问号的URL,因为这类URL可能会导致爬虫陷入。(谷歌似乎有合适的解决方案)

附注:其他可参考的方法 

      1 . 限制爬取深度

  2 . Visited表。

  3 . 主题爬虫 : 对特定内容的网页爬取(新闻,音乐等) 。

  4 . 限定爬虫 : 对爬取目标主机限定。

目录
相关文章
|
3月前
|
数据采集 搜索推荐 数据处理
探索数据的无尽可能性:网络爬虫与数据抓取技术
本文将深入探讨网络爬虫与数据抓取技术的重要性和应用,介绍其在信息收集、市场分析、学术研究等领域的广泛应用。我们将探索这一技术的原理、挑战和发展前景,并展望未来数据抓取技术的潜力。
58 0
|
3月前
|
数据采集 机器学习/深度学习 安全
如何有效防爬虫?一文讲解反爬虫策略
如何有效防爬虫?一文讲解反爬虫策略
101 0
|
9月前
|
安全 网络安全 数据安全/隐私保护
通俗易懂的告诉你什么是DDoS攻击?
本文通过一系列漫画图片给大家做了生动的演示
83 0
通俗易懂的告诉你什么是DDoS攻击?
|
11月前
|
数据采集 数据挖掘 大数据
应对反爬之前先懂什么是网站反爬
什么是网站反爬,应对反爬有哪些解决措施
|
数据采集 机器人 应用服务中间件
恶意爬虫?能让恶意爬虫遁于无形的小Tips
验证码是阻挡机器人攻击的有效实践,网络爬虫,又被称为网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本。如何防控,这里简单提供几个小Tips。
恶意爬虫?能让恶意爬虫遁于无形的小Tips
|
搜索推荐 JavaScript 前端开发
网络优化中怎么减轻蜘蛛的抓取?
还在等什么,快来一起讨论关注吧,公众号【八点半技术站】,欢迎加入社群
|
存储 运维 监控
一篇文章带你遨游网络流量分析
无论是大数据、人工智能、云计算还是物联网、工业互联网,这些技术的快速发展都离不开网络。不断涌现的新技术在重塑业务应用的同时,也带来了网络流量的爆炸性增长。面对越来越多的线上业务,网络、应用与数据的安全暴露面也越来越大,且相互交错。如何保障网络高效、稳定、安全运行?如何使用流量分析来解决这些问题,这篇文章带你了解。
|
数据采集 自然语言处理 前端开发
Python爬虫:网络信息爬取与处理知识梳理
Python爬虫:网络信息爬取与处理知识梳理
174 0
|
数据采集 搜索推荐 算法
反爬虫的重点:识别爬虫
我们在网站运营的时候,最大的问题就是:我们自己花费几个小时甚至是几天辛辛苦苦创作作的内容,被爬虫只需要 1s 就抓去了。为了保卫我们创作的成果,也为了网站的稳定运行,我们需要对爬虫说:No,我们在反爬虫的过程中最重要的就是如何识别爬虫。
391 0
反爬虫的重点:识别爬虫
|
搜索推荐 安全 SEO
蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?
蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?
277 0