开发者社区> 互联网编程> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

爬虫是什么 && 爬虫的种类

简介: 百度百科定义 网络爬虫又被称为网页蜘蛛。是一种按照一定的规则,自动地抓取信息的程序或者脚本。 分类: 通用网络爬虫(General Purpose Web Crawler)、 聚焦网络爬虫(Focused Web Crawler)、 增量式网络爬虫(Incremental Web Crawler)、 深层网络爬虫(Deep Web Crawler)。
+关注继续查看

百度百科定义
网络爬虫又被称为网页蜘蛛。是一种按照一定的规则,自动地抓取信息的程序或者脚本。

分类:
通用网络爬虫(General Purpose Web Crawler)、
聚焦网络爬虫(Focused Web Crawler)、
增量式网络爬虫(Incremental Web Crawler)、
深层网络爬虫(Deep Web Crawler)。

常用的爬行策略有:深度优先策略、广度优先策略

  1. 深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费

  2. 广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
三种分布式爬虫系统的架构方式
分布式爬虫系统广泛应用于大型爬虫项目中,力求以最高的效率完成任务,这也是分布式爬虫系统的意义所在。 分布式系统的核心在于通信,介绍三种分布式爬虫系统的架构思路,都是围绕通信开始,也就是说有多少分布式系统的通信方式就有多少分布式爬虫系统的架构思路。
3566 0
网络视频直播系统发展下半场,健康可持续发展成为主命题
“QQ浏览器大数据报告显示,由互联网所催生的各种新鲜职业中,毕业生最向往的新兴职业排行榜上,54%选择了主播/网红。而根据近日社交平台陌陌发布的《2018主播职业报告》显示,通过对超过万名网友5000多名主播的抽样问卷调查也发现,网络主播已经成为最受年轻人喜爱的职业之一。
1269 0
什么是网络爬虫,网络爬虫有什么用?
什么是网络爬虫,网络爬虫有什么用? 简单地说,就是把网页所展示数据通过非人工的手段获取下来。 现在是大数据时代,数据分析是解决各行各业相关问题重要的依据。数据分析结果的准确性有很大一部分取决于数据量是否足够大。
2766 0
Python网络爬虫之爬取百度贴吧网址并保存
通过urllib2+resquest爬虫百度贴吧网址,并保存至该工作目录下 一、示例代码 示例代码 代码解析: 1.首先定义一个baidu_tieba的函数:def baidu_tieba() 2.
771 0
网络爬虫的 “ 黑洞 ”
在遍历型的网络爬虫中。 参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html 网络爬虫在遍历抓取一张网页的链接时,会出现的情况。       1 .链接本身可能是一个无限循环,以至于白白的消耗资源。
943 0
《社交网站界面设计(原书第2版)》——1.3 所谓的原则、最佳实践和模式是什么
本节书摘来自华章计算机《社交网站界面设计(原书第2版)》一书中的第1章,第1.3节,作者:(美)克里斯蒂安·克鲁姆里什(Christian Crumlish),艾琳·马洛恩(Erin Malone)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
848 0
《Java程序员面试秘笈》—— 面试题1 简单描述Java开发包的种类
【面试题解析】随着Java语言的成长和壮大,Java的开发包根据用途的不同已经分为Java EE、Java SE和Java ME 3个开发包,求职者需要列出名称,并具体描述每个开发包的用途。
1760 0
网络爬虫-原理篇(一)
  引入:我们在百度首页输入关键字,百度一下,相关的内容就会立马呈现出来,这个动作的背后到底隐藏着哪些操作?   其实百度的核心搜索引擎就是一个大型的分布式网络爬虫程序。   什么是网络爬虫? 详见:   1.百度百科   2. 维基百科   网络爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。
1400 0
+关注
互联网编程
讲个笑话,我有50年的Java编程经验,哈哈哈
文章
问答
文章排行榜
最热
最新
相关电子书
更多
Python第五讲——关于爬虫如何做js逆向的思路
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载