备案控制台

开发者社区大数据文章正文

爬虫是什么 && 爬虫的种类

2017-12-07 1199

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百度百科定义网络爬虫又被称为网页蜘蛛。是一种按照一定的规则，自动地抓取信息的程序或者脚本。分类：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。

百度百科定义
网络爬虫又被称为网页蜘蛛。是一种按照一定的规则，自动地抓取信息的程序或者脚本。

分类：
通用网络爬虫（General Purpose Web Crawler）、
聚焦网络爬虫（Focused Web Crawler）、
增量式网络爬虫（Incremental Web Crawler）、
深层网络爬虫（Deep Web Crawler）。

常用的爬行策略有：深度优先策略、广度优先策略

深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费
广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面

文章标签：

数据采集

存储

关键词：

爬虫种类

互联网编程

目录

相关文章

阿里云社区

|

数据采集消息中间件大数据

爬虫识别-UA 种类统计-需求及实现思路|学习笔记

快速学习爬虫识别-UA 种类统计-需求及实现思路。

阿里云社区

365 0 1

爬虫识别-UA 种类统计-需求及实现思路|学习笔记

阿里云社区

|

数据采集分布式计算大数据

爬虫识别-UA 种类统计-代码实现及效果|学习笔记

快速学习爬虫识别-UA 种类统计-代码实现及效果。

阿里云社区

214 0 0

科技小能手

|

存储数据采集搜索推荐

爬虫的种类

科技小能手

1174 0 0

小白学大数据

|

8月前

|

数据采集测试技术 C++

无headers爬虫 vs 带headers爬虫：Python性能对比

无headers爬虫 vs 带headers爬虫：Python性能对比

小白学大数据

298 5 5

土木林森

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

552 6 6

winx_19970108018

|

8月前

|

数据采集存储监控

Python 原生爬虫教程：网络爬虫的基本概念和认知

网络爬虫是一种自动抓取互联网信息的程序，广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库（如 requests、BeautifulSoup、Scrapy）和简洁语法成为爬虫开发的首选语言。然而，在使用爬虫时需注意法律与道德问题，例如遵守 robots.txt 规则、控制请求频率以及合法使用数据，以确保爬虫技术健康有序发展。

winx_19970108018

1157 31 32

小白学大数据

|

7月前

|

数据采集存储 NoSQL

分布式爬虫去重：Python + Redis实现高效URL去重

分布式爬虫去重：Python + Redis实现高效URL去重

小白学大数据

380 4 5

python编程狮

|

机器学习/深度学习数据采集数据可视化

基于爬虫和机器学习的招聘数据分析与可视化系统，python django框架，前端bootstrap，机器学习有八种带有可视化大屏和后台

本文介绍了一个基于Python Django框架和Bootstrap前端技术，集成了机器学习算法和数据可视化的招聘数据分析与可视化系统，该系统通过爬虫技术获取职位信息，并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析，提供了一个直观的可视化大屏和后台管理系统，以优化招聘策略并提升决策质量。

python编程狮

857 4 5

东方睿赢

|

数据采集存储 JSON

从零到一构建网络爬虫帝国：HTTP协议+Python requests库深度解析

【7月更文挑战第31天】在网络数据的海洋中，使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流，收集信息。HTTP请求包括请求行、头和体，响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。

东方睿赢

256 4 4

小白学大数据

|

8月前

|

数据采集 XML 存储

Headers池技术在Python爬虫反反爬中的应用

Headers池技术在Python爬虫反反爬中的应用

小白学大数据

357 0 0

热门文章

最新文章

实战：Python爬虫如何模拟登录与维持会话状态

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

手把手教你搭建一个基于Java的分布式爬虫系统

Selenium爬虫Driver的选择

爬虫在金融领域的应用：股票数据收集

阿里云爬虫风险管理产品商业化，为云端流量保驾护航

python爬虫从入门到放弃（五）之正则的基本使用

python3 爬虫之爬取糗事百科

新浪明星日志推荐系统——爬虫爬取数据（2）

爬虫抓取网站有什么技巧，要如何避免错误代码？

Python高效爬虫——scrapy介绍与使用

Objective-C爬虫：实现动态网页内容的抓取

爬虫在金融领域的应用：股票数据收集

爬虫逆向操作

Python爬虫：BeautifulSoup

Python爬虫入门

使用gevent实现高并发爬虫

Buzz库网络爬虫实例：快速爬取百度搜索实时热点

在 Django 中设计爬虫系统的数据模型与多对多关系

爬虫技术升级：如何结合DrissionPage和Auth代理插件实现数据采集

相关课程

更多

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓