备案控制台

开发者社区大数据文章正文

爬虫的种类

2017-11-12 1174

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

通用爬虫：搜索引擎用的爬虫系统
目标：尽可能的互联网上所有的网页下载下来，放到本地形成备份，
再对这些网页进行相关处理(提取关键字，去除广告)，最后提供一个
用户可用的接口。
抓取流程：
1.首先取一部分已有的URL，把这些URL放到待爬取队列。
2.从队列里取出这些URL,然后通过DNS得到主机IP,然后去这个IP服务器
里下载HTML信息,然后把这些信息放到本地服务器,之后把这个爬过的URL
放入已爬取队列中.
3.分析这些网页内容,找出网页中其它URL连接,继续执行第二步,直到没有
其它URL连接.
搜索引擎是如何获取一个新网站的URL的:
1.主动向搜索引擎提交网址
2.在其它网站设置网站的外链
3.搜索引擎会和DNS服务商进行合作,可以快速收录新的网址
通用爬虫并不是万物皆可爬的,它也需要遵守规则:
Robots协议: https://www.taobao.com/robots.txt(可以查看协议内容 )
一般只有大型的搜索引擎才会遵守产.
通用爬虫工作流程:
抓取网页--存储数据--内容处理--提供检索--排名服务
搜索排名:
1.PageRank值:根据网站流量,网站流量越高,排名越靠前.
2.竞价排名:给钱多的排名靠前.
通用爬虫的缺点:
只能提供和文本相关的内容,不提供多媒体文件爬取.
提供的结果千篇一律(正在改进中.....)

为了解决这个问题,聚焦爬虫出现了.

本文转自技术花妞妞 51CTO博客，原文链接:http://blog.51cto.com/xiaogongju/2061742

文章标签：

存储

数据采集

搜索推荐

网络协议

关键词：

爬虫种类

科技小能手

目录

相关文章

阿里云社区

|

数据采集消息中间件大数据

爬虫识别-UA 种类统计-需求及实现思路|学习笔记

快速学习爬虫识别-UA 种类统计-需求及实现思路。

阿里云社区

365 0 1

爬虫识别-UA 种类统计-需求及实现思路|学习笔记

阿里云社区

|

数据采集分布式计算大数据

爬虫识别-UA 种类统计-代码实现及效果|学习笔记

快速学习爬虫识别-UA 种类统计-代码实现及效果。

阿里云社区

214 0 0

互联网编程

|

存储数据采集

爬虫是什么 && 爬虫的种类

百度百科定义网络爬虫又被称为网页蜘蛛。是一种按照一定的规则，自动地抓取信息的程序或者脚本。分类：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。

互联网编程

1198 0 0

小白学大数据

|

8月前

|

数据采集测试技术 C++

无headers爬虫 vs 带headers爬虫：Python性能对比

无headers爬虫 vs 带headers爬虫：Python性能对比

小白学大数据

298 5 5

土木林森

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

552 6 6

winx_19970108018

|

8月前

|

数据采集存储监控

Python 原生爬虫教程：网络爬虫的基本概念和认知

网络爬虫是一种自动抓取互联网信息的程序，广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库（如 requests、BeautifulSoup、Scrapy）和简洁语法成为爬虫开发的首选语言。然而，在使用爬虫时需注意法律与道德问题，例如遵守 robots.txt 规则、控制请求频率以及合法使用数据，以确保爬虫技术健康有序发展。

winx_19970108018

1157 31 32

小白学大数据

|

7月前

|

数据采集存储 NoSQL

分布式爬虫去重：Python + Redis实现高效URL去重

分布式爬虫去重：Python + Redis实现高效URL去重

小白学大数据

380 4 5

python编程狮

|

机器学习/深度学习数据采集数据可视化

基于爬虫和机器学习的招聘数据分析与可视化系统，python django框架，前端bootstrap，机器学习有八种带有可视化大屏和后台

本文介绍了一个基于Python Django框架和Bootstrap前端技术，集成了机器学习算法和数据可视化的招聘数据分析与可视化系统，该系统通过爬虫技术获取职位信息，并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析，提供了一个直观的可视化大屏和后台管理系统，以优化招聘策略并提升决策质量。

python编程狮

857 4 5

东方睿赢

|

数据采集存储 JSON

从零到一构建网络爬虫帝国：HTTP协议+Python requests库深度解析

【7月更文挑战第31天】在网络数据的海洋中，使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流，收集信息。HTTP请求包括请求行、头和体，响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。

东方睿赢

256 4 4

小白学大数据

|

8月前

|

数据采集 XML 存储

Headers池技术在Python爬虫反反爬中的应用

Headers池技术在Python爬虫反反爬中的应用

小白学大数据

357 0 0

热门文章

最新文章

实战：Python爬虫如何模拟登录与维持会话状态

Prompt 工程实战：如何让 AI 生成高质量的 aiohttp 异步爬虫代码

手把手教你搭建一个基于Java的分布式爬虫系统

Selenium爬虫Driver的选择

爬虫在金融领域的应用：股票数据收集

阿里云爬虫风险管理产品商业化，为云端流量保驾护航

python爬虫从入门到放弃（五）之正则的基本使用

python3 爬虫之爬取糗事百科

新浪明星日志推荐系统——爬虫爬取数据（2）

爬虫抓取网站有什么技巧，要如何避免错误代码？

Python高效爬虫——scrapy介绍与使用

Objective-C爬虫：实现动态网页内容的抓取

爬虫在金融领域的应用：股票数据收集

爬虫逆向操作

Python爬虫：BeautifulSoup

Python爬虫入门

使用gevent实现高并发爬虫

Buzz库网络爬虫实例：快速爬取百度搜索实时热点

在 Django 中设计爬虫系统的数据模型与多对多关系

爬虫技术升级：如何结合DrissionPage和Auth代理插件实现数据采集

相关课程

更多

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Python第五讲——关于爬虫如何做js逆向的思路

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓