python 爬虫分类和 robots 协议 | 学习笔记

简介: 快速学习 python 爬虫分类和 robots 协议

开发者学堂课程【Python爬虫实战python 爬虫分类和 robots 协议 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/555/detail/7640


python 爬虫分类和  robots  协议

内容介绍:

一、概述

二、爬虫分类

三、Robots  协议

一、概述

爬虫,应该称为网络爬虫,也叫网页蜘蛛、网络机器人、网络蚂蚁等。

搜索引擎,就是网络爬虫的应用者。

为什么到了今天,反而这个词汇被频繁的提起呢?有搜索引擎不就够了吗?

实际上,大数据时代的到了,所有的企业都希望通过海量数据发现其中的价值。

所以,需要爬取对特定网站、特定类别的数据,而搜索引擎不能提供这样的功能,因此,需要自己开发爬虫来解决。

二、爬虫分类

通用爬虫

常见就是搜索引擎,无差别的收集数据、存储,提取关键字,构建索引库,给用户提供搜索接口。

爬取一般流程

1.初始一批  URL ,将这些 URL 放到待爬取队列

2.从队列取出这些 URL  ,通过 DNS 解析 IP ,对 IP 对应的站点下载 HTML 页面,保存到本地服务器中,爬取完的 URL 放到已爬取队列。

3.分析这些网页内容,找出网页里面的其他关心的 URL  链接,继续执行第2步,直到爬取条件结束。

搜索引擎如何获取一个新网站的 URL

●新网站主动提交给搜索引擎

●通过其它网站页面中设置的外链

●搜索引擎和 DNS 服务商合作,获取最新收录的网站

聚焦爬虫

有针对性的编写特定领域数据的爬取程序,针对某些类别数据采集的爬虫,是面向主题的爬虫

三、Robots  协议

指定一个rqbots.txt文件,告诉爬虫引擎什么可以爬取。

淘宝http://www.taobao.com/robots.txt

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Allow: /ershou

Disallow: /product/

Disallow: /

User-Agent: Googlebot

Allow: /article

Allow: /oshtml

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Allow: /ershou

Disallow: /

User-agent: Bingbot

Allow: /article

Allow: /oshtml

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Allow:/ershou

Disallow: /

User-Agent: Yahoo! SlurpAllow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Allow:/ershou

Disallow:/

User-Agent:

Disallow: /

User-Agent: Yahoo! Slurp

Allow: /product

Allow: /spu

Allow: /dianpu

Allow: /oversea

Allow: /list

Allow: /ershou

Disallow: /

user-Agent:

Disallow:

马蜂窝 http://www.mafengwo.cn/robots.txt

User-agent:

Disallow:/music/

Disallow:/travel-photos-albums/

Disallow:/lushu/

Disallow:/hc/

Disallow:/hb/

Disallow:/insure/show.php

Disallow:/myvisa/index.php

Disallow:/booking/discount_booking.php

Disallow:/secrect/

Disallow:/gonglve/visa.php

Disallow:/gonglve/visa_info.php

Disallow:/gonglve/visa_case.php

Disallow:/gonglve/visa_seat.php

Disallow:/gonglve/visa_readme.php

Disallow:/gonglve/insure.php

Disallow:/gonglve/insurer.php

其它爬虫,不允许爬取

User-Agent:★

Disallow:/

这是一个君子协定,“爬亦有道”

这个协议为了让搜索引擎更有效率搜索自己内容,提供了如 Sitemap  这样的文件。

这个文件禁止抓取的往往又是可能我们感兴趣的内容,它反而泄露了这些地址。

目录
打赏
0
0
0
0
42
分享
相关文章
|
3月前
|
【02】优雅草央央逆向技术篇之逆向接口协议篇-以小红书为例-python逆向小红书将用户名转换获得为uid-优雅草央千澈
【02】优雅草央央逆向技术篇之逆向接口协议篇-以小红书为例-python逆向小红书将用户名转换获得为uid-优雅草央千澈
193 1
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
246 6
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
本文介绍了PyAV库,它是FFmpeg的Python绑定,提供了底层库的全部功能和控制。文章详细讲解了PyAV的安装过程,包括在Windows、Linux和ARM平台上的安装步骤,以及安装中可能遇到的错误和解决方法。此外,还解释了时间戳的概念,包括RTP、NTP、PTS和DTS,并提供了Python代码示例,展示如何获取RTSP流中的各种时间戳。最后,文章还提供了一些附录,包括Python通过NTP同步获取时间的方法和使用PyAV访问网络视频流的技巧。
1126 4
PyAV学习笔记(一):PyAV简介、安装、基础操作、python获取RTSP(海康)的各种时间戳(rtp、dts、pts)
|
6月前
|
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
245 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
本文介绍了如何使用Python的socket模块实现客户端到服务器端的文件传输,包括客户端发送文件信息和内容,服务器端接收并保存文件的完整过程。
301 1
Socket学习笔记(一):python通过socket实现客户端到服务器端的文件传输
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
210 4
Mysql学习笔记(四):Python与Mysql交互--实现增删改查
如何使用Python与MySQL数据库进行交互,实现增删改查等基本操作的教程。
107 1
Ubuntu学习笔记(六):ubuntu切换Anaconda和系统自带Python
本文介绍了在Ubuntu系统中切换Anaconda和系统自带Python的方法。方法1涉及编辑~/.bashrc和/etc/profile文件,更新Anaconda的路径。方法2提供了详细的步骤指导,帮助用户在Anaconda和系统自带Python之间进行切换。
276 1