接下来,我们做一些关于python爬虫的总结。主要是针对不同的网站采用不同的爬虫方法,希望能给大家在Python爬虫上的一点点帮助。本期呢,我们先来分析一个“简单型”的网站如何爬取。这类网站一般都很简单,直接“右键-显示网页源代码”就能找到需要爬取的数据。比如像下面截图这个网站:
这个网站呢,右键-显示网页源代码
从中,我们发现这个网页源代码直接就告诉了我们需要爬取数据的地址,并且可以通过简单的构造可以完成相关数据网页的构造。另外,http://biaoqingbao.xin/wxbiaoqing/page/2,这个网址里自带翻页数据,简单的循环就可以实现网页的翻页。因此,这类网站的爬取是最简单的,同时,它基本上没有任何反爬虫机制,所以,我们直接用request,get到网页源码,使用正则表达式re或者bs4直接就可以把图片网址给爬取出来,叠加一个保存语句,搞定!具体爬虫参见以前的文章:骚年,来一套逗图好不好