本期,我们继续总结python爬虫的相关策略,这次分析的网站,我定义为“中等型”,难度系数稍高。可能用到的ajax、json相关知识,比如我们爬取百度图片(Python:批量下载百度图片)过程中需要以下操作:
1.找到封装网址的json数据
我们搜索一个关键词“人工智能“,右键在network里找到xhr选项,随便滑动鼠标向下翻页,发现左侧的Name里接连出现json相关选项。
2.认真分析Request URL地址对比几个acjson网址看看,我们发现:
滑动鼠标变动的参数是fn、gsm两个参数,而重点变化的参数是fn这个选项,就是这个选项在控制着ajax滚动翻页。因此,我们可以用循环来构造相应数据实现翻页,gsm这个参数是时间数据,一般情况下可以忽略。3.看看json里封装的是什么?
刚才我们看了以下Headers里的东西,下面我们随便点开一个acjson的Preview看看:
里面的data是啥?
呜啦啦一堆数据,点开个“0”看看,里面一堆选项,再细看看,发现标题不就是'fromPageTitleEnc'吗?图片地址就是‘fromURL’吗?
需要爬取的数据都找到啦😄😄😄
4.开始爬取数据了
不再详细介绍,就是用到request、json等基本爬虫工具,具体代码在Python:批量下载百度图片。
通过这篇文章,大家掌握“中等型”网站的爬虫方法了吗?