【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题-阿里云开发者社区

【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

2022-06-13 186

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

大家好，我是石璞东。

我们来记录一个今天遇到的小问题：当我们想要通过爬虫程序获取百度图片、今日头条中的今日街拍中的图片的时候，我们发现请求的url地址有点麻烦，请看具体分析：

百度图片

我们在百度图片搜索框中输入关键词郑合惠子，然后打开浏览器开发者工具，选中Network选项卡，并勾选XHR复选框，我们重新刷新页面，查看网页的请求情况，请看截图：
在这里插入图片描述
我们发现Request URL的值好复杂，其实不然，我们把这个值单独截图出来，方便大家看：

接着，我们在开发者工具中滑到最底部，找到Query String Parameters字段，部分截图内容如下所示：

经过比对我们发现，其实Request URL所携带的参数中只有最后一个参数是变化的，其余参数都是固定的。

今日头条今日街拍

我们再来看一下今日头条今日街拍的情况，请看截图：
在这里插入图片描述
我们在搜索框中搜索关键词三里屯街拍，并按照百度图片的分析思路打开选项卡，找到加载的ajax文件并查看其Request URL以及
Query String Parameters，截图如下所示：

经过比对我们发现，今日街拍中的Request URL除了timestamp参数其余参数均是固定值，细心的小伙伴一定发现了，不管是在百度图片中还是在今日头条中，如果想要解决请求url中的麻烦，就是要解决那一串莫名其妙的13位数字，那这个数字到底是什么呢？

我们来打开一个工具：Unix时间戳(Unix timestamp)转换工具，我们输入对应的timestamp值发现其就是一个时间戳：
在这里插入图片描述

讲到这里了，小伙伴是不是恍然大悟了，我们在构造请求参数的时候加上时间戳不就行了，请看代码：

params = {
    "aid": "24",
    "app_name": "web_search",
    "offset": offset,
    "format": "json",
    "keyword": "街拍三里屯",
    "autoload": "true",
    "count": "20",
    "en_qc": 1,
    "cur_tab": 1,
    "from":"search_tab",
    "pd": "synthesis",
    "timestamp": round(time.time() * 1000),
    "_signature": "_02B4Z6wo00d014rd1mwAAIBDbSacgo6ow.eK2NLAAL17CtjAAP6o0xqnePBdF99y.hRaxZHZHSidb6myPI295UEM3v3-JohYrauBsypltSq0MEELINnpaRIYPo4e7tHeKNxhyChIFLUm9wPl41"
}

解决了请求参数的问题，我们来跑一下程序，看看能不能获取到关于三里屯街拍的一些图片信息：
在这里插入图片描述

我们发现程序正常运行了，等待程序跑完，我们来看一看最终跑下来的成果，请看截图：
在这里插入图片描述

没有问题，程序运行正常。

写在最后

为方便读者了解更为详细的信息，我为小伙伴们提供了三个我的官方渠道：

hahaCoder（微信公众号）
hahaAI（微信小程序）
hahaWebsite. （个人网站）

【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

写在最后

热门文章

最新文章

相关课程

相关电子书

相关实验场景