【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

简介: 【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

大家好,我是石璞东。

我们来记录一个今天遇到的小问题:当我们想要通过爬虫程序获取百度图片、今日头条中的今日街拍中的图片的时候,我们发现请求的url地址有点麻烦,请看具体分析:

  • 百度图片

我们在百度图片搜索框中输入关键词郑合惠子,然后打开浏览器开发者工具,选中Network选项卡,并勾选XHR复选框,我们重新刷新页面,查看网页的请求情况,请看截图:
在这里插入图片描述
我们发现Request URL的值好复杂,其实不然,我们把这个值单独截图出来,方便大家看:
在这里插入图片描述
接着,我们在开发者工具中滑到最底部,找到Query String Parameters字段,部分截图内容如下所示:
在这里插入图片描述
经过比对我们发现,其实Request URL所携带的参数中只有最后一个参数是变化的,其余参数都是固定的。

  • 今日头条今日街拍

我们再来看一下今日头条今日街拍的情况,请看截图:
在这里插入图片描述
我们在搜索框中搜索关键词三里屯街拍,并按照百度图片的分析思路打开选项卡,找到加载的ajax文件并查看其Request URL以及
Query String Parameters,截图如下所示:
在这里插入图片描述
在这里插入图片描述

经过比对我们发现,今日街拍中的Request URL除了timestamp参数其余参数均是固定值,细心的小伙伴一定发现了,不管是在百度图片中还是在今日头条中,如果想要解决请求url中的麻烦,就是要解决那一串莫名其妙的13位数字,那这个数字到底是什么呢?

我们来打开一个工具:Unix时间戳(Unix timestamp)转换工具,我们输入对应的timestamp值发现其就是一个时间戳:
在这里插入图片描述

讲到这里了,小伙伴是不是恍然大悟了,我们在构造请求参数的时候加上时间戳不就行了,请看代码:

params = {
    "aid": "24",
    "app_name": "web_search",
    "offset": offset,
    "format": "json",
    "keyword": "街拍三里屯",
    "autoload": "true",
    "count": "20",
    "en_qc": 1,
    "cur_tab": 1,
    "from":"search_tab",
    "pd": "synthesis",
    "timestamp": round(time.time() * 1000),
    "_signature": "_02B4Z6wo00d014rd1mwAAIBDbSacgo6ow.eK2NLAAL17CtjAAP6o0xqnePBdF99y.hRaxZHZHSidb6myPI295UEM3v3-JohYrauBsypltSq0MEELINnpaRIYPo4e7tHeKNxhyChIFLUm9wPl41"
}

解决了请求参数的问题,我们来跑一下程序,看看能不能获取到关于三里屯街拍的一些图片信息:
在这里插入图片描述

我们发现程序正常运行了,等待程序跑完,我们来看一看最终跑下来的成果,请看截图:
在这里插入图片描述

没有问题,程序运行正常。

写在最后

为方便读者了解更为详细的信息,我为小伙伴们提供了三个我的官方渠道:

  • hahaCoder(微信公众号)
  • hahaAI(微信小程序)
  • hahaWebsite. (个人网站)
相关文章
|
2月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
75 0
|
2月前
|
数据采集 JavaScript 前端开发
实用工具推荐:适用于 TypeScript 网络爬取的常用爬虫框架与库
实用工具推荐:适用于 TypeScript 网络爬取的常用爬虫框架与库
|
2月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
97 0
|
5天前
|
数据采集 Web App开发 Java
Python 爬虫:Spring Boot 反爬虫的成功案例
Python 爬虫:Spring Boot 反爬虫的成功案例
|
19天前
|
数据采集 存储 人工智能
【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装
【AI大模型应用开发】【LangChain系列】实战案例2:通过URL加载网页内容 - LangChain对爬虫功能的封装
31 0
|
23天前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
1月前
|
数据采集 C# 数据安全/隐私保护
掌握 C# 爬虫技术:使用 HttpClient 获取今日头条内容
本文介绍了如何使用C#的HttpClient与爬虫代理IP技术抓取今日头条内容,以实现高效的数据采集。通过结合亿牛云爬虫代理,可以绕过IP限制,增强匿名性。文中提供了一个代码示例,展示如何设置代理服务器信息、请求头,并用正则表达式提取热点新闻标题。利用多线程技术,能提升爬虫采集效率,为市场分析等应用提供支持。
掌握 C# 爬虫技术:使用 HttpClient 获取今日头条内容
|
2月前
|
数据采集 存储 Rust
Rust高级爬虫:如何利用Rust抓取精美图片
Rust高级爬虫:如何利用Rust抓取精美图片
|
2月前
|
数据采集 存储 安全
python爬虫之app爬取-mitmproxy 的使用
mitmproxy抓包原理,设置代理,MitmDump运用,mitmproxy使用。
46 0
|
15天前
|
数据采集 XML 数据处理
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页内容并进行简单的数据处理。通过学习本文,读者将了解Web爬虫的基本原理和Python爬虫库的使用方法。