【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

简介: 【重写爬虫案例】百度图片、今日头条今日街拍爬取图片中遇到的问题

大家好,我是石璞东。

我们来记录一个今天遇到的小问题:当我们想要通过爬虫程序获取百度图片、今日头条中的今日街拍中的图片的时候,我们发现请求的url地址有点麻烦,请看具体分析:

  • 百度图片

我们在百度图片搜索框中输入关键词郑合惠子,然后打开浏览器开发者工具,选中Network选项卡,并勾选XHR复选框,我们重新刷新页面,查看网页的请求情况,请看截图:
在这里插入图片描述
我们发现Request URL的值好复杂,其实不然,我们把这个值单独截图出来,方便大家看:
在这里插入图片描述
接着,我们在开发者工具中滑到最底部,找到Query String Parameters字段,部分截图内容如下所示:
在这里插入图片描述
经过比对我们发现,其实Request URL所携带的参数中只有最后一个参数是变化的,其余参数都是固定的。

  • 今日头条今日街拍

我们再来看一下今日头条今日街拍的情况,请看截图:
在这里插入图片描述
我们在搜索框中搜索关键词三里屯街拍,并按照百度图片的分析思路打开选项卡,找到加载的ajax文件并查看其Request URL以及
Query String Parameters,截图如下所示:
在这里插入图片描述
在这里插入图片描述

经过比对我们发现,今日街拍中的Request URL除了timestamp参数其余参数均是固定值,细心的小伙伴一定发现了,不管是在百度图片中还是在今日头条中,如果想要解决请求url中的麻烦,就是要解决那一串莫名其妙的13位数字,那这个数字到底是什么呢?

我们来打开一个工具:Unix时间戳(Unix timestamp)转换工具,我们输入对应的timestamp值发现其就是一个时间戳:
在这里插入图片描述

讲到这里了,小伙伴是不是恍然大悟了,我们在构造请求参数的时候加上时间戳不就行了,请看代码:

params = {
    "aid": "24",
    "app_name": "web_search",
    "offset": offset,
    "format": "json",
    "keyword": "街拍三里屯",
    "autoload": "true",
    "count": "20",
    "en_qc": 1,
    "cur_tab": 1,
    "from":"search_tab",
    "pd": "synthesis",
    "timestamp": round(time.time() * 1000),
    "_signature": "_02B4Z6wo00d014rd1mwAAIBDbSacgo6ow.eK2NLAAL17CtjAAP6o0xqnePBdF99y.hRaxZHZHSidb6myPI295UEM3v3-JohYrauBsypltSq0MEELINnpaRIYPo4e7tHeKNxhyChIFLUm9wPl41"
}

解决了请求参数的问题,我们来跑一下程序,看看能不能获取到关于三里屯街拍的一些图片信息:
在这里插入图片描述

我们发现程序正常运行了,等待程序跑完,我们来看一看最终跑下来的成果,请看截图:
在这里插入图片描述

没有问题,程序运行正常。

写在最后

为方便读者了解更为详细的信息,我为小伙伴们提供了三个我的官方渠道:

  • hahaCoder(微信公众号)
  • hahaAI(微信小程序)
  • hahaWebsite. (个人网站)
相关文章
|
11天前
|
数据采集 数据可视化 算法
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
本文设计并实现了一个基于Python的豆瓣电影TOP250爬虫与可视化系统,通过获取电影评分、评论并应用词云和饼图等可视化技术,为用户提供了电影评价的直观展示和深入分析。
【优秀python案例】基于Python的豆瓣电影TOP250爬虫与可视化设计与实现
|
11天前
|
数据采集 数据可视化 关系型数据库
【python案例】基于Python 爬虫的房地产数据可视化分析设计与实现
本文设计并实现了一个基于Python爬虫的房地产数据可视化分析系统,通过BeautifulSoup框架采集房源信息,使用pandas进行数据处理,MySQL存储数据,并利用pyecharts进行数据可视化,以帮助用户更直观地了解房源信息并辅助选房购房。
|
12天前
|
数据采集 监控 搜索推荐
基于python的百度资讯爬虫的设计与实现
本文介绍了一个基于Python语言的网络爬虫设计与实现,该爬虫利用urllib.request和BeautifulSoup库从百度新闻中抓取新闻标题、链接、内容摘要和来源信息,通过模拟浏览器行为和添加随机等待时间来规避反爬机制,为新闻数据分析和舆情监控提供支持。
|
11天前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
|
11天前
|
数据采集 XML 数据可视化
【优秀python案例】基于Python的口红商品的爬虫与可视化的设计与实现
本文介绍了一个基于Python的京东商城口红商品爬虫与可视化系统,通过requests和lxml库抓取商品信息,使用pandas进行数据处理,matplotlib进行数据可视化,分析了口红的价格、评论数(销量)分布以及自营口红品牌的销量和商品种类。
【优秀python案例】基于Python的口红商品的爬虫与可视化的设计与实现
|
28天前
|
数据采集 大数据 Python
FFmpeg 在爬虫中的应用案例:流数据解码详解
在大数据背景下,网络爬虫与FFmpeg结合,高效采集小红书短视频。需准备FFmpeg、Python及库如Requests和BeautifulSoup。通过设置User-Agent、Cookie及代理IP增强隐蔽性,解析HTML提取视频链接,利用FFmpeg下载并解码视频流。示例代码展示完整流程,强调代理IP对避免封禁的关键作用,助你掌握视频数据采集技巧。
FFmpeg 在爬虫中的应用案例:流数据解码详解
|
11天前
|
数据采集 存储 自然语言处理
【优秀python案例】基于百度贴吧的数据采集与文本分析设计与实现
本文介绍了百度贴吧数据采集与文本分析的设计与实现,包括自动化采集帖子数据、进行情感分析和主题分析,以及使用可视化技术展示分析结果。
|
11天前
|
数据采集 数据可视化 数据挖掘
【优秀python案例】基于python爬虫的深圳房价数据分析与可视化实现
本文通过Python爬虫技术从链家网站爬取深圳二手房房价数据,并进行数据清洗、分析和可视化,提供了房价走势、区域房价比较及房屋特征等信息,旨在帮助购房者更清晰地了解市场并做出明智决策。
|
11天前
|
数据采集 算法 数据可视化
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
本文设计并实现了一个基于Python网络爬虫和机器学习模型的今日头条新闻数据分析与热度预测系统,通过数据采集、特征工程、模型构建和可视化展示,挖掘用户行为信息和内容特征,预测新闻热度,为内容推荐和舆情监控提供决策支持。
【优秀python算法设计】基于Python网络爬虫的今日头条新闻数据分析与热度预测模型构建的设计与实现
|
13天前
|
数据采集 XML 前端开发
Python爬虫实战:利用代理IP爬取百度翻译
Python 爬虫实战:利用代理 IP 爬取百度翻译