手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

简介:

/1 前言/

平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片。

/2 项目准备工作/

首先 我们第一步我们要安装一个pycham的软件。可以参考这篇文章:Python环境搭建—安利Python小白的Python和Pycharm安装详细教程。

天堂网的网址:

https://www.ivsky.com/bizhi/1920x1080/

我们需要下载几个库,怎么下载呢?打开pycharm,依次点击File,再点开Settings,如下图所示。
打开后会出现这个界面点击你的项目名字(project:(你的项目名字)),之后在project  interpreter下,点击加号,而后下载我们需要的库,如下图所示。
本项目需要用到的是库是requests、lxml、fake_useragent,如下图所示。fake_useragent一般是没有的,需要通过下面的命令进行安装:

pip install fake_useragent

/3 项目实现/

1. 导入需要的库(requests,lxml, fake_useragent)。

2. 我用了封装方法去实现各个部分的功能。首先要写一个框架:构造一个类TianTangWebsite ,然后定义一个__init__方法里继承(self),再定义一个主方法(main)。最后实现这个main方法,依次一步一步进行实现。

3. 我们把天堂网的网址拿过来,构造请求头。这里说一下这个UserAgent的获取方法。在打开天堂网的网站后,按下键盘上的F12键,之后会进入到开发者模式,之后点开network,如下图所示。
4. 而后随便点击一个name,复制header里边的UserAgent就可以了。 
  1. 我们点击下一页的地址观察网址的变化,如下所示:

https://www.ivsky.com/bizhi/1920x1080/index_2.html
https://www.ivsky.com/bizhi/1920x1080/index_3.html
https://www.ivsky.com/bizhi/1920x1080/index_4.html

很明显的发现,这个网址的网页数字一直在变化。我们可以用格式化{}去代替变化的值,类似这样:

https://www.ivsky.com/bizhi/1920x1080/index_{}.html

6. 然后我们用for循环去遍历这些网址,代码如下所示:

def main(self):

for i in range(1,2):#页数随机客户随便 设置
  url=self.url.format(i)
  print(url)
 7. 我们定义这个get_home()方法去请求到这个网址。
9. 我们需要解析得到的数据,接下来定义一个xiap的方法,拿到我们请求的网址。接下来就是该项目的关键了。

10. 至此,针对反爬虫的措施我们已经提前做好了准备,下一步将进行网页结构的分析以及网页图片地址数据的提取,并针对解析出来的图片地址予以批量下载,具体实现咱们下篇文章进行详解。

/4 小结/

本文主要内容为对图片网站进行了基本简介,基于 Python 中的爬虫库 requests 、lxml、fake_useragent,提前部署了请求头,模拟浏览器,针对反爬虫的措施我们已经提前做好了准备。

下篇文章将带大家进行网页结构的分析以及网页图片地址数据的提取,并针对解析出来的图片地址予以批量下载,敬请期待~~
相关文章
|
Java 调度
【PriorityQueue优先级队列及其应用】
【PriorityQueue优先级队列及其应用】
198 0
|
5月前
|
JSON API 开发者
天猫商品详情 API 接口:功能、调用与实战攻略
天猫商品详情API为电商从业者、开发者和数据分析人员提供高效的商品数据获取途径。通过商品ID,该接口可返回包括基本信息、价格、库存及图片等详细内容,具有高准确性、易集成和功能丰富的特点。示例代码展示了如何用Python调用此API,生成签名确保请求安全,助力用户优化定价策略、开发应用或分析市场趋势。
288 10
|
12月前
|
前端开发 JavaScript 定位技术
一、前端高德地图注册、项目中引入、渲染标记(Marker)and覆盖物(Circle)
文章介绍了如何在前端项目中注册并使用高德地图API,包括注册高德开放平台账号、引入高德地图到项目、以及如何在地图上渲染标记(Marker)和覆盖物(Circle)。
365 1
|
12月前
|
自然语言处理 文字识别 数据可视化
文档智能(Document Mind)评测
文档智能(Document Mind)评测
163 3
|
XML 监控 Java
Spring Cloud全解析:熔断之Hystrix简介
Hystrix 是由 Netflix 开源的延迟和容错库,用于提高分布式系统的弹性。它通过断路器模式、资源隔离、服务降级及限流等机制防止服务雪崩。Hystrix 基于命令模式,通过 `HystrixCommand` 封装对外部依赖的调用逻辑。断路器能在依赖服务故障时快速返回备选响应,避免长时间等待。此外,Hystrix 还提供了监控功能,能够实时监控运行指标和配置变化。依赖管理方面,可通过 `@EnableHystrix` 启用 Hystrix 支持,并配置全局或局部的降级策略。结合 Feign 可实现客户端的服务降级。
663 23
|
存储 算法 C++
【C++】vector介绍以及模拟实现(超级详细)
【C++】vector介绍以及模拟实现(超级详细)
184 4
|
11月前
|
安全 Shell 网络安全
DC-2靶机上了解和练习WordPress框架
本文介绍了在一个名为DC2的虚拟环境中进行渗透测试的过程。首先通过扫描发现SSH和Web端口,并进行全端口扫描以寻找隐藏端口。接着通过信息收集、漏洞利用(如SQL注入、文件上传漏洞等)、反弹Shell及提权等步骤逐步攻陷目标系统。文章详细描述了使用Cewl生成字典、Dirsearch扫描目录、Wpscan枚举WordPress用户等技巧,并最终通过SSH登录和Git命令实现了提权,获取多个flag。
164 3
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之在开发环境代码运行没问题,生产环境运行报错,是什么导致的
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
268 0
|
机器学习/深度学习 算法 数据可视化
基于GA遗传优化的CNN-LSTM的时间序列回归预测matlab仿真
摘要:该内容展示了基于遗传算法优化的CNN-LSTM时间序列预测模型在matlab2022a中的应用。核心程序包括遗传算法优化过程、网络训练、误差分析及预测结果的可视化。模型通过GA调整CNN-LSTM的超参数,提升预测准确性和稳定性。算法流程涉及初始化、评估、选择、交叉和变异等步骤,旨在找到最佳超参数以优化模型性能。
|
网络安全 开发工具 数据安全/隐私保护
Git - 记一次完整的新旧Gitlab迁移
Git - 记一次完整的新旧Gitlab迁移
677 0