Python爬虫实战:1000图库大全【别轻易点进来】

简介: Python爬虫实战:1000图库大全【别轻易点进来】

大家好,我是辣条。

今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。

爬取目标
网址:尺度有点大,遭不住...

效果展示

工具准备
开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests

项目解析思路
获取当当前网页的跳转地址,当前页面为主页面数据,我们需要的数据别有一番天地,获取到网页信息提取出所有的跳转地址,获取到源码里的a标签就行当前网页的加载方式为静态数据,直接请求网页地址;

url = 'https://www.xxxx.com/
从源代码里提取到所以的跳转地址

提取的方式可自行选择,小编这里使用正则的方式提取数据,提取详情页面的地址以及标题,用来保存图片起名字,获取到进入详情页面的地址后对地址发送请求,详情页面的数据也分为很多的页面,每个页面有好几张图片,需要对网址进行拼接,构造出新的地址信息,

for i in range(1, int(page_num[0]) + 1):
    if i == 1:
        new_url = info_url
    else:
        new_url = info_url.replace('.html', f'_{i}.html')
    # print(new_url)
    jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

请求之后提取出所有的图片地址在对图片地址发送请求,保存数据大功告成!!

简易源码分享
import requests
import re

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'

}
for i in range(1, 20):

url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i)
response = requests.get(url, headers=headers)
# print(response.content.decode('gbk'))
# 提取想要的数据信息
data_list = re.findall('</a> </li><li><a href="(.*?)" class="pic" target="_Blank" alt="(.*?)">', response.content.decode('gbk'))
# print(data_list)
num = 0
for info_url, title in data_list:
    # print(info_url)
     # print(title)
    res = requests.get(info_url, headers=headers).content.decode('gbk')
    # print(res)
    page_num = re.findall('<li><a>共(.*?)页: </a></li><li>', res)
    # print(page_num)

    for i in range(1, int(page_num[0]) + 1):
        if i == 1:
            new_url = info_url
        else:
            new_url = info_url.replace('.html', f'_{i}.html')
        # print(new_url)
        jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')
        # print(jpg_data)
        jpg_url_list = re.findall('<p align="center"><img src="(.*?)" /></p><br/>', jpg_data)
        # print(jpg_url_list)
        for jgp_url in jpg_url_list:
            result = requests.get(jgp_url, headers=headers).content
            f = open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')
            f.write(result)
            num += 1
            print(f"正在下载{title}第{num}张")

目录
相关文章
|
6月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
830 7
|
6月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
6月前
|
数据采集 运维 监控
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
本文系统解析爬虫与自动化核心技术,涵盖HTTP请求、数据解析、分布式架构及反爬策略,结合Scrapy、Selenium等框架实战,助力构建高效、稳定、合规的数据采集系统。
1116 62
爬虫与自动化技术深度解析:从数据采集到智能运维的完整实战指南
|
6月前
|
数据采集 机器学习/深度学习 人工智能
反爬虫机制深度解析:从基础防御到高级对抗的完整技术实战
本文系统阐述了反爬虫技术的演进与实践,涵盖基础IP限制、User-Agent检测,到验证码、行为分析及AI智能识别等多层防御体系,结合代码实例与架构图,全面解析爬虫攻防博弈,并展望智能化、合规化的发展趋势。
2364 62
反爬虫机制深度解析:从基础防御到高级对抗的完整技术实战
|
6月前
|
传感器 运维 前端开发
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
本文解析异常(anomaly)与新颖性(novelty)检测的本质差异,结合distfit库演示基于概率密度拟合的单变量无监督异常检测方法,涵盖全局、上下文与集体离群值识别,助力构建高可解释性模型。
539 10
Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测
|
6月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
6月前
|
Cloud Native 算法 API
Python API接口实战指南:从入门到精通
🌟蒋星熠Jaxonic,技术宇宙的星际旅人。深耕API开发,以Python为舟,探索RESTful、GraphQL等接口奥秘。擅长requests、aiohttp实战,专注性能优化与架构设计,用代码连接万物,谱写极客诗篇。
1396 1
Python API接口实战指南:从入门到精通
|
6月前
|
存储 分布式计算 测试技术
Python学习之旅:从基础到实战第三章
总体来说,第三章是Python学习路程中的一个重要里程碑,它不仅加深了对基础概念的理解,还引入了更多高级特性,为后续的深入学习和实际应用打下坚实的基础。通过这一章的学习,读者应该能够更好地理解Python编程的核心概念,并准备好应对更复杂的编程挑战。
208 12
|
6月前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
7月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
1001 19

推荐镜像

更多