Python爬虫实战:1000图库大全【别轻易点进来】

简介: Python爬虫实战:1000图库大全【别轻易点进来】

大家好,我是辣条。

今天给大家带来【爬虫实战100例】之41篇,爬虫之路永无止境。

爬取目标
网址:尺度有点大,遭不住...

效果展示

工具准备
开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests

项目解析思路
获取当当前网页的跳转地址,当前页面为主页面数据,我们需要的数据别有一番天地,获取到网页信息提取出所有的跳转地址,获取到源码里的a标签就行当前网页的加载方式为静态数据,直接请求网页地址;

url = 'https://www.xxxx.com/
从源代码里提取到所以的跳转地址

提取的方式可自行选择,小编这里使用正则的方式提取数据,提取详情页面的地址以及标题,用来保存图片起名字,获取到进入详情页面的地址后对地址发送请求,详情页面的数据也分为很多的页面,每个页面有好几张图片,需要对网址进行拼接,构造出新的地址信息,

for i in range(1, int(page_num[0]) + 1):
    if i == 1:
        new_url = info_url
    else:
        new_url = info_url.replace('.html', f'_{i}.html')
    # print(new_url)
    jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

请求之后提取出所有的图片地址在对图片地址发送请求,保存数据大功告成!!

简易源码分享
import requests
import re

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'

}
for i in range(1, 20):

url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i)
response = requests.get(url, headers=headers)
# print(response.content.decode('gbk'))
# 提取想要的数据信息
data_list = re.findall('</a> </li><li><a href="(.*?)" class="pic" target="_Blank" alt="(.*?)">', response.content.decode('gbk'))
# print(data_list)
num = 0
for info_url, title in data_list:
    # print(info_url)
     # print(title)
    res = requests.get(info_url, headers=headers).content.decode('gbk')
    # print(res)
    page_num = re.findall('<li><a>共(.*?)页: </a></li><li>', res)
    # print(page_num)

    for i in range(1, int(page_num[0]) + 1):
        if i == 1:
            new_url = info_url
        else:
            new_url = info_url.replace('.html', f'_{i}.html')
        # print(new_url)
        jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')
        # print(jpg_data)
        jpg_url_list = re.findall('<p align="center"><img src="(.*?)" /></p><br/>', jpg_data)
        # print(jpg_url_list)
        for jgp_url in jpg_url_list:
            result = requests.get(jgp_url, headers=headers).content
            f = open('1000图库/' + title + "-" + str(num) + ".jpg", 'wb')
            f.write(result)
            num += 1
            print(f"正在下载{title}第{num}张")

目录
相关文章
|
14小时前
|
数据采集 存储 架构师
上进计划 | Python爬虫经典实战项目——电商数据爬取!
在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优惠券都是消费者在网购时的刚需,但在这些“优惠”背后已产生灰色地带。
|
15小时前
|
数据采集 XML 数据处理
Python爬虫实战:利用BeautifulSoup解析网页数据
本文将介绍如何利用Python中的BeautifulSoup库来解析网页数据,帮助读者更好地开发爬虫程序,实现自动化数据采集与处理。
|
1天前
|
人工智能 数据可视化 测试技术
Python数据可视化之Matplotlib实战Python中的装饰器:优雅而强大的函数增强工具
Python是一门强大的编程语言,它在数据科学和人工智能领域有着广泛应用。Matplotlib是Python中最常用的数据可视化库之一,它可以帮助开发者将复杂的数据呈现出来,以更好的展示和分析数据。本文将通过实例,介绍如何使用Matplotlib进行数据可视化。 在Python编程中,装饰器是一种强大的工具,可以用来增强函数的功能而不改变其结构。本文将深入探讨Python中装饰器的原理、应用及实例,帮助读者更好地理解和运用这一技术。
|
1天前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
2天前
|
Python
百度搜索:蓝易云【yaml在python中实战】
运行以上代码,会将data字典的内容写入名为"data.yaml"的YAML文件,并从该文件中读取数据并打印出来。在实际应用中,你可以根据需要使用PyYAML库来处理复杂的YAML数据,如配置文件、数据序列化等。 买CN2云服务器,免备案服务器,高防服务器,就选蓝易云。百度搜索:蓝易云
80 1
|
2天前
|
数据采集 数据处理 开发者
Python爬虫技术在数据收集与分析中的应用
随着互联网信息的爆炸式增长,数据收集与分析变得愈发重要。本文将介绍Python爬虫技术在实际项目中的应用,探讨其在数据收集、清洗和分析过程中的作用,以及如何利用Python相关库提高爬虫效率。
|
3天前
|
Web App开发 数据采集 前端开发
Python Selenium 爬虫淘宝案例
本文基于Selenium + MongoDB + ChromeDriver + Pyquery实现爬虫淘宝案例。
38 1
|
3天前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)
35 2
|
4天前
|
机器学习/深度学习 数据采集 JSON
Python爬虫requests库详解#3
摘要:python requests库基用法,高级用法
37 0
|
4天前
|
数据采集 应用服务中间件 数据安全/隐私保护
Python爬虫urllib详解#3
摘要:urllib深度解析与高级用法、robots协议分析
40 1
Python爬虫urllib详解#3

相关产品

  • 云迁移中心