欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!

简介: 学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片我们的目标选择唯一图库,url自己去找【人工呲牙笑】这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类上面分类没有这个分类,自己想办法进入哦。

学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片

我们的目标选择唯一图库,url自己去找【人工呲牙笑】

这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类

Python爬虫初接触,学会爬虫不抓美女图片干啥!

上面分类没有这个分类,自己想办法进入哦。。。

然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看源代码中位置!

Python爬虫初接触,学会爬虫不抓美女图片干啥!

可以看到这里就是控制页面翻页的源代码了,我们直接拿到a标签的href属性,这个是最后一页的地址,将属性中的“789”切出来,就拿到了最大页码,然后循环拿到所有页面的url,如下图

Python爬虫初接触,学会爬虫不抓美女图片干啥!

这样就拿到所有页面的url了,然后我们取图集的url,同样的方式,找到源码中url的位置

Python爬虫初接触,学会爬虫不抓美女图片干啥!

img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
#url_i 是页面的url,也就是上个代码截图中那个列表,循环遍历出来的

一行代码就取到了所有a标签下的图集地址,一页有24个图集!这里我们用一个函数来获取所有图集内图片地址并返回图集名字和图片地址

Python爬虫初接触,学会爬虫不抓美女图片干啥!

这样,主要内容就写完了,然后就是构建整个代码,写入本地,我还将之前做的进度条也加进去了,整体代码和效果发出来看看!

import os
import time
import requests
from lxml import etree

def get_img_url(url):
    '''
    :param url: 图集url
    :return: 图集名字和图片地址所构成的字典
    '''
    img = {}#空字典,用于放图片url和对应的编号
    html = requests.get(url)#获取页面源码
    html.encoding = 'gb2312'
    data = etree.HTML(html.text)#解析
    title = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/text()')[0]#图集名
    page = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]#图集图片数
    img['1'] = data.xpath('//a[@class="down-btn"]/@href')[0]#第一张的图片地址
    for i in range(2,int(page)+1):
        #其余的图片地址
        img_url = etree.HTML(requests.get(url.replace('.html','_%s.html'%str(i))).text).xpath('//a[@class="down-btn"]/@href')[0]
        img['%s'%str(i)] = img_url#写入字典
    return title,img


def downloader(url,path,name,header={}):
    start = time.time()#开始时间
    if os.path.exists(path):  # 判断路径及文件夹是否存在,不存在即创建
        pass
    else:
        os.mkdir(path)
    size = 0
    if header is None:
        response = requests.get(url, stream=True)#stream属性必须带上
    else:
        response = requests.get(url, stream=True,headers=header)#stream属性必须带上
    chunk_size = 1024#每次下载的数据大小
    content_size = int(response.headers['content-length'])#总大小
    if response.status_code == 200:
        print('[文件大小]:%0.2f MB' % (content_size / chunk_size / 1024))#换算单位并print
        with open(path+'\\%s'%name, "ab") as file:
            for data in response.iter_content(chunk_size=chunk_size):
                file.write(data)
                file.flush()#清空缓存
                size += len(data)#已下载文件大小
                #\r指定行第一个字符开始,搭配end属性完成覆盖进度条
                print('\r'+'[下载进度]:%s%.2f%%' % ('>'*int(size*50/ content_size),float(size / content_size * 100)),end='')
    end = time.time()#结束时间
    print('\n'+"%s下载完成!用时%.2f秒"%(name,(end-start)))

if __name__ == '__main__':
    url_list=[]#放入所有页面url
    url = 'http://www.mmonly.cc/mmtp/'
    url_list.append(url)#先放入第一页
    html = requests.get(url)
    html.encoding = 'gb2312'
    page = etree.HTML(html.text).xpath('//a[text()="末页"]/@href')[0].split('_')[-1].split('.')[0]
    for i in range(2,int(page)+1):
        url_list.append(url+'list_9_{}.html'.format(str(i)))#其余页面url,注意第一页和其他页不一样
    for url_i in url_list:
        img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
        for img_url in img_urls:
            title,imgs = get_img_url(img_url)
            for img in imgs.keys():
                path = 'E:\\python\\mn\\%s' % title
                downloader(url= imgs[img],path=path,name='%s.jpg'%(title+img))

Python爬虫初接触,学会爬虫不抓美女图片干啥!

Python爬虫初接触,学会爬虫不抓美女图片干啥!

其实这里我想说的是,整个网站很标题党。。。完全不符合标题的。

相关文章
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 机器学习/深度学习
Fuel 爬虫:Scala 中的图片数据采集与分析
Fuel 爬虫:Scala 中的图片数据采集与分析
|
9月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
696 3
|
9月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
2354 0
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
988 68
|
前端开发 Docker 容器
写作利器,一款极简的Markdown 编辑器
WeChat Markdown Editor 是一款高度简洁的微信 Markdown 编辑器:支持 Markdown 语法、色盘取色、多图上传、一键下载文档、自定义 CSS 样式、一键重置等特性。
942 70
写作利器,一款极简的Markdown 编辑器
|
9月前
|
开发工具 Android开发 开发者
用Flet打造跨平台文本编辑器:从零到一的Python实战指南
本文介绍如何使用Flet框架开发一个跨平台、自动保存的文本编辑器,代码不足200行,兼具现代化UI与高效开发体验。
1257 0
|
11月前
|
数据采集 存储 监控
Python爬虫实战:批量下载亚马逊商品图片
Python爬虫实战:批量下载亚马逊商品图片
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
1584 31
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2812 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本

推荐镜像

更多