欢迎使用CSDN-markdown编辑器Python爬虫初接触,学会爬虫不抓美女图片干啥!

简介: 学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片我们的目标选择唯一图库,url自己去找【人工呲牙笑】这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类上面分类没有这个分类,自己想办法进入哦。

学习编程语言是很枯燥的,尤其是对一个编程零基础的人来说,更为枯燥!所以我们要从枯燥的学习中找点乐趣和动力!比如,抓点小姐姐的图片

我们的目标选择唯一图库,url自己去找【人工呲牙笑】

这个网站没有反爬,特别好爬,打开主页后,找到美女图片分类

Python爬虫初接触,学会爬虫不抓美女图片干啥!

上面分类没有这个分类,自己想办法进入哦。。。

然后往下拉,就会发现N多的图集,我们先去找找翻页,记得先打开F12开发者工具,然后选择翻页,查看源代码中位置!

Python爬虫初接触,学会爬虫不抓美女图片干啥!

可以看到这里就是控制页面翻页的源代码了,我们直接拿到a标签的href属性,这个是最后一页的地址,将属性中的“789”切出来,就拿到了最大页码,然后循环拿到所有页面的url,如下图

Python爬虫初接触,学会爬虫不抓美女图片干啥!

这样就拿到所有页面的url了,然后我们取图集的url,同样的方式,找到源码中url的位置

Python爬虫初接触,学会爬虫不抓美女图片干啥!

img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
#url_i 是页面的url,也就是上个代码截图中那个列表,循环遍历出来的

一行代码就取到了所有a标签下的图集地址,一页有24个图集!这里我们用一个函数来获取所有图集内图片地址并返回图集名字和图片地址

Python爬虫初接触,学会爬虫不抓美女图片干啥!

这样,主要内容就写完了,然后就是构建整个代码,写入本地,我还将之前做的进度条也加进去了,整体代码和效果发出来看看!

import os
import time
import requests
from lxml import etree

def get_img_url(url):
    '''
    :param url: 图集url
    :return: 图集名字和图片地址所构成的字典
    '''
    img = {}#空字典,用于放图片url和对应的编号
    html = requests.get(url)#获取页面源码
    html.encoding = 'gb2312'
    data = etree.HTML(html.text)#解析
    title = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/text()')[0]#图集名
    page = data.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]#图集图片数
    img['1'] = data.xpath('//a[@class="down-btn"]/@href')[0]#第一张的图片地址
    for i in range(2,int(page)+1):
        #其余的图片地址
        img_url = etree.HTML(requests.get(url.replace('.html','_%s.html'%str(i))).text).xpath('//a[@class="down-btn"]/@href')[0]
        img['%s'%str(i)] = img_url#写入字典
    return title,img


def downloader(url,path,name,header={}):
    start = time.time()#开始时间
    if os.path.exists(path):  # 判断路径及文件夹是否存在,不存在即创建
        pass
    else:
        os.mkdir(path)
    size = 0
    if header is None:
        response = requests.get(url, stream=True)#stream属性必须带上
    else:
        response = requests.get(url, stream=True,headers=header)#stream属性必须带上
    chunk_size = 1024#每次下载的数据大小
    content_size = int(response.headers['content-length'])#总大小
    if response.status_code == 200:
        print('[文件大小]:%0.2f MB' % (content_size / chunk_size / 1024))#换算单位并print
        with open(path+'\\%s'%name, "ab") as file:
            for data in response.iter_content(chunk_size=chunk_size):
                file.write(data)
                file.flush()#清空缓存
                size += len(data)#已下载文件大小
                #\r指定行第一个字符开始,搭配end属性完成覆盖进度条
                print('\r'+'[下载进度]:%s%.2f%%' % ('>'*int(size*50/ content_size),float(size / content_size * 100)),end='')
    end = time.time()#结束时间
    print('\n'+"%s下载完成!用时%.2f秒"%(name,(end-start)))

if __name__ == '__main__':
    url_list=[]#放入所有页面url
    url = 'http://www.mmonly.cc/mmtp/'
    url_list.append(url)#先放入第一页
    html = requests.get(url)
    html.encoding = 'gb2312'
    page = etree.HTML(html.text).xpath('//a[text()="末页"]/@href')[0].split('_')[-1].split('.')[0]
    for i in range(2,int(page)+1):
        url_list.append(url+'list_9_{}.html'.format(str(i)))#其余页面url,注意第一页和其他页不一样
    for url_i in url_list:
        img_urls = etree.HTML(requests.get(url_i).text).xpath('//div[@class="ABox"]/a/@href')
        for img_url in img_urls:
            title,imgs = get_img_url(img_url)
            for img in imgs.keys():
                path = 'E:\\python\\mn\\%s' % title
                downloader(url= imgs[img],path=path,name='%s.jpg'%(title+img))

Python爬虫初接触,学会爬虫不抓美女图片干啥!

Python爬虫初接触,学会爬虫不抓美女图片干啥!

其实这里我想说的是,整个网站很标题党。。。完全不符合标题的。

相关文章
|
17天前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
105 4
|
2月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
3月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
72 4
|
3月前
|
移动开发 前端开发 JavaScript
基于 HTML5 和 Canvas 开发的在线图片编辑器
基于 HTML5 和 Canvas 开发的在线图片编辑器
69 0
|
21小时前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
100 66
|
17天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
48 3
|
17天前
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
40 1
|
26天前
|
数据采集 机器学习/深度学习 搜索推荐
Python爬虫技术基础与应用场景详解
本文介绍了爬虫技术的基本概念、原理及应用场景,包括数据收集、价格监测、竞品分析和搜索引擎优化等。通过一个实战案例展示了如何使用Python爬取电商网站的商品信息。强调了在使用爬虫技术时需遵守法律法规和道德规范,确保数据抓取的合法性和合规性。
|
1月前
|
数据采集 存储 前端开发
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
下一篇
无影云桌面