开发者社区> AwesomeTang> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Python使用BeautifulSoup爬取妹子图

简介: 最近突然发现之前写的妹子图的爬虫不能用了,估计是网站又加了新的反爬虫机制,本着追求真理的精神我只好又来爬一遍了! 效果 文件夹 妹子图 思路整理 页面地址:http://www.
+关注继续查看

最近突然发现之前写的妹子图的爬虫不能用了,估计是网站又加了新的反爬虫机制,本着追求真理的精神我只好又来爬一遍了!

效果

img_52a4dfc40f8fe164c81431a87bb2ce29.png
文件夹
img_050c6e7aacc38d93b741800f4ad5d9a0.png
妹子图

思路整理

页面地址:http://www.meizitu.com/

  • 获取首页分类标签地址,传入下一步


    img_5ac70f860b438f32e3ebb0a0385090ae.png
    image.png
  • 获取每个分类下内容页面地址


    img_02eb78018212e8b84ebbe4df2e91b14a.png
    image.png
  • 获取内容页面图片地址以及标题,以页面标题作为文件夹名


    img_7019f4c35fc884a4bb7dd82ada8fb2e8.png
    image.png
  • 最后保存图片就好了


代码

所需包
import os      
import sys    
import urllib2
from bs4 import BeautifulSoup  
import requests  
import lxml
import uuid
获取地址

首先说BeautifulSoup真的是爬虫利器,不过需要注意这里返回的list,还需要通过for循环读取每个地址。贴一段官方解释:

Beautiful Soup提供一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

下面给出的代码是从首页获取每个分类的地址,其他的获取包括图片地址,内容页地址也都是大同小异,然后一直嵌套就可以了。

def get_mei_channel(url):  
    web_data=requests.get(url)  
    web_data.encoding='gb2312'
    soup=BeautifulSoup(web_data.text,'lxml')
    channel=soup.select('body span a')
    return channel
##获取分类地址
保存图片

这里需要注意的是保存图片的时候需要加上header,应该是网站更新了验证,去年爬妹子图直接保存就可以的。
文件命名的话我引入了uuid包来生成唯一guid,避免重名保存失败。

def save_pic(url,path):
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    request = urllib2.Request(url, None, header)
    response = urllib2.urlopen(request)
    filename = path +'/'+str(uuid.uuid1())+'.jpg'
    with open(filename,"wb") as f:
        f.write(response.read())
##保存图片,生成唯一guid作为文件名
嵌套

最后按照思路一步步嵌套起来就可以啦,贴完整代码:

# -*- coding: utf-8 -*-
import os      
import sys    
import urllib2
from bs4 import BeautifulSoup  
import requests  
import lxml
import uuid

def judge_folder(path):
    if os.path.isdir(path):
        return False
    else:
        os.mkdir(path)
        return True

def save_pic(url,path):
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    request = urllib2.Request(url, None, header)
    response = urllib2.urlopen(request)
    filename = path +'/'+str(uuid.uuid1())+'.jpg'
    with open(filename,"wb") as f:
        f.write(response.read())

def get_mei_channel(url):  
    web_data=requests.get(url)  
    web_data.encoding='gb2312'
    soup=BeautifulSoup(web_data.text,'lxml')
    channel=soup.select('body span a')
    return channel

def get_mei_info(url):  
    web_data=requests.get(url)  
    web_data.encoding='gb2312'
    soup=BeautifulSoup(web_data.text,'lxml')
    info=soup.select('body div.pic a')
    return info

def get_mei_pic(url):  
    web_data=requests.get(url)  
    web_data.encoding='gb2312'
    soup=BeautifulSoup(web_data.text,'lxml')
    pic=soup.select('body p img')
    titlelist=soup.select('body div h2 a')
    for list in titlelist:
        path_folder = format(list.get_text())
        path = root_folder + path_folder.encode('utf-8') 
        print '创建文件夹>>>'+ path_folder.encode('utf-8') +'>>>'
        if judge_folder(path):
            print '***开始下载啦!!***'
        else:
            pic =[]
            print '***文件夹已存在,即将开始保存下一个页面***'
    return pic ,path
 

def MeiZiTuSpider(url):
    channel_list = get_mei_channel(url)
    for channel in channel_list:
        channel_url = (channel.get('href'))
        channel_title = (channel.get('title'))
        print '***开始查找 '+channel_title.encode('utf-8') +' 分类下的妹子图***'
        info_list = get_mei_info(channel_url)
        for info in info_list:
            info_url = (info.get('href'))
            pic_list,path = get_mei_pic(info_url)
            for pic in pic_list:
                pic_url = (pic.get('src'))
                save_pic(pic_url,path)


root_folder = 'MEIZITU/'
url='http://www.meizitu.com/'

if __name__ == "__main__":
    if os.path.isdir(root_folder):
        pass
    else:
        os.mkdir(root_folder)
    MeiZiTuSpider(url)
    print '****MeiZiTuSpider@Awesome_Tang****'

其实还有一步可以做,每个分类页面下目前是只取了第一页的内容,再加一个页码的嵌套的话基本上就可以全部download下来了,不过我盖中盖的Mac吃不消了,有兴趣的可以尝试下~
另外我把代码打包生成了exe,有兴趣的可以留言或者私信我,我发你^^


peace~

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
python爬虫爬取房源信息
写这篇博客的原因是在我爬取房产这类数据信息的时候,发现csdn中好多博主写的关于此类的文章代码已经不适用,因为好多房产网站代码已经更改,使用老的代码明显爬取不到所需要的房产信息。......
0 0
Python 多线程爬取西刺代理
西刺代理是一个国内IP代理,由于代理倒闭了,所以我就把原来的代码放出来供大家学习吧。
0 0
Python爬取中国最好大学排行榜报错TypeError: unsupported format string passed to NoneType.__format__
Python爬取中国最好大学排行榜报错TypeError: unsupported format string passed to NoneType.__format__
0 0
「Python」爬虫-9.Scrapy框架的初识-公交信息爬取
本文将讲解如何使用scrapy框架完成北京公交信息的获取。
0 0
「Python」爬虫-8.断点调试-网易云评论爬取
>通过前面几篇文章的学习,这里我们以爬取网易云评论为例,来进行一次综合实战。本文涉及到的知识点主要是断点调试,讲述如何模拟加密。
0 0
「Python」爬虫实战-北京公交线路信息爬取(requests+bs4)
使用requests爬取北京公交线路信息,目标网址为[https://beijing.8684.cn/](https://beijing.8684.cn/)。 爬取的具体信息为公交线路名称、公交的运营范围、运行时间、参考票价、公交所属的公司以及服务热线、公交来回线路的途径站点。
0 0
python爬虫爬取豆瓣电影排行榜
爬虫爬取豆瓣电影排行榜
0 0
【Python】手把手教你用selenium爬取某东月饼数据
本期我们使用Pycharm+python3.7.9+selenium实现对京东月饼等信息的爬取,爬取信息不限于月饼,可以是京东上所有在销商品
0 0
Python模拟登陆云南民族大学完成课表爬取
预览图: 使用到的库 from selenium import webdriver import time F12获取HTML元素后完成登录 # #声明浏览器对象 browser1 = webdriver.Chrome() # #访问云南民族大学登录页面 browser1.get("http://202.203.158.158/sso/login?service=http%3A%2F%2F202.203.158.158%2Fj_spring_cas_security_check") time.slee
0 0
+关注
AwesomeTang
Done is better than perfect.
文章
问答
文章排行榜
最热
最新
相关电子书
更多
给运维工程师的Python实战课
立即下载
Python 脚本速查手册
立即下载
ACE 区域技术发展峰会:Flink Python Table API入门及实践
立即下载