单页面抓图并且保存的爬虫-阿里云开发者社区

单页面抓图并且保存的爬虫

2017-11-12 1078

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

 
        #这个文件的目的是抓取http://baike.baidu.com/view/2975166.htm这个百度百科上的所有图片，并且保存在电脑里。#
       
        # -*- coding: cp936 -*-
       
        import 
        os 
       
        from 
        bs4 
        import 
        BeautifulSoup 
       
        import 
        re 
       
        import 
        requests 
       
        url
        =
        "http://baike.baidu.com/view/2975166.htm" 
       
        #这个网站就是python开发者那个大白胖子的百度百科#
       
        AAA
        =
        requests.get(url) 
       
        BBB
        =
        AAA.text 
       
        #BBB是目标网站的源代码文本,注意是文本！不然BS4不识别#
       
        soup
        =
        BeautifulSoup(BBB,
        "html.parser"
        ,from_encoding
        =
        "utf-8"
        ) 
       
        #这一步用BS4解析，他比正则表达式效果更好一点#
       
        links
        =
        soup.find_all(
        "img"
        ) 
       
        #定位所有以img开头，并且以/img结尾的语句#
       
        i
        =
        1 
       
        for 
        each 
        in 
        links: 
       
        print
        (
        str
        (i)
        +
        "is OK!"
        ) 
       
        pic
        =
        requests.get(each[
        "src"
        ]) 
       
        #注意！这里用的是each["src"]，因为requests.get是询问一个网址，["src"]这是一个网址# 
       
        f
        =
        open
        (
        "e:/pythonaaa/a/"
        +
        str
        (i)
        +
        ".jpg"
        ,
        "wb"
        ) 
       
        f.write(pic.content) 
       
        #保存图片的内容# 
       
        i
        =
        i
        +
        1 
       
        f.close()