scrapy爬虫学习-阿里云开发者社区

scrapy爬虫学习

2017-11-07 1010

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

 
          urllib模块解析编码url参数
         
          from 
          urllib 
          import 
          parse 
         
          postdata 
          = 
          { 
         
          'a'
          : 
          1
          , 
         
          'b'
          : 
          2 
         
          }
         
          data 
          = 
          parse.urlencode(postdata) 
         
          print
          (data) 
         
          windows下爬虫脚本必须配置以下内容，否则出现编码错误
         
          import 
          sys,io 
         
          sys.stdout
          =
          io.TextIOWrapper(sys.stdout.
          buffer
          ,encoding
          =
          'gb18030'
          ) 
         
          一、爬取煎蛋网内容
         
          items.py    
          #数据字段 
         
          import 
          scrapy 
         
          class 
          JiandanItem(scrapy.Item): 
         
          # define the fields for your item here like: 
         
          # name = scrapy.Field() 
         
          title 
          = 
          scrapy.Field() 
         
          content 
          = 
          scrapy.Field() 
         
          img_url 
          = 
          scrapy.Field() 
         
          爬虫脚本jiandan.py
         
          import 
          sys,io 
         
          sys.stdout
          =
          io.TextIOWrapper(sys.stdout.
          buffer
          ,encoding
          =
          'gb18030'
          ) 
         
          import 
          scrapy 
         
          from 
          ..items 
          import 
          JiandanItem 
         
          from 
          scrapy.selector 
          import 
          HtmlXPathSelector 
         
          class 
          JianDanSpider(scrapy.Spider): 
         
          name 
          = 
          "jiandan" 
         
          allowed_domains 
          = 
          [
          "jandan.net"
          ] 
         
          start_urls 
          = 
          [ 
         
          "http://jandan.net/"
          , 
         
          ] 
         
          def 
          parse(
          self
          , response): 
         
          #title_list = response.xpath('//div[@class="indexs"]//h2/a/text()').extract() 
         
          hxs 
          = 
          HtmlXPathSelector(response) 
         
          items 
          = 
          hxs.select(
          '//div[@class="post f list-post"]'
          ) 
         
          for 
          item 
          in 
          items: 
         
          img_url 
          = 
          item.select(
          './/div[@class="thumbs_b"]/a/img/@data-original'
          ).extract_first() 
         
          if 
          not 
          img_url: 
         
          img_url 
          = 
          item.select(
          './/div[@class="thumbs_b"]/a/img/@src'
          ).extract_first() 
         
          img_url 
          = 
          img_url.strip(
          "/"
          ) 
         
          img_url 
          = 
          "http://"
          +
          img_url 
         
          title 
          = 
          item.select(
          './/div[@class="indexs"]/h2/a/text()'
          ).extract_first() 
         
          content 
          = 
          item.select(
          './/div[@class="indexs"]/text()'
          ).extract()[
          3
          ] 
         
          content 
          = 
          content.strip() 
         
          obj 
          = 
          JiandanItem(title
          =
          title, img_url
          =
          img_url, content
          =
          content) 
         
          yield 
          obj 
         
          pipelines.py
          #数据存储脚本 
         
          import 
          json 
         
          import 
          os 
         
          import 
          requests 
         
          # class JiandanPipeline(object):
         
          #     def process_item(self, item, spider):
         
          #         return item
         
          class 
          JsonPipeline(
          object
          ):    
          #items.py设置的字段存储方式 
         
          def 
          __init__(
          self
          ): 
         
          self
          .
          file 
          = 
          open
          (
          'jiandan.txt'
          , 
          'w'
          ) 
         
          def 
          process_item(
          self
          , item, spider): 
         
          v 
          = 
          json.dumps(
          dict
          (item), ensure_ascii
          =
          False
          ) 
         
          self
          .
          file
          .write(v) 
         
          self
          .
          file
          .write(
          '\n'
          ) 
         
          self
          .
          file
          .flush() 
         
          return 
          item 
         
          class 
          FilePipeline(
          object
          ):    
          #图片url存储方式 
         
          def 
          __init__(
          self
          ): 
         
          if 
          not 
          os.path.exists(
          'imgs'
          ): 
         
          os.makedirs(
          'imgs'
          ) 
         
          def 
          process_item(
          self
          , item, spider): 
         
          response 
          = 
          requests.get(item[
          'img_url'
          ],stream
          =
          True
          ) 
         
          with 
          open
          (
          '1.jpg'
          , mode
          =
          'wb'
          ) as f: 
         
          f.write(response.content) 
         
          return 
          item 
         
          settings.py
          #设置存储 
         
          ITEM_PIPELINES 
          = 
          { 
         
          'jiandan.pipelines.JsonPipeline'
          : 
          100
          , 
         
          'jiandan.pipelines.FilePipeline'
          : 
          300
          , 
         
          }
         
          命令行输出json文件: scrapy crawl jiandan 
          -
          o items.json

本文转自小白的希望 51CTO博客，原文链接：http://blog.51cto.com/haoyonghui/1976840 ，如需转载请自行联系原作者

scrapy爬虫学习

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

scrapy爬虫学习

热门文章

最新文章

相关课程

相关电子书