Scrapy实战-下载豆瓣图书封面

简介: 紧接着再识Scrapy-爬取豆瓣图书,我们打算把每一本图书的封面都爬下来,毕竟下载图片是一件很棒的事。可以凭借这招去搜集各种表情包呢,还可以省了在某榴辛辛苦苦一个一个打开网页的烦恼呢。

紧接着再识Scrapy-爬取豆瓣图书,我们打算把每一本图书的封面都爬下来,毕竟下载图片是一件很棒的事。可以凭借这招去搜集各种表情包呢,还可以省了在某榴辛辛苦苦一个一个打开网页的烦恼呢。
根据官方文档,下载图片其实pipeline.py的额外工作而已,大致分为以下几步

  1. 在Spider中,额外定义一个image_urls用来存放图片链接的 item;
  2. 这个item会从spider中传递到pipeline中
  3. 在这个item到了ImagesPipeline后,里面的url经由scheduler插队到downloader进行下载
  4. 下载完成后,Scrapy会新建一个files字段用于存放结果。
  5. 需要额外安装PIL保证正常工作。

使用方法

  1. 在settings.py的ITEM_PIPELINES中加入
    'scrapy.pipelines.images.ImagesPipeline':1,

  2. 在items.py中建立相应的item.
    import scrapy
    class MyItem(scrapy.Item):
    # ... 其他字段 ...
    image_urls = scrapy.Field()
    images = scrapy.Field()

  3. 在settings.py中添加图片存放目录,如
    IMAGES_STORE = 'G:/images'

  4. (非必须)假设你觉得image_urls和images不够霸气,想换个名字,如douban_urls,douban你可以在settings.py中增加如下字段,用来声明新的字段:
    IMAGES_URLS_FIELD = ‘douban_urls'
    IMAGES_RESULT_FIELD = 'douban'

文件命名格式为:下载图片url的SHA1 hash值,不喜欢的话可以看这里进行深入研究,反正我就看图,凑合用了。

目录
相关文章
|
19天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
60 6
|
20天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
46 4
|
6月前
|
存储 前端开发 机器人
Python网络数据抓取(6):Scrapy 实战
Python网络数据抓取(6):Scrapy 实战
63 2
|
3月前
|
存储 数据采集 中间件
scrapy实战2586个小姐姐带回家
scrapy实战2586个小姐姐带回家
54 3
scrapy实战2586个小姐姐带回家
|
数据采集 存储 中间件
Amazon图片下载器:利用Scrapy库完成图像下载任务
本文介绍了如何使用Python的Scrapy库编写一个简单的爬虫程序,实现从Amazon网站下载商品图片的功能。Scrapy是一个强大的爬虫框架,提供了许多方便的特性,如选择器、管道、中间件、代理等。本文将重点介绍如何使用Scrapy的图片管道和代理中间件,以提高爬虫的效率和稳定性。
Amazon图片下载器:利用Scrapy库完成图像下载任务
|
数据采集 XML 存储
【新闻推荐系统】(task3)Scrapy基础及新闻爬取实战
一、Scrapy的简介与安装 python环境的安装: python 环境,使用minicon
618 0
【新闻推荐系统】(task3)Scrapy基础及新闻爬取实战
|
数据采集 JSON 安全
|
数据采集 Python
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
|
数据采集 NoSQL 关系型数据库
scrapy 实战练习
前一篇文章介绍了很多关于scrapy的进阶知识,不过说归说,只有在实际应用中才能真正用到这些知识。所以这篇文章就来尝试利用scrapy爬取各种网站的数据。
1824 0
|
1月前
|
数据采集 中间件 开发者
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件