scrapy是用python实现的一个为了爬取网站数据,提取结构性数据而编写的应用框架
scrapy常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中
通常可以简单的通过scrapy框架实现一个爬虫。抓取指定网站的内容或图片
只有当调度器中不存在任何request了,整个程序才会停止(也就是说,对于下载失败的URL,Scrapy也会重新下载)
制作Scrapy爬虫一共4步
1.新建项目(scrapy startproject xxx):新建一共新的爬虫项目
2.明确目标(编写items.py):明确你想要抓取的目标
3.制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页
4.存储内容(pipelines.py):设计管道存储爬取内容
安装
pip install scrapy